當前位置:
首頁 > 最新 > NVIDIA英偉達黃仁勛發布全球最大GPU,超算級逆天算力

NVIDIA英偉達黃仁勛發布全球最大GPU,超算級逆天算力

來源:GTC

作者:聞菲、張乾、肖琴

在剛剛結束的GTC 2018上,黃仁勛在熟悉的背景音樂中上場,GTC今年已經是第十年了。

稱不上激昂,但顯然迫不及待要分享。不是首先揭幕萬眾期待的新品,而是回歸初心——黃仁勛說,圖形技術是GPU的核心驅動力,是虛擬現實的根本,在各種各樣的領域,我們想將信息和數據可視化,形成了R&D預算,由此也構建了巨大的市場。

重現逼真圖像是計算機圖形學一直以來的追求,要呈現一幅美麗的圖像,40年來,GPU渲染一幅圖的時間,從幾小時降到了幾秒,而且圖像的清晰度增加到了4K。

接著,黃仁勛回顧了各種技術,光的反射、散射、漫射、陰影……以及要渲染出種種質感相應的技術。

接著,展示了一段《星球大戰》視頻的演示,重點是逼真效果的實時Ray Tracing,各種表面的光線反射,每當一束光線遇到一個表面,都要決定要反射還是被吸收,什麼角度反射,被吸收多少程度,整個環境中到處都是表面,每一個都需要渲染……這些需要龐大的計算量,因此動畫公司才需要超級計算機來計算這些效果。

十年技術成果,首次將實時光線跟蹤技術推向商業市場

而英偉達一台DGX-Station就夠了。

於是,第一個宣布——RTX Technolgy,這是英偉達十年技術成果,也是Ray Tracing首次在這種規格上,全部實時實現。黃仁勛說,這是首次將實時Ray Tracing帶向商業市場。感謝GPU,感謝深度學習。

英偉達推出的Quadro GV100 GPU將該公司最近發布的RTX光線跟蹤技術引入工作站。英偉達的RTX光線追蹤技術是軟體和硬體的組合,允許應用程序生成實時光線追蹤效果。

Quadro GV100配備32GB內存,與Tesla V100有相同的底層設計。GV100可以提供高達7.4 TeraFLOPS的雙精度和14.8 TeraFLOPS的單精度計算。英偉達表示這個顯卡還可以提供高達118.5 TeraFLOPS的深度學習性能。

Quadro GV100還支持NVLink 2互連技術,可以將這兩個設備配對在一起。總共64GB的HBM2內存,10,240個CUDA內核和236個張量內核整合到一個工作站中。

電影大片完成後,要得到逼真效果,「CPU渲染一幀10小時,」黃仁勛說:「使用GPU要快很多,而且更重要的是,能省錢——大家都知道了,你買的GPU越多,你省的錢越多。」現在這已經是常識了。

全球最大GPU,核彈轟炸!!!

接著,也是全場最重要揭幕了全球最大GPU——NVIDIA TESLA V100 32GB DGX-2。

NVIDIA TESLA V100 32GB,DGX-2

雙板總計16塊GPU,總計512GB HBM2 存儲

每塊GPU板由8塊NVIDIA Tesla V100組成

總計12 NVSwitch 連接

高速互連,2.4 TB/秒對分帶寬。

8 EDR 無線帶寬 / 100 GbE 乙太網

1600 Gb/秒雙向帶寬和低延遲。

PCIE Switch Complex

2個英特爾Xeon Platinum CPUs

1.5 TB系統內存

雙10/25 GbE 乙太網

30 TB NVME SSDS內部存儲

這個全球最大的GPU有多大?感受一下:

普通GPU(你能看出型號嗎?是N粉就說!)

這是最大GPU:

相比龐大繁重的CPU機架,使用英偉達RTX Quadro GV100,14-Quad-GPU伺服器,「省下成千萬上億美元」。

新系統旨在允許開發人員擴大其神經網路的規模。DGX-2具有12個NVSwitch,每個NVSwitch的特點是在台積電12nm FinFET工藝上製造了120億個晶體管。每個交換機都具有18個8位NVLink連接。IBM已經宣布將於2019年推出採用NVLink 3.0的Power9系統,因此我們預計NVSwitch將利用這種互補互連。

太美了,太性感了,太美了。

黃仁勛掩飾不住沉醉。

DGX-2專門為深度學習,而生一天半就完成了。

如今AI研究員使用AI設計/發現AI,實驗的規模和數量都不斷增長。更多的實驗、更多的數據,DGX-2推出的時機不能在好了。

價格?

39.9萬美元。

加倍Tesla V100內存

下面簡單介紹其他宣布。

特斯拉V100採用了迄今為止生產量最大的單模晶元。採用台積電12納米FFN工藝製造的815毫米2 伏特晶體管,使用了210億個晶體管,幾乎是全分劃板的尺寸。GPU包裝了5120個用於AI工作負載的CUDA核心,雖然它具有足夠的處理能力,但英偉達已經使用額外的16GB HBM2內存支持該卡。英偉達表示,更強大的32GB內存可以在內存受限的HPC工作負載中實現雙倍的性能。

NVSwitch拓撲將16個GPU連接在一起,形成一個具有統一內存空間的統一內核單元,從而創建Jensen吹捧為「世界上最大的GPU」的內容。該系統共有512GB HBM2內存,可提供高達14.4TB / s的吞吐量。它共有81,920個CUDA內核。

GPU接受程度前所未有,形成全球計算範式

接著,黃仁勛表示,英偉達做的最好決定之一,是這些年來,讓GPU越來越通用,在不損失計算機圖形學性能的前提下,將GPU導向深度學習。然後,引爆點到來,現在,GPU已經成為廣為接受的一種計算範式,全世界有100萬GPU工程師,GTC成為全球會議,cuDNN 800萬次下載,一大半都發生在去年一年,而英偉達10年前就開始提供。

GPU接受程度前所未有,然而,這還不夠。

我們還需要更大的計算機,更快的計算機。加州理工大學要模擬一個項目,需要7天;要模擬一個艾滋病模型,需要3個月。過去5年,GPU增速25倍,遠遠超出摩爾定律。我們正處於超級摩爾定律時代,而這一趨勢也將持續。

接著是教主的自豪/自傲時間,英偉達基本上每年都推出新架構,與軟體工程師合作保持套件更新。總之,說道這裡,教主表示,祝賀John Hennessy和David Patterson獲得2017年的圖靈獎,「John的體系結構演講精彩非凡——但是,我的演講很簡單,」黃仁勛說,沒錯,英偉達在高性能計算(HPC)方面,也(買越多越)省錢!

要讓醫生/醫院更換現有基礎設施,需要30年。等不了這麼久,怎麼辦?有沒有辦法利用現有技術,在改動不大的前提下,給予醫生更大的智能能力。

英偉達醫療圖像超級計算機Clara應運而生。接入現有的醫療設備,比如超聲波檢測儀,就能將整套流程全部升級——使用深度學習,在原來的黑白圖像上實時渲染出顏色,分層、分區域,並且變為3D圖像,後期各種計算機技術,提升圖像質量,醫生的檢測能夠變得更加敏銳清晰。

目前,英偉達的Clara計劃已經與數十家公司,初創企業為主,構建了生態。可以想像,將英偉達的超級醫療圖像計算機部署到醫院,又打開了一大市場。

推理很難:公布TensorRT 4.0,以及Kubernetes on GPU

講到這裡,黃教主已經一個人說了1個多小時。

「Plaster。」說完這個詞,他停了一會,歇一口氣。

這也是教主自己發明的詞,希望向世人傳達的GTC第二大要點。

這個詞是關於推理(inference)。推理很難,精度、通量……各種變數要考慮。如何讓推理變得更好?這裡,當然是英偉達的高性能神經網路推理引擎TensorRT的更新——TensorRT 4.0發布,用於在生產環境中部署深度學習應用程序,應用有圖像分類、分割和目標檢測等,可提供最大的推理吞吐量和效率。TensorRT是第一款可編程推理加速器,能加速現有和未來的網路架。TensorRT 4.0實現全棧連接。

與CPU相比,NVIDIA TensorRT 4 現在可以將AI任務的參數加速200倍,適用於圖像分類、分割、物體檢測、語音識別、機器翻譯等應用。

此外,還有英偉達GPU Kubernets。

Kubernetes藉助NVIDIA GPU,開發人員現在可以即時地將GPU加速的深度學習和HPC應用程序部署到multi-cloud GPU群集中。

「人生完整了。」黃仁勛說。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 電子發燒友網 的精彩文章:

面對4.4億天價罰單,恒生電子子公司或將破產;三星晶圓代工連下兩城,奪恩智浦、Telechips新單……
博通CEO陳福陽去年收入1.03億美元,一年翻四番;審批日期截止,東芝快閃記憶體交易未獲審核……

TAG:電子發燒友網 |