NVIDIA英偉達黃仁勛發布全球最大GPU，超算級逆天算力

最新 03-29

來源：GTC

作者：聞菲、張乾、肖琴

在剛剛結束的GTC 2018上，黃仁勛在熟悉的背景音樂中上場，GTC今年已經是第十年了。

稱不上激昂，但顯然迫不及待要分享。不是首先揭幕萬眾期待的新品，而是回歸初心——黃仁勛說，圖形技術是GPU的核心驅動力，是虛擬現實的根本，在各種各樣的領域，我們想將信息和數據可視化，形成了R&D預算，由此也構建了巨大的市場。

重現逼真圖像是計算機圖形學一直以來的追求，要呈現一幅美麗的圖像，40年來，GPU渲染一幅圖的時間，從幾小時降到了幾秒，而且圖像的清晰度增加到了4K。

接著，黃仁勛回顧了各種技術，光的反射、散射、漫射、陰影……以及要渲染出種種質感相應的技術。

接著，展示了一段《星球大戰》視頻的演示，重點是逼真效果的實時Ray Tracing，各種表面的光線反射，每當一束光線遇到一個表面，都要決定要反射還是被吸收，什麼角度反射，被吸收多少程度，整個環境中到處都是表面，每一個都需要渲染……這些需要龐大的計算量，因此動畫公司才需要超級計算機來計算這些效果。

十年技術成果，首次將實時光線跟蹤技術推向商業市場

而英偉達一台DGX-Station就夠了。

於是，第一個宣布——RTX Technolgy，這是英偉達十年技術成果，也是Ray Tracing首次在這種規格上，全部實時實現。黃仁勛說，這是首次將實時Ray Tracing帶向商業市場。感謝GPU，感謝深度學習。

英偉達推出的Quadro GV100 GPU將該公司最近發布的RTX光線跟蹤技術引入工作站。英偉達的RTX光線追蹤技術是軟體和硬體的組合，允許應用程序生成實時光線追蹤效果。

Quadro GV100配備32GB內存，與Tesla V100有相同的底層設計。GV100可以提供高達7.4 TeraFLOPS的雙精度和14.8 TeraFLOPS的單精度計算。英偉達表示這個顯卡還可以提供高達118.5 TeraFLOPS的深度學習性能。

Quadro GV100還支持NVLink 2互連技術，可以將這兩個設備配對在一起。總共64GB的HBM2內存，10,240個CUDA內核和236個張量內核整合到一個工作站中。

電影大片完成後，要得到逼真效果，「CPU渲染一幀10小時，」黃仁勛說：「使用GPU要快很多，而且更重要的是，能省錢——大家都知道了，你買的GPU越多，你省的錢越多。」現在這已經是常識了。

全球最大GPU，核彈轟炸！！！

接著，也是全場最重要揭幕了全球最大GPU——NVIDIA TESLA V100 32GB DGX-2。

NVIDIA TESLA V100 32GB，DGX-2

雙板總計16塊GPU，總計512GB HBM2 存儲

每塊GPU板由8塊NVIDIA Tesla V100組成

總計12 NVSwitch 連接

高速互連，2.4 TB/秒對分帶寬。

8 EDR 無線帶寬 / 100 GbE 乙太網

1600 Gb/秒雙向帶寬和低延遲。

PCIE Switch Complex

2個英特爾Xeon Platinum CPUs

1.5 TB系統內存

雙10/25 GbE 乙太網

30 TB NVME SSDS內部存儲

這個全球最大的GPU有多大？感受一下：

普通GPU（你能看出型號嗎？是N粉就說！）

這是最大GPU：

相比龐大繁重的CPU機架，使用英偉達RTX Quadro GV100，14-Quad-GPU伺服器，「省下成千萬上億美元」。

新系統旨在允許開發人員擴大其神經網路的規模。DGX-2具有12個NVSwitch，每個NVSwitch的特點是在台積電12nm FinFET工藝上製造了120億個晶體管。每個交換機都具有18個8位NVLink連接。IBM已經宣布將於2019年推出採用NVLink 3.0的Power9系統，因此我們預計NVSwitch將利用這種互補互連。

太美了，太性感了，太美了。

黃仁勛掩飾不住沉醉。

DGX-2專門為深度學習，而生一天半就完成了。

如今AI研究員使用AI設計/發現AI，實驗的規模和數量都不斷增長。更多的實驗、更多的數據，DGX-2推出的時機不能在好了。

價格？

39.9萬美元。

加倍Tesla V100內存

下面簡單介紹其他宣布。

特斯拉V100採用了迄今為止生產量最大的單模晶元。採用台積電12納米FFN工藝製造的815毫米2 伏特晶體管，使用了210億個晶體管，幾乎是全分劃板的尺寸。GPU包裝了5120個用於AI工作負載的CUDA核心，雖然它具有足夠的處理能力，但英偉達已經使用額外的16GB HBM2內存支持該卡。英偉達表示，更強大的32GB內存可以在內存受限的HPC工作負載中實現雙倍的性能。

NVSwitch拓撲將16個GPU連接在一起，形成一個具有統一內存空間的統一內核單元，從而創建Jensen吹捧為「世界上最大的GPU」的內容。該系統共有512GB HBM2內存，可提供高達14.4TB / s的吞吐量。它共有81,920個CUDA內核。

GPU接受程度前所未有，形成全球計算範式

接著，黃仁勛表示，英偉達做的最好決定之一，是這些年來，讓GPU越來越通用，在不損失計算機圖形學性能的前提下，將GPU導向深度學習。然後，引爆點到來，現在，GPU已經成為廣為接受的一種計算範式，全世界有100萬GPU工程師，GTC成為全球會議，cuDNN 800萬次下載，一大半都發生在去年一年，而英偉達10年前就開始提供。

GPU接受程度前所未有，然而，這還不夠。

我們還需要更大的計算機，更快的計算機。加州理工大學要模擬一個項目，需要7天；要模擬一個艾滋病模型，需要3個月。過去5年，GPU增速25倍，遠遠超出摩爾定律。我們正處於超級摩爾定律時代，而這一趨勢也將持續。

接著是教主的自豪/自傲時間，英偉達基本上每年都推出新架構，與軟體工程師合作保持套件更新。總之，說道這裡，教主表示，祝賀John Hennessy和David Patterson獲得2017年的圖靈獎，「John的體系結構演講精彩非凡——但是，我的演講很簡單，」黃仁勛說，沒錯，英偉達在高性能計算（HPC）方面，也（買越多越）省錢！

要讓醫生/醫院更換現有基礎設施，需要30年。等不了這麼久，怎麼辦？有沒有辦法利用現有技術，在改動不大的前提下，給予醫生更大的智能能力。

英偉達醫療圖像超級計算機Clara應運而生。接入現有的醫療設備，比如超聲波檢測儀，就能將整套流程全部升級——使用深度學習，在原來的黑白圖像上實時渲染出顏色，分層、分區域，並且變為3D圖像，後期各種計算機技術，提升圖像質量，醫生的檢測能夠變得更加敏銳清晰。

目前，英偉達的Clara計劃已經與數十家公司，初創企業為主，構建了生態。可以想像，將英偉達的超級醫療圖像計算機部署到醫院，又打開了一大市場。

推理很難：公布TensorRT 4.0，以及Kubernetes on GPU

講到這裡，黃教主已經一個人說了1個多小時。

「Plaster。」說完這個詞，他停了一會，歇一口氣。

這也是教主自己發明的詞，希望向世人傳達的GTC第二大要點。

這個詞是關於推理（inference）。推理很難，精度、通量……各種變數要考慮。如何讓推理變得更好？這裡，當然是英偉達的高性能神經網路推理引擎TensorRT的更新——TensorRT 4.0發布，用於在生產環境中部署深度學習應用程序，應用有圖像分類、分割和目標檢測等，可提供最大的推理吞吐量和效率。TensorRT是第一款可編程推理加速器，能加速現有和未來的網路架。TensorRT 4.0實現全棧連接。

與CPU相比，NVIDIA TensorRT 4 現在可以將AI任務的參數加速200倍，適用於圖像分類、分割、物體檢測、語音識別、機器翻譯等應用。

此外，還有英偉達GPU Kubernets。

Kubernetes藉助NVIDIA GPU，開發人員現在可以即時地將GPU加速的深度學習和HPC應用程序部署到multi-cloud GPU群集中。

「人生完整了。」黃仁勛說。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 電子發燒友網 的精彩文章:

※面對4.4億天價罰單，恒生電子子公司或將破產；三星晶圓代工連下兩城，奪恩智浦、Telechips新單……
※博通CEO陳福陽去年收入1.03億美元，一年翻四番；審批日期截止，東芝快閃記憶體交易未獲審核……

TAG:電子發燒友網 |