僅售250萬！剛剛，黃仁勛發布全球最大GPU，逆天算力

最新 03-28

新智元報道

來源：GTC

作者：聞菲、張乾、肖琴

今天在剛剛結束的GTC 2018上，英偉達CEO黃仁勛說兩件大事，一是發布了迄今最大的GPU，二是暫定自動駕駛暫停研發。隨後英偉達股價下跌3.8%。GPU正在成為一種計算範式，但本質性突破乏善可陳，教主一路回顧過去創下的紀錄，而鼎盛之下，衰退的跡象，似乎已經潛藏。

黃仁勛在熟悉的背景音樂中上場，GTC今年已經是第十年了。

稱不上激昂，但顯然迫不及待要分享。不是首先揭幕萬眾期待的新品，而是回歸初心——黃仁勛說，圖形技術是GPU的核心驅動力，是虛擬現實的根本，在各種各樣的領域，我們想將信息和數據可視化，形成了R&D預算，由此也構建了巨大的市場。

重現逼真圖像是計算機圖形學一直以來的追求，要呈現一幅美麗的圖像，40年來，GPU渲染一幅圖的時間，從幾小時降到了幾秒，而且圖像的清晰度增加到了4K。

接著，黃仁勛回顧了各種技術，光的反射、散射、漫射、陰影……以及要渲染出種種質感相應的技術。

接著，展示了一段《星球大戰》視頻的演示，重點是逼真效果的實時Ray Tracing，各種表面的光線反射，每當一束光線遇到一個表面，都要決定要反射還是被吸收，什麼角度反射，被吸收多少程度，整個環境中到處都是表面，每一個都需要渲染……這些需要龐大的計算量，因此動畫公司才需要超級計算機來計算這些效果。

十年技術成果，首次將實時光線跟蹤技術推向商業市場

而英偉達一台DGX-Station就夠了。

於是，第一個宣布——RTX Technolgy，這是英偉達十年技術成果，也是Ray Tracing首次在這種規格上，全部實時實現。黃仁勛說，這是首次將實時Ray Tracing帶向商業市場。感謝GPU，感謝深度學習。

英偉達推出的Quadro GV100 GPU將該公司最近發布的RTX光線跟蹤技術引入工作站。英偉達的RTX光線追蹤技術是軟體和硬體的組合，允許應用程序生成實時光線追蹤效果。

Quadro GV100配備32GB內存，與Tesla V100有相同的底層設計。GV100可以提供高達7.4 TeraFLOPS的雙精度和14.8 TeraFLOPS的單精度計算。英偉達表示這個顯卡還可以提供高達118.5 TeraFLOPS的深度學習性能。

Quadro GV100還支持NVLink 2互連技術，可以將這兩個設備配對在一起。總共64GB的HBM2內存，10,240個CUDA內核和236個張量內核整合到一個工作站中。

電影大片完成後，要得到逼真效果，「CPU渲染一幀10小時，」黃仁勛說：「使用GPU要快很多，而且更重要的是，能省錢——大家都知道了，你買的GPU越多，你省的錢越多。」現在這已經是常識了。

全球最大GPU，核彈轟炸！！！

接著，也是全場最重要揭幕了全球最大GPU——Quadro GV100，這是一個GPU工作站，2個GV100，使用NVLink相連，形成一個完整的工作站，軟體感覺不到切換。

VIDIA TESLA V100 32GB，SXM3

雙板總計16塊GPU，總計512GB HBM2 存儲

每塊GPU板由8塊NVIDIA Tesla V100組成

總計12 NVSwitch 連接

高速互連，2.4 TB/秒對分帶寬。

8 EDR 無線帶寬 / 100 GbE 乙太網

1600 Gb/秒雙向帶寬和低延遲。

PCIE Switch Complex

2個英特爾Xeon Platinum CPUs

1.5 TB系統內存

雙10/25 GbE 乙太網

30 TB NVME SSDS內部存儲

這個全球最大的GPU有多大？感受一下：

普通GPU（你能看出型號嗎？是N粉就說！）

這是最大GPU：

相比龐大繁重的CPU機架，使用英偉達RTX Quadro GV100，14-Quad-GPU伺服器，「省下成千萬上億美元」。

新系統旨在允許開發人員擴大其神經網路的規模。DGX-2具有12個NVSwitch，每個NVSwitch的特點是在台積電12nm FinFET工藝上製造了120億個晶體管。每個交換機都具有18個8位NVLink連接。IBM已經宣布將於2019年推出採用NVLink 3.0的Power9系統，因此我們預計NVSwitch將利用這種互補互連。

太美了，太性感了，太美了。

黃仁勛掩飾不住沉醉。

DGX-2專門為深度學習，而生一天半就完成了。

如今AI研究員使用AI設計/發現AI，實驗的規模和數量都不斷增長。更多的實驗、更多的數據，DGX-2推出的時機不能在好了。

價格？

39.9萬美元。

加倍Tesla V100內存

下面簡單介紹其他宣布。

特斯拉V100採用了迄今為止生產量最大的單模晶元。採用台積電12納米FFN工藝製造的815毫米2 伏特晶體管，使用了210億個晶體管，幾乎是全分劃板的尺寸。GPU包裝了5120個用於AI工作負載的CUDA核心，雖然它具有足夠的處理能力，但英偉達已經使用額外的16GB HBM2內存支持該卡。英偉達表示，更強大的32GB內存可以在內存受限的HPC工作負載中實現雙倍的性能。

NVSwitch拓撲將16個GPU連接在一起，形成一個具有統一內存空間的統一內核單元，從而創建Jensen吹捧為「世界上最大的GPU」的內容。該系統共有512GB HBM2內存，可提供高達14.4TB / s的吞吐量。它共有81,920個CUDA內核。

GPU接受程度前所未有，形成全球計算範式

接著，黃仁勛表示，英偉達做的最好決定之一，是這些年來，讓GPU越來越通用，在不損失計算機圖形學性能的前提下，將GPU導向深度學習。然後，引爆點到來，現在，GPU已經成為廣為接受的一種計算範式，全世界有100萬GPU工程師，GTC成為全球會議，cuDNN 800萬次下載，一大半都發生在去年一年，而英偉達10年前就開始提供。

GPU接受程度前所未有，然而，這還不夠。

我們還需要更大的計算機，更快的計算機。加州理工大學要模擬一個項目，需要7天；要模擬一個艾滋病模型，需要3個月。過去5年，GPU增速25倍，遠遠超出摩爾定律。我們正處於超級摩爾定律時代，而這一趨勢也將持續。

接著是教主的自豪/自傲時間，英偉達基本上每年都推出新架構，與軟體工程師合作保持套件更新。總之，說道這裡，教主表示，祝賀John Hennessy和David Patterson獲得2017年的圖靈獎，「John的體系結構演講精彩非凡——但是，我的演講很簡單，」黃仁勛說，沒錯，英偉達在高性能計算（HPC）方面，也（買越多越）省錢！

要讓醫生/醫院更換現有基礎設施，需要30年。等不了這麼久，怎麼辦？有沒有辦法利用現有技術，在改動不大的前提下，給予醫生更大的智能能力。

英偉達醫療圖像超級計算機Clara應運而生。接入現有的醫療設備，比如超聲波檢測儀，就能將整套流程全部升級——使用深度學習，在原來的黑白圖像上實時渲染出顏色，分層、分區域，並且變為3D圖像，後期各種計算機技術，提升圖像質量，醫生的檢測能夠變得更加敏銳清晰。

目前，英偉達的Clara計劃已經與數十家公司，初創企業為主，構建了生態。可以想像，將英偉達的超級醫療圖像計算機部署到醫院，又打開了一大市場。

推理很難：公布TensorRT 4.0，以及Kubernetes on GPU

講到這裡，黃教主已經一個人說了1個多小時。

「Plaster。」說完這個詞，他停了一會，歇一口氣。

這也是教主自己發明的詞，希望向世人傳達的GTC第二大要點。

這個詞是關於推理（inference）。推理很難，精度、通量……各種變數要考慮。如何讓推理變得更好？這裡，當然是英偉達的高性能神經網路推理引擎TensorRT的更新——TensorRT 4.0發布，用於在生產環境中部署深度學習應用程序，應用有圖像分類、分割和目標檢測等，可提供最大的推理吞吐量和效率。TensorRT是第一款可編程推理加速器，能加速現有和未來的網路架。TensorRT 4.0實現全棧連接。

與CPU相比，NVIDIA TensorRT 4 現在可以將AI任務的參數加速200倍，適用於圖像分類、分割、物體檢測、語音識別、機器翻譯等應用。

此外，還有英偉達GPU Kubernets。

Kubernetes藉助NVIDIA GPU，開發人員現在可以即時地將GPU加速的深度學習和HPC應用程序部署到multi-cloud GPU群集中。

「人生完整了。」黃仁勛說。

暫停無人車研發，英偉達股價下跌3.8%

一口氣發布這麼多款產品，黃教主可謂是蠻拼的，但其實這樣做也是英偉達不得不為之的事情。

值得一提，在黃仁勛演講接近尾聲的時候，英偉達股票下跌了3.8%。

「我們要暫定無人駕駛的研發。」黃仁勛說。

Uber自動駕駛致死事故顯然對英偉達造成了巨大的影響。根據公開資料，Uber從2016年首次部署沃爾沃SC90 SUVS測試車隊以來，一直使用英偉達的計算技術。

這讓人想起了當年特斯拉車禍時，與特斯拉分手的Moibleye——但不同的是，Mobileye並沒有要停止研發，而是迅速搭上了其他公司，而後被英特爾以153億美元的高價收歸旗下。

英偉達目前沒有表示具體研發計劃暫定的時間。

雖然現實世界中停止路測，但英偉達還推出了一個測試自動駕駛汽車的新系統DRIVE Con stellation，這是一款基於雲計算的平台，將使用逼真模擬測試駕駛場景。

系統在兩台伺服器上運行。第一台伺服器支持Nvidia DRIVE Sim，它一款模擬自動駕駛汽車各種感測器（包括其攝像頭，激光雷達和雷達）的軟體。第二台伺服器包含Nvidia DRIVE Pegasus AI，它將處理收集的數據，就好像它來自道路上自駕車的感測器。

前壓後趕，英偉達衰相已現？

其次，也不要忘記英偉達面臨的眾多對手。

首先是英特爾。英特爾去年宣布發布Nervana神經網路處理器（NNP）系列晶元，代號為Lake Crest。這款晶元的強大之處在於，它由「處理集群」陣列構成，處理「活動點（flexpoint）」的簡化數學運算。這種運算相對於浮點運算所需的數據量更少，性能號稱提升10倍。

不過，Nervana系列晶元宣稱2017年年底量產，但直到現在還一直跳票；而且，英偉達已經在遊戲、深度學習、自動駕駛等領域建立起自己的晶元生態圈，「護城河」相當寬。但是，就像黃教主經常揶揄CPU的摩爾定律一樣，反過來看，GPU並沒有本質上的突破，GPU的現在優勢可能很容易就被性能一日千里的神經網路晶元超越，英偉達的護城河很快就會被攻破。

跟英特爾一起攻城的還有賽靈思。

今年3月20日，賽靈思推出ACAP（Adaptive Compute Acceleration Platform，自適應計算加速平台），ACAP是一個高度集成的多核異構計算平台，它的核心是新一代FPGA架構，能根據各種應用與工作負載的需求從硬體層對其進行靈活變化。ACAP的靈活應變能力可在工作過程中進行動態調節，它的功能將遠超FPGA的極限。

賽靈思新任CEO Victor Peng在接受新智元採訪時表示，GPU雖然在某些方面比CPU能處理的更好，但也不能適應所有的情況，因此現在更多需要的是異構計算。尤其是在人工智慧時代，賽靈思也想通過自身在異構計算方面優勢來實現對英偉達以及英特爾的趕超。

除了前面兩個大塊頭，AI晶元創業公司也讓這片市場從藍海變成紅海。中國有寒武紀、地平線、深鑒科技，英國有哈薩比斯投資的Graphcore，美國也有多家AI晶元初創公司。這些公司針對的是不同的應用場景，每一家都有可能搶走英偉達的細分市場。

不過，最能給英偉達造成威脅的，還應當是帶頭大哥谷歌。

雖然谷歌的TPU只是用在谷歌內部，但單從硬體性能看，TPU已經超越英偉達GPU。

黃教主，你壓力大嗎？

半導體行業最強招聘

招聘DFT工程師崗位職責：1.負責DFT測試策略的制定和實現2.負責Module和SoC層次的DFT實現，包括Scan、Boundary Scan、MBIST以及IP test等3.負責Module和SoC層次的Synthesis，STA，時序收斂和等價性驗證4.負責ATE測試中的向量產生和debug5.負責建立和維護DFT設計和驗證自動化流程6.負責最終量產測試的向量產生和後硅驗證崗位要求：1.熟悉邏輯設計和驗證流程2.精通Synthesis，STA，等價性驗證3.對DFT設計（包括scan、mbist、jtag等）有實際項目的經驗4.精通DFT設計工具（TestKompress, FastScan, Tetra max,等）5.能夠熟練使用Perl、Tcl和Shell腳本編程6.具有使用邏輯模擬和debug工具的經驗（vcs/ncsim/verdi等）7.具有分析，追蹤和解決覆蓋率損失、模擬錯誤、ATE測試失效等問題的能力具有ATE調試，測試向量調整等經驗

招聘晶元驗證工程師崗位職責：1）協調晶元設計工程師搭建模擬驗證環境；2）協同晶元設計工程師完成模塊級模擬驗證工作；3）完成SoC系統級模擬驗證工作（前仿及後仿）；崗位要求：1）本科以上學歷，電子、通信、微電子或相關專業；2）本科5年/碩士2年以上晶元驗證工作經驗；3）精通SystemVerilog和UVM/VMM驗證方法學；4）熟悉C/C++等編程語言；5）熟悉常用腳本語言（CShell、perl或tcl等）；6）有SoC晶元或複雜IP的驗證經驗；

如侵刪丨如轉注

【整理不易，記得轉發】

半導體人臨走記得點下方拇指留下腳印。如覺文章不錯，留言評論，轉發更多朋友，傳遞咱半導體人的觀點。

合作方式

覺得不錯，請點贊

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 半導體行業聯盟 的精彩文章:

※宣戰！FPGA新方向！

TAG:半導體行業聯盟 |