GTC大會，黃世勛：大兄弟，6萬元的顯卡和250萬元的主機想了解一下不？

最新 03-30

北京時間，27號凌晨0點，英偉達的圖形科技大會（GTC，GPU Technology Conference）準時在美國聖何塞英偉達總部召開。作為一年一度英偉達技術盛會第十個年頭，今年的大會，似乎有點「不一樣」。

當然，今年的GTC大會再怎麼不一樣，大會開頭「嘮嗑式」開講還是屬於黃教主的，似乎，每逢技術性的大會，黃教主的演講激情猶如乾柴遇到烈火，瞬間「爆燃」起來。這次也一樣，原計劃2個小時的演講，結果拖堂到將近3個小時。在這3個小時的演講中，黃世勛談到了新一代顯卡QuadroGV100 ；談到了性能恐怖的DGX-2超算；還有落地實現了研究已久的自動駕駛，而唯獨人們最關注的新架構和主推的遊戲顯卡，卻隻字未提。這一點黃世勛似乎變了。那麼老黃口中QuadroGV100 和DGX-2到底是何物呢？

專業級顯卡新「魔獸」

對於翹首以盼所謂的新一代「GeForce 20系」遊戲顯卡網友來說，這次GTC大會可能會讓他們略感失望，新的遊戲顯卡果然沒有在這個注重AI、深度學習的圖形峰會上公開。當然，NVIDIA 還是推出了兩顆新「魔獸」，基於GV100核心的Tesla V100新品和Quadro GV100。

對於Tesla V100，其實這款顯卡發佈於2017年度的GTC大會。不過這一次，由原先16GB 顯存升級到了32GB 顯存，要說，升級要感謝的還是供應商三星和SK海力士，單顆HBM2的容量從4GB提升到了8GB，於是帶來在面積不改變的情況下，容量翻番，換言之，簡單替換下就可以了。

不過，英偉達的功勞也有，那就是主頻/熱設計功耗等都沒有因此增加，保持一致，想升級的話可以傻瓜式地替換。

當然，對於這樣的升級，大部分網友會認為，這算是NVIDIA的「份內」事，畢竟其競爭對手AMD早在三年前就已出貨32GB GDDR5顯存的FirePro S9170了。所以Tesla V100並沒有什麼好說的。

而對於Quadro GV100 ，黃世勛在這場技術大會上，開講之後還不到10分鐘，就拿出這款12nm製程基於深度學習技術的專業級顯卡，可見黃教主迫不及待展示Quadro GV100強大性能的「激動」心情，也是對自家產品的優勢自信滿滿。

新的GV100擁有5120個CUDA核心，32GB HBM2顯存（使用雙向NVLink技術可擴展至64GB），能夠提供高達每秒7.4萬億次的雙精度浮點運算性能以及每秒14.8萬億次的單精度浮點運算性能和每秒118.5萬億次的深度學習浮點運算性能。

Quadro GV100支持NVlink 2.0（NVlink 技術就是Nvidia研發的能夠在GPU-GPU以及GPU-CPU之間實現高速大帶寬直連通訊的快速互聯機制，其實這裡的 Nvlink 2.0就是將在下面提到的DGX-2所用到的Nvlink Switch技術），也特別支持了RTX ray-tracing technology（實時光線追蹤技術），這項技術能精準地處理擬真光照、反射與陰影效果，是一項提供逼真度遠高於傳統著色技術的「黑科技」。號稱可以為遊戲帶來逼真現實場景般的畫質，並且相比於傳統的渲染技術渲染場景特效需要數小時的時間，英偉達的光線追蹤技術可以達到實時渲染的強大能力。這個對於動畫渲染和製作工作室而言，摒棄龐大的主機轉而使用效能Quadro GV100效果肯定更為理想。這也是為什麼英偉達敢稱自己的這項成果是「自從約20年前推出可編程著色器以來，計算機圖形學的最大進步。」

當然，強悍的性能對應的是不菲的價格，會上，黃教主曝出Quadro GV100 售價為8999美元，接近6萬元人民幣。相比之下，之前發布的TITAN V完全可以用性價比驚人來形容。當然這價格高不高，還得看土豪們的意見嘍。

DGX-2：GPU堆疊出來的性能「怪獸」

說到GTC大會最引人矚目的亮點，當屬DGX-2無疑，這是由16顆Tesla V100 GPU組成，被英偉達稱為「The World"s Lagest GPU」，可以說就是個龐大的顯卡集群，DGX-2由原本的DGX-1升級而來，將DGX-1中原有的P100 GPU換成了性能更加強大的V100 GPU，同時：又加了幾顆Tesla V100 GPU，共計16顆GPU堆疊出了DGX-2這樣的小型「超算」每塊Tesla V100計算卡顯存為32GB，故整個DGX-2一共擁有512GB HBM2顯存。

那麼集成了這麼多的GPU的DGX-2，真的只是靠GPU簡單的堆疊出來的嗎？答案：肯定不是，那麼該如何讓它們「化身」為一顆GPU發揮出「集體」力量呢，在這裡就少不了前面提到的Nvlink Switch 技術，正因為這項技術，DGX-2中的16顆GPU之間都能夠直接1對1連接傳輸，實現了300GB/s晶元間傳輸效率(傳統PCIe的12倍)，形成一個總帶寬高達14TB/s的通道。用黃教主的話來說，如果以1GB一部電影來計算，14000部電影可以在1秒鐘內傳輸完成。

同時為了發揮出顯卡的深度計算性能，整個集群配備了1.5TB內存以及30TB的NVMe SSD存儲空間，深度計算能力（Tensor算力）達到了驚人的2PFLOPS（FLOPS是指每秒所執行的浮點運算次數，亦稱每秒峰值速度，1PFLOPS（PetaFLOPS）等於每秒千萬億（=10^15）次的浮點運算）。被眾媒體稱為「小超算」毫不為過。

在驚訝於DGX-2性能強悍的同時，英偉達在DGX-2上所採取的新策略或許更值得人們思考：並行架構先天擁有優秀的擴展性，英偉達似乎在傳統的GPU架構、晶元製程之外找到了一個延續性更強的性能增長路線。

當然從另外一個方面來講，通過數量的疊加，設備的性能的確可以快速增長，但如何實現數塊GPU之間的大量數據吞吐、同時保證這些新添加的數據傳輸能力不會造成太高的成本、以及更多的功耗，將會是這一種路線的必然面臨的挑戰。

DGX-2 性能相比前代Nvidia DGX-1是其10倍，當然超強算力下，帶來的是驚人的功耗，功耗高達一萬瓦特。在介紹售價方面，黃教主還當場為客戶「砍起了價」，黃仁勛表示現場展示用的這套實驗產品實際上價值250萬美元，然後先放出了一個150萬美元的售價，在最後一秒自己又直接「砍到」了39.99萬美元，售價將近250萬元人民幣，價格「一波三折」一路下砍，黃教主還是很實誠嘛。不過即使去掉虛高的價格，250萬元主機設備對於一般人來說仍是可望而不可及的「奢侈品」，這或許只有那些混跡於區塊鏈的「挖礦」的大佬土豪們才玩的起吧。

當然，新DGX-2性能是毋庸置疑的，是時候，可以把黃教主那句「買的越多，省得就越多」改為「買的越貴，省的更多」了。

閱讀推薦

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 愛板網 的精彩文章:

※MWC：5G網路轉型技術＋邊緣計算晶元，英特爾這次要打翻身仗！
※威剛發布XPG SX950 SATA SSD新品主打遊戲市場

TAG:愛板網 |