GTC大會,黃世勛:大兄弟,6萬元的顯卡和250萬元的主機想了解一下不?
北京時間,27號凌晨0點,英偉達的圖形科技大會(GTC,GPU Technology Conference)準時在美國聖何塞英偉達總部召開。作為一年一度英偉達技術盛會第十個年頭,今年的大會,似乎有點「不一樣」。
當然,今年的GTC大會再怎麼不一樣,大會開頭「嘮嗑式」開講還是屬於黃教主的,似乎,每逢技術性的大會,黃教主的演講激情猶如乾柴遇到烈火,瞬間「爆燃」起來。這次也一樣,原計劃2個小時的演講,結果拖堂到將近3個小時。在這3個小時的演講中,黃世勛談到了新一代顯卡QuadroGV100 ;談到了性能恐怖的DGX-2超算;還有落地實現了研究已久的自動駕駛,而唯獨人們最關注的新架構和主推的遊戲顯卡,卻隻字未提。這一點黃世勛似乎變了。那麼老黃口中QuadroGV100 和DGX-2到底是何物呢?
專業級顯卡新「魔獸」
對於翹首以盼所謂的新一代「GeForce 20系」遊戲顯卡網友來說,這次GTC大會可能會讓他們略感失望,新的遊戲顯卡果然沒有在這個注重AI、深度學習的圖形峰會上公開。當然,NVIDIA 還是推出了兩顆新「魔獸」, 基於GV100核心的Tesla V100新品和Quadro GV100。
對於Tesla V100,其實這款顯卡發佈於2017年度的GTC大會。不過這一次 ,由原先16GB 顯存升級到了32GB 顯存,要說,升級要感謝的還是供應商三星和SK海力士,單顆HBM2的容量從4GB提升到了8GB,於是帶來在面積不改變的情況下,容量翻番,換言之,簡單替換下就可以了。
不過,英偉達的功勞也有,那就是主頻/熱設計功耗等都沒有因此增加,保持一致,想升級的話可以傻瓜式地替換。
當然,對於這樣的升級,大部分網友會認為,這算是NVIDIA的「份內」事,畢竟其競爭對手AMD早在三年前就已出貨32GB GDDR5顯存的FirePro S9170了。所以Tesla V100並沒有什麼好說的。
而對於Quadro GV100 ,黃世勛在這場技術大會上,開講之後還不到10分鐘,就拿出這款12nm製程基於深度學習技術的專業級顯卡,可見黃教主迫不及待展示Quadro GV100強大性能的「激動」心情,也是對自家產品的優勢自信滿滿。
新的GV100擁有5120個CUDA核心,32GB HBM2顯存(使用雙向NVLink技術可擴展至64GB),能夠提供高達每秒7.4萬億次的雙精度浮點運算性能以及每秒14.8萬億次的單精度浮點運算性能和每秒118.5萬億次的深度學習浮點運算性能。
Quadro GV100支持NVlink 2.0(NVlink 技術就是Nvidia研發的能夠在GPU-GPU以及GPU-CPU之間實現高速大帶寬直連通訊的快速互聯機制,其實這裡的 Nvlink 2.0就是將在下面提到的DGX-2所用到的Nvlink Switch技術),也特別支持了RTX ray-tracing technology(實時光線追蹤技術),這項技術能精準地處理擬真光照、反射與陰影效果,是一項提供逼真度遠高於傳統著色技術的「黑科技」。號稱可以為遊戲帶來逼真現實場景般的畫質,並且相比於傳統的渲染技術渲染場景特效需要數小時的時間,英偉達的光線追蹤技術可以達到實時渲染的強大能力。這個對於動畫渲染和製作工作室而言,摒棄龐大的主機轉而使用效能Quadro GV100效果肯定更為理想。這也是為什麼英偉達敢稱自己的這項成果是「自從約20年前推出可編程著色器以來,計算機圖形學的最大進步。」
當然,強悍的性能對應的是不菲的價格,會上,黃教主曝出Quadro GV100 售價為8999美元,接近6萬元人民幣。相比之下,之前發布的TITAN V完全可以用性價比驚人來形容。當然這價格高不高,還得看土豪們的意見嘍。
DGX-2:GPU堆疊出來的性能「怪獸」
說到GTC大會最引人矚目的亮點,當屬DGX-2無疑,這是由16顆Tesla V100 GPU組成,被英偉達稱為「The World"s Lagest GPU」,可以說就是個龐大的顯卡集群,DGX-2由原本的DGX-1升級而來,將DGX-1中原有的P100 GPU換成了性能更加強大的V100 GPU,同時:又加了幾顆Tesla V100 GPU,共計16顆GPU堆疊出了DGX-2這樣的小型「超算」每塊Tesla V100計算卡顯存為32GB,故整個DGX-2一共擁有512GB HBM2顯存。
那麼集成了這麼多的GPU的DGX-2,真的只是靠GPU簡單的堆疊出來的嗎?答案:肯定不是,那麼該如何讓它們「化身」為一顆GPU發揮出「集體」力量呢,在這裡就少不了前面提到的Nvlink Switch 技術,正因為這項技術,DGX-2中的16顆GPU之間都能夠直接1對1連接傳輸,實現了300GB/s晶元間傳輸效率(傳統PCIe的12倍),形成一個總帶寬高達14TB/s的通道。用黃教主的話來說,如果以1GB一部電影來計算,14000部電影可以在1秒鐘內傳輸完成。
同時為了發揮出顯卡的深度計算性能,整個集群配備了1.5TB內存以及30TB的NVMe SSD存儲空間,深度計算能力(Tensor算力)達到了驚人的2PFLOPS(FLOPS是指每秒所執行的浮點運算次數,亦稱每秒峰值速度,1PFLOPS(PetaFLOPS)等於每秒千萬億(=10^15)次的浮點運算)。被眾媒體稱為「小超算」毫不為過。
在驚訝於DGX-2性能強悍的同時,英偉達在DGX-2上所採取的新策略或許更值得人們思考:並行架構先天擁有優秀的擴展性,英偉達似乎在傳統的GPU架構、晶元製程之外找到了一個延續性更強的性能增長路線。
當然從另外一個方面來講,通過數量的疊加,設備的性能的確可以快速增長,但如何實現數塊GPU之間的大量數據吞吐、同時保證這些新添加的數據傳輸能力不會造成太高的成本、以及更多的功耗,將會是這一種路線的必然面臨的挑戰。
DGX-2 性能相比前代Nvidia DGX-1是其10倍,當然超強算力下,帶來的是驚人的功耗,功耗高達一萬瓦特。在介紹售價方面,黃教主還當場為客戶「砍起了價」,黃仁勛表示現場展示用的這套實驗產品實際上價值250萬美元,然後先放出了一個150萬美元的售價,在最後一秒自己又直接「砍到」了39.99萬美元,售價將近250萬元人民幣,價格「一波三折」一路下砍,黃教主還是很實誠嘛。不過即使去掉虛高的價格,250萬元主機設備對於一般人來說仍是可望而不可及的「奢侈品」,這或許只有那些混跡於區塊鏈的「挖礦」的大佬土豪們才玩的起吧。
當然,新DGX-2性能是毋庸置疑的,是時候,可以把黃教主那句「買的越多,省得就越多」改為「買的越貴,省的更多」了。
閱讀推薦
※MWC:5G網路轉型技術+邊緣計算晶元,英特爾這次要打翻身仗!
※威剛發布XPG SX950 SATA SSD新品 主打遊戲市場
TAG:愛板網 |