英偉達上演GPU「十六合一」，512GB顯存獨步天下

最新 03-29

AI 科技評論按：Buy more GPU，save more money！（買越多GPU，就越省錢！）這句話，英偉達 CEO 黃仁勛在整場 GTC 中足足重複了9次（可能還有數漏的）。

作為英偉達每年最重要的大會，一年一度在美國舊金山舉辦的 GTC 一直都是英偉達技術實力最集中的展示。而且英偉達的新產品也深深牽動著深度學習領域研究人員的心，更快的 GPU 、更大的顯存、新的深度計算 API、更強大的計算集群等等都讓更大規模、更高表現的模型變得更為平易近人。

本次 GTC 之上沒有像之前大家預期的那樣，發布全新的 GPU 架構，以及傳統定義上的「核彈」（單顆GPU、或者單顯卡封裝的產品）。

但英偉達實際上拿出了一款被黃仁勛自己稱為「全球最大的 GPU」的新產品—— DGX-2。

組件強的不像話的DGX-2

去年發布 Volta 架構之時，英偉達實際上已經將 DGX-1 中舊架構、舊工藝的 P100 GPU換成了 V100 GPU。原有的 V100 GPU已經很強大了，那麼想要更強大就只剩一種「簡單而又粗暴」的方法了：再加幾顆 V100 GPU。這樣一來，在 DGX-2 伺服器加速器中我們將會看到多達 16 顆 V100 GPU。

16 顆 GPU 中任何兩顆都能以 300GB/s 帶寬進行數據交換

GPU 數量翻倍之後，為了讓他們發揮出真正的威力，英偉達還祭出了一項升級版的技術 NVLink Switch（簡稱NV Switch）。這項技術的目標只有一個：讓DGX-2 中的 16 顆 V100 GPU 能夠化身為「一顆巨大的 GPU」運作。

根據英偉達副總裁和 DGX 系統產品經理 Jim McHugh 介紹，藉助 NVswitch 技術，DGX-2 中的 16顆 GPU 之間都能夠直接 1 對 1 連接傳輸，每顆 GPU 擁有高達 50Gb/s 的帶寬，同時最多支持 18 顆 GPU 相互連接，讓整個系統的吞吐性能達到驚人的 900Gb/s。

高舉著兩倍顯存的 Quadro GV100加速器的黃仁勛

值得一提的是，DGX-2 中使用的雖然還是 V100 GPU，但它發生了一點小變化 —— 原有的 4 顆 4GB HBM2 顯存，升級為 4 顆 8GB HBM2 顯存，也讓 V100 GPU 的整體顯存大小升級為 32GB。（GPU其他參數，包括顯存位寬、帶寬均沒有改變。）並且在 DGX-2中，16 個 V100 GPU 中各自擁有的 32GB 顯存都將連接到一起，你甚至可以將它看成一整個 512GB 的顯存空間。

那麼究竟這對於用戶來說有多大的影響呢？英偉達官方的原話是:「顯存容量增加，讓運行更深、更大的深度學習模型成為可能，同時也會提升深度學習的表現。對於內存大小比較敏感的應用，最多能夠提升 50% 的實際表現。」

現場減價「促銷」

黃仁勛現場表示展示用的這套實驗產品實際上價值 250 萬美元，然後先放出了一個 150萬美元的售價，接著自己「砍到」了 39.99 萬美元，希望用一個「有誠意」的價格打動各方潛在用戶。

Drive Constellation的實際系統組成（下圖）

在眾多的人工智慧應用當中，自動駕駛絕對是英偉達最堅定的一個方向。在今年 GTC 大會的演講上，黃仁勛也為自動駕駛行業帶來了一個全新的解決方案 —— Drive Constellation。

Drive Constellation 是一種使用虛擬現實（VR）技術的自動駕駛的模擬器，它讓自動駕駛的開發者們在數據中心打造一個虛擬世界，並對自動駕駛車輛的演算法進行數十億英里的測試。英偉達方面希望，通過自身強大的圖像渲染和虛擬現實技術，讓演算法在虛擬環境中的測試無限接近於真實場景。

GIF

在 Drive Constellation 中模擬夜間自動駕駛

它的組成結構也非常簡單，外觀看上去就是兩台 DGX-1 伺服器。不過兩台伺服器中的內容不太一樣：一台配置了數張英偉達的專業顯卡，另外一台則裝著和自動駕駛車輛相同的英偉達 DRIVE PX 平台。

整個系統的工作方式也非常簡單，配置了專業顯卡的伺服器結合高清地圖、車輛行駛模擬演算法、以及天氣、光照等一系列條件，經由專業渲染形成虛擬的駕駛環境。然後這些數據以類似於真實感測器的格式被直接發送到裝載著 Drive PX 平台的伺服器中，Drive PX 平台根據這些數據，執行相應的自動駕駛演算法，並且最終將車輛的操縱輸出返回到虛擬化的伺服器中，形成循環。

根據英偉達官方的說明，兩台伺服器在 1 秒的時間內可以進行 30 次這樣的循環。英偉達還表示，這套系統能夠模擬不同的天氣，如暴風雨雪天氣、一天中不同時刻致盲的炫光、夜晚有限的視野以及不同類型的路況和地形。同時，它也可以模擬危險的路況以測試自動駕駛汽車的反應能力。然後開發者可以對自動駕駛的演算法進行改進和完善。

英偉達汽車部門高級主管 Danny Shapiro 對此表示：「這對於行業來說是一個非常有價值的工具，它能夠加速自動駕駛的研發進程。」黃仁勛在演講中也說了一個數字：10000 套 Drive Constellation 系統，一年就能夠路測 30 億英里。

據 AI 科技評論了解，Drive Constellation 將在今年第三季度推向市場，並為英偉達的早期客戶提供服務。

在英偉達的生態系統中，目前已經彙集了超過370個不同的公司。大家將合力開發自動駕駛技術。雖然這個數字反映了英偉達陣營的龐大，但這個生態中的 370 個合作夥伴並不都是汽車廠商。具體來說，這些合作夥伴包括乘用車，卡車、物流車和自動駕駛計程車等，一級供應商，自動駕駛初創公司、激光雷達公司、地圖公司等等。

通過這套虛擬現實的駕駛模擬器，英偉達完全可以將數量眾多的合作夥伴放到一個平台當中，加速自動駕駛技術研發、落地的進程，反過來鞏固英偉達自身硬體在自動駕駛領域的不可替代性。

TensorRT 也是一項英偉達去年發布的新技術，它的目標是將各種人工智慧架構的演算法，與英偉達各種架構的 GPU 相適配，通過二次優化演算法提升整體演算法在英偉達 GPU 上面運行的效率。

在本次 GTC 之上，英偉達拿出了最新版本的 TensorRT 4，它最重要的特點就是更高的效率，根據英偉達官方的測試，多種人工智慧演算法在同一個伺服器上運行的時，TensorRT 4 能夠減少 70% 的硬體需求，同時還能在延遲方面提升 190倍。

得益於軟硬體的共同提升，黃仁勛表示在自家 GPU 上訓練 AlexNet 的速度 5 年間提升了 500 倍

相比性能方面的提升，此次 TensorRT 在業界支持方面的新進展其實更加值得關注。因為在去年 TensorRT 某種程度上已經是一個英偉達自己的人工智慧架構，而且是凌駕於幾乎所有人工智慧架構的終極架構。這對於之前希望通過培育人工架構、打造自由人工智慧生態的公司來說並不是好事。

令人驚喜的是，英偉達官方表示已經和 Google 達成合作，將在最新的TensorFlow 1.7 版本中直接內嵌 TensorRT ，進而進一步提高模型在英偉達 GPU 上運行時的表現。Goolge 的工程總監 Rajat Monga 還特別表示，Google的 TensorFlow 團隊一直和英偉達保持著緊密的合作關係。

英偉達RTX技術

RTX 技術是目前市面上最強大的光線追蹤技術，可以對多種材質進行最接近真實的實時渲染，現場演示中還包括了比較複雜的動態場景。

醫療平台 Clara

GIF

由人工智慧驅動的醫療平台 Clara 是英偉達的一次全新嘗試，現場的展示中，英偉達通過對一個二維的超聲波探測實時結果進行處理，直接精準還原患者體內臟器的活動，甚至可以直接算出心臟的容積、以及每次跳動的體積差異。

未來自動駕駛平台路線圖

黃仁勛分享了英偉達 DRIVE 系列產品的未來發展路線圖，首先發布小尺寸的單晶元平台，然後通過晶元數量和 GPU 的數量增加獲得更強的性能，然後利用技術將更強的性能再次壓縮為小尺寸的單晶元平台，依次類推。

現場透露下一代單晶元平台代號為 Orin。

基於 Holodeck 的遠程虛擬駕駛系統

打算用 VR 來做遠程駕駛的初創公司可能很崩潰。

在前幾年的歷程中，英偉達幾乎源源不斷地拿出更新、更強大的 GPU 晶元。但作為半導體產品，製程的物理限制只能步步逼近而無法直接超越，單顆晶元的提升難度還將不斷提升。但因為並行運算的原因，GPU 實際上很容易進行橫向的拓展，此次 GTC 上發布的內置全新 16 顆 V100 GPU 的 DGX-2 加速器就是最好的證明。在利用合適的數據傳輸技術的前提下，GPU 未來的動力增長依舊會「很強勁」。

除了硬體之外，英偉達針對整個生態體系也做了諸多工作，從以深度學習為代表的大規模並行運算支持的持續優化，到完全 VR 化的自動駕駛路測，英偉達實際上在不斷為整個生態賦能，掃除一些關鍵性的障礙。這種能力，放眼人工智慧、自動駕駛這樣的領域，都是無人能及的。

毫無疑問，在 2018 接下來的日子裡，教主和他的英偉達，還將給我們帶來更多驚喜。

對了，我們招人了，了解一下？

限時拼團---NLP工程師入門實踐班

三大模塊，五大應用，知識點全覆蓋；海外博士講師，豐富項目分享經驗；

理論+實踐，帶你實戰典型行業應用；專業答疑社群，結交志同道合夥伴。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技評論 的精彩文章:

※阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監督學習框架
※我在Facebook上發了一張小狗的照片，它該付錢給我嗎？

TAG:AI科技評論 |

英偉達上演GPU「十六合一」，512GB顯存獨步天下

看似槽點、其實亮點：

「世界最大的 GPU」、「世界最大的顯存」

高速、高效

讓自動駕駛路測走向 VR 時代

持續滲透的 TensorRT

不斷加速的 AI 版圖

其他內容

光線追蹤、醫療平台、自家 GPU 雲技術、自動駕駛路線圖、遠程 VR 駕駛

AI 科技評論總結：

GPU 的動力依舊強勁

英偉達不只是一家「性能驅動公司」