當前位置:
首頁 > 最新 > 英偉達上演GPU「十六合一」,512GB顯存獨步天下

英偉達上演GPU「十六合一」,512GB顯存獨步天下

AI 科技評論按:Buy more GPU,save more money!(買越多GPU,就越省錢!)這句話,英偉達 CEO 黃仁勛在整場 GTC 中足足重複了9次(可能還有數漏的)。

作為英偉達每年最重要的大會,一年一度在美國舊金山舉辦的 GTC 一直都是英偉達技術實力最集中的展示。而且英偉達的新產品也深深牽動著深度學習領域研究人員的心,更快的 GPU 、更大的顯存、新的深度計算 API、更強大的計算集群等等都讓更大規模、更高表現的模型變得更為平易近人。


本次 GTC 之上沒有像之前大家預期的那樣,發布全新的 GPU 架構,以及傳統定義上的「核彈」(單顆GPU、或者單顯卡封裝的產品)。

但英偉達實際上拿出了一款被黃仁勛自己稱為「全球最大的 GPU」的新產品—— DGX-2。

組件強的不像話的DGX-2

去年發布 Volta 架構之時,英偉達實際上已經將 DGX-1 中舊架構、舊工藝的 P100 GPU換成了 V100 GPU。原有的 V100 GPU已經很強大了,那麼想要更強大就只剩一種「簡單而又粗暴」的方法了:再加幾顆 V100 GPU。這樣一來,在 DGX-2 伺服器加速器中我們將會看到多達 16 顆 V100 GPU。

16 顆 GPU 中任何兩顆都能以 300GB/s 帶寬進行數據交換

GPU 數量翻倍之後,為了讓他們發揮出真正的威力,英偉達還祭出了一項升級版的技術 NVLink Switch(簡稱NV Switch)。這項技術的目標只有一個:讓DGX-2 中的 16 顆 V100 GPU 能夠化身為「一顆巨大的 GPU」運作。

根據英偉達副總裁和 DGX 系統產品經理 Jim McHugh 介紹,藉助 NVswitch 技術,DGX-2 中的 16顆 GPU 之間都能夠直接 1 對 1 連接傳輸,每顆 GPU 擁有高達 50Gb/s 的帶寬,同時最多支持 18 顆 GPU 相互連接,讓整個系統的吞吐性能達到驚人的 900Gb/s。

高舉著兩倍顯存的 Quadro GV100加速器的黃仁勛

值得一提的是,DGX-2 中使用的雖然還是 V100 GPU,但它發生了一點小變化 —— 原有的 4 顆 4GB HBM2 顯存,升級為 4 顆 8GB HBM2 顯存,也讓 V100 GPU 的整體顯存大小升級為 32GB。(GPU其他參數,包括顯存位寬、帶寬均沒有改變。)並且在 DGX-2中,16 個 V100 GPU 中各自擁有的 32GB 顯存都將連接到一起,你甚至可以將它看成一整個 512GB 的顯存空間。

那麼究竟這對於用戶來說有多大的影響呢?英偉達官方的原話是:「顯存容量增加,讓運行更深、更大的深度學習模型成為可能,同時也會提升深度學習的表現。對於內存大小比較敏感的應用,最多能夠提升 50% 的實際表現。」

現場減價「促銷」

黃仁勛現場表示展示用的這套實驗產品實際上價值 250 萬美元,然後先放出了一個 150萬 美元的售價,接著自己「砍到」了 39.99 萬美元,希望用一個「有誠意」的價格打動各方潛在用戶。


Drive Constellation的實際系統組成(下圖)

在眾多的人工智慧應用當中,自動駕駛絕對是英偉達最堅定的一個方向。在今年 GTC 大會的演講上,黃仁勛也為自動駕駛行業帶來了一個全新的解決方案 —— Drive Constellation。

Drive Constellation 是一種使用虛擬現實(VR)技術的自動駕駛的模擬器,它讓自動駕駛的開發者們在數據中心打造一個虛擬世界,並對自動駕駛車輛的演算法進行數十億英里的測試。英偉達方面希望,通過自身強大的圖像渲染和虛擬現實技術,讓演算法在虛擬環境中的測試無限接近於真實場景。

GIF

在 Drive Constellation 中模擬夜間自動駕駛

它的組成結構也非常簡單,外觀看上去就是兩台 DGX-1 伺服器。不過兩台伺服器中的內容不太一樣:一台配置了數張英偉達的專業顯卡,另外一台則裝著和自動駕駛車輛相同的英偉達 DRIVE PX 平台。

整個系統的工作方式也非常簡單,配置了專業顯卡的伺服器結合高清地圖、車輛行駛模擬演算法、以及天氣、光照等一系列條件,經由專業渲染形成虛擬的駕駛環境。然後這些數據以類似於真實感測器的格式被直接發送到裝載著 Drive PX 平台的伺服器中,Drive PX 平台根據這些數據,執行相應的自動駕駛演算法,並且最終將車輛的操縱輸出返回到虛擬化的伺服器中,形成循環。

根據英偉達官方的說明,兩台伺服器在 1 秒的時間內可以進行 30 次這樣的循環。英偉達還表示,這套系統能夠模擬不同的天氣,如暴風雨雪天氣、一天中不同時刻致盲的炫光、夜晚有限的視野以及不同類型的路況和地形。同時,它也可以模擬危險的路況以測試自動駕駛汽車的反應能力。然後開發者可以對自動駕駛的演算法進行改進和完善。

英偉達汽車部門高級主管 Danny Shapiro 對此表示:「這對於行業來說是一個非常有價值的工具,它能夠加速自動駕駛的研發進程。」黃仁勛在演講中也說了一個數字:10000 套 Drive Constellation 系統,一年就能夠路測 30 億英里。

據 AI 科技評論了解,Drive Constellation 將在今年第三季度推向市場,並為英偉達的早期客戶提供服務。

在英偉達的生態系統中,目前已經彙集了超過370個不同的公司。大家將合力開發自動駕駛技術。雖然這個數字反映了英偉達陣營的龐大,但這個生態中的 370 個合作夥伴並不都是汽車廠商。具體來說,這些合作夥伴包括乘用車,卡車、物流車和自動駕駛計程車等,一級供應商,自動駕駛初創公司、激光雷達公司、地圖公司等等。

通過這套虛擬現實的駕駛模擬器,英偉達完全可以將數量眾多的合作夥伴放到一個平台當中,加速自動駕駛技術研發、落地的進程,反過來鞏固英偉達自身硬體在自動駕駛領域的不可替代性。

TensorRT 也是一項英偉達去年發布的新技術,它的目標是將各種人工智慧架構的演算法,與英偉達各種架構的 GPU 相適配,通過二次優化演算法提升整體演算法在英偉達 GPU 上面運行的效率。

在本次 GTC 之上,英偉達拿出了最新版本的 TensorRT 4,它最重要的特點就是更高的效率,根據英偉達官方的測試,多種人工智慧演算法在同一個伺服器上運行的時,TensorRT 4 能夠減少 70% 的硬體需求,同時還能在延遲方面提升 190倍。

得益於軟硬體的共同提升,黃仁勛表示在自家 GPU 上訓練 AlexNet 的速度 5 年間提升了 500 倍

相比性能方面的提升,此次 TensorRT 在業界支持方面的新進展其實更加值得關注。因為在去年 TensorRT 某種程度上已經是一個英偉達自己的人工智慧架構,而且是凌駕於幾乎所有人工智慧架構的終極架構。這對於之前希望通過培育人工架構、打造自由人工智慧生態的公司來說並不是好事。

令人驚喜的是,英偉達官方表示已經和 Google 達成合作,將在最新的TensorFlow 1.7 版本中直接內嵌 TensorRT ,進而進一步提高模型在英偉達 GPU 上運行時的表現。Goolge 的工程總監 Rajat Monga 還特別表示,Google的 TensorFlow 團隊一直和英偉達保持著緊密的合作關係。


英偉達RTX技術

RTX 技術是目前市面上最強大的光線追蹤技術,可以對多種材質進行最接近真實的實時渲染,現場演示中還包括了比較複雜的動態場景。

醫療平台 Clara

GIF

由人工智慧驅動的醫療平台 Clara 是英偉達的一次全新嘗試,現場的展示中,英偉達通過對一個二維的超聲波探測實時結果進行處理,直接精準還原患者體內臟器的活動,甚至可以直接算出心臟的容積、以及每次跳動的體積差異。

未來自動駕駛平台路線圖

黃仁勛分享了英偉達 DRIVE 系列產品的未來發展路線圖,首先發布小尺寸的單晶元平台,然後通過晶元數量和 GPU 的數量增加獲得更強的性能,然後利用技術將更強的性能再次壓縮為小尺寸的單晶元平台,依次類推。

現場透露下一代單晶元平台代號為 Orin。

基於 Holodeck 的遠程虛擬駕駛系統

打算用 VR 來做遠程駕駛的初創公司可能很崩潰。


在前幾年的歷程中,英偉達幾乎源源不斷地拿出更新、更強大的 GPU 晶元。但作為半導體產品,製程的物理限制只能步步逼近而無法直接超越,單顆晶元的提升難度還將不斷提升。但因為並行運算的原因,GPU 實際上很容易進行橫向的拓展,此次 GTC 上發布的內置全新 16 顆 V100 GPU 的 DGX-2 加速器就是最好的證明。在利用合適的數據傳輸技術的前提下,GPU 未來的動力增長依舊會「很強勁」。

除了硬體之外,英偉達針對整個生態體系也做了諸多工作,從以深度學習為代表的大規模並行運算支持的持續優化,到完全 VR 化的自動駕駛路測,英偉達實際上在不斷為整個生態賦能,掃除一些關鍵性的障礙。這種能力,放眼人工智慧、自動駕駛這樣的領域,都是無人能及的。

毫無疑問,在 2018 接下來的日子裡,教主和他的英偉達,還將給我們帶來更多驚喜。

對了,我們招人了,了解一下?

限時拼團---NLP工程師入門實踐班

三大模塊,五大應用,知識點全覆蓋;海外博士講師,豐富項目分享經驗;

理論+實踐,帶你實戰典型行業應用;專業答疑社群,結交志同道合夥伴。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI科技評論 的精彩文章:

阿里巴巴AAAI 18論文CoLink:知識圖譜實體鏈接無監督學習框架
我在Facebook上發了一張小狗的照片,它該付錢給我嗎?

TAG:AI科技評論 |