6分鐘完成ImageNet訓練，英偉達創下六項AI性能新記錄

科技 02-25

智東西（公眾號：zhidxcom）文 | 智東西內參

自AlphaGo引爆人工智慧大潮以來，其中的大熱門——機器學習，不僅在計算機視覺、語音處理等領域不斷突破技術的瓶頸，而且開始快速普及到安防、金融、醫療等多個傳統行業。從刷臉支付到個性化推薦，機器學習已經影響了人們生活的方方面面。

眾所周知，統一規範的行業標準有助於推動良性競爭，從而催化底層技術升級和行業發展。然而，機器學習領域長期缺乏統一標準。

直到去年，矽谷AI晶元的一半大佬與以圖靈獎得主為代表的學術大咖聯手解決了這一問題——共同發布了全球首個用於測量和提高機器學習軟硬體性能的國際基準測試MLPerf。MLPerf提供了神經網路常執行的7項任務，在谷歌、英特爾、NVIDIA均參與的首批測試結果中，NVIDIA在6項測試中拔得頭籌。

本期的智能內參，我們將透過NVIDIA打破的六項AI性能記錄，解讀NVIDIA為加速AI計算所研發的創新技術，以及為滿足不同深度學習需求所打造的多種解決方案。本文只是拋磚引玉，如果想了解MLPerf評測結果詳情，可直接點擊：https://www.nvidia.com/zh-cn/data-center/machine-learning-benchmarks/，如果想查閱《搭載Tesla V100 GPU的NVIDIA DGX-1系統架構白皮書》，可點解：http://nvidia.zhidx.com/content-9-743-1.html下載。

以下為智能內參整理呈現的乾貨：

AI基準測試大豐收！NVIDIA摘得六項桂冠

得益於算力的提升，機器學習在近幾年突飛猛進地發展。訓練和推理作為機器學習的兩個重要環節，對算力提出了不同的需求。在訓練領域，有GPU一家獨大，在推理領域，則百花齊放各顯神通。

為了解及其學習的對比評測問題，谷歌、百度、英特爾、NVIDIA、斯坦福等數十家產學界巨擘聯合打造了一個全新高端基準測試套件——MLPerf基準測試，這也是世界上是第一個客觀的機器學習性能評測標準，覆蓋了物體識別、語言翻譯等7類最常見的機器學習任務。

該基準測試針對不同任務設置了不同基準，並沿用了哈佛大學Fathom和斯坦福大學DAWNBench的一些評測思路，最終取達到目標質量的平均訓練時間作為最終評估標準，同時保證足夠的代表性和公正性。

首輪主流機器學習硬體平台的競賽結果已經公布在MLPerf官網上。其中表現最為亮眼的當屬NVIDIA，它不僅是唯一一家參與多達6項基準測試的公司，而且在6項測試結果中，均以遙遙領先的成績拿下第一名。

NVIDIA硬體產品不僅在上圖測試榜單中性能表現突出，而且相較其自身前幾代產品也進步飛速。例如在圖像分類項目中，NVIDIA主打的Tesla K80需要用25天完成任務，短短三年間，DGX集群把時間縮短到了6.3分鐘，性能大幅提升。

專為深度學習設計：DGX-1的兩大創新黑科技

在MLPerf大規模測試的物體檢測和非遞歸翻譯測試分項中，NVIDIA分別用時72.1分鐘和2.7分鐘，這些搶眼表現均歸功於NVIDIA DGX-1集群。而DGX-1之所以在機器學習方面有著位居市場前列的性能，則源自NVIDIA專為深度學習設計的兩大創新技術。

1、深度學習專用核心：Tensor核心

Tensor核心是一種新興張量處理核心，是NVIDIA專為深度學習應用而設計的專用ASIC單元，能在一個時鐘周期內實現兩個4×4矩陣的乘法和一個4×4矩陣的加法。它與Volta的其他微架構整合在一起，已支持Caffe、TensorFlow等越來越多的深度學習框架。

Tensor核心的矩陣乘累加計算是一種混合精度運算，NVIDIA提供兩種方式來用Tensor核心實現矩陣乘法加速。一個是在CUDA編程里實現Tensor核心的調用，另一個是利用cuDNN 7.0、TensorRT3.0等現成庫函數來調用Tensor核心。

得益於Tensor核心的超強加速能力，Volta產品實現3倍於上一代產品的性能突破。Tensor核心在訓練方面可提供高達12倍的TFLOPS峰值，在推理方面可提供6倍的TFLOPS峰值。

正是有這一超強核心的加持，NVIDIA陸續推出堪稱深度學習核彈的NVIDIA Tesla V100加速器，以及性能媲美250台CPU伺服器的超級計算機DGX-1。

2、超快數據交換：NVLink

單節點本地內存不足的問題一直是阻礙大規模並行計算的一大難題，為了實現高效的數據傳輸，不僅需要有超強的GPU，還對GPU與GPU、CPU以及節點內其他設備間的數據交換通道帶寬有著更高的要求。

在NVLink問世之前，GPU並行計算通過PCle匯流排來實現。彼時GPU通信雙向帶寬可達到32GB/s，而NVLink的出現徹底碾壓了PCle。NVLink具有25GB/s的單向帶寬、50GB/s的雙向帶寬。整合6條NVLink匯流排後，GPU的總帶寬可以提速至300GB/s，比PCle 3.0足足快了將近10倍。

NVLink是NVIDIA打造的世界上第一個靈活可擴展的高速GPU互連方案，採用NVIDIA全新高速信號互聯技術（NVHS），通過差分對傳輸數據，速率高達25Gb/s，單個鏈路支持端點間高達50GB/s的雙向帶寬，多個鏈路整合在一起，就能實現處理器間更高的帶寬。

以擁有6個NVLink鏈路的Tesla V100為例，採用NVLink匯流排的V100相比採用PCle匯流排，能將相同配置伺服器的總體性能提高約30%。

從V100 GPU到DGX-1深度學習超級計算機

Tensor 核心在被譽為「宇宙最快GPU」的Tesla V100 GPU加速器中體現，集合Tensor核心和NVLink兩大創新技術於一體的正是超強算力的集大成者DGX-1深度學習超級計算機的核心組件。

1、V100 GPU加速器

Tesla V100 GPU加速器是NVIDIA性能強大的通用GPU，可同時實現AI訓練、AI推理、HPC的加速。一個Tesla V100晶元採用12nm工藝設計，面積為815平方毫米，包含210億顆晶體管，共有5120個CUDA核心和640個Tensor核心，並支持300GB/s雙向帶寬的NVLink2.0高速互聯匯流排協議。單個V100 GPU 可提供高達100個CPU的性能。

看中V100所能提供的業界頂級算力，美國橡樹嶺國家實驗室的Summit超級計算機搭建了超過3400台Tesla V100 GPU伺服器，其浮點計算性能較上一代超級計算機Titan提升約10倍。此外，日本國家先進工業科學和計算研究所（AIST）也在其數據中心部署4352顆V100 GPU，能實現37 petaFLOPS的雙精度浮點計算性能。

Tesla V100已經如此能打，集成了8顆V100的DGX-1超級計算機更是成為加速深度學習應用開發的基礎。

2、DGX-1深度學習超級計算機

最後，我們來看看NVIDIA拿下6項MLPerf基準測試第一名的頭號功臣DGX-1。它是一個高性能、全棧式深度學習超級計算機，內置8顆Tesla V100 GPU，混合精度算力可達1 petaFLOPS。

DGX-1不僅擁有超強的硬體配置，還提供全集成的NVIDIA DGX軟體堆棧，能夠提供比普通GPU伺服器環境更強大的性能，實現深度學習研發環境快速部署。

如今，DGX-1已列入許多國內外科研機構的入手清單。以北京大學數字媒體所為例，他們利用DGX-1來加速深度學習系統模型訓練的效率，尤其在視頻行為識別和視頻編解碼等方面提升明顯。

從製造業、癌症研究到自動駕駛，DGX-1在產業界的應用更加廣泛。例如網易感知與智能中心就採用DGX-1，為網易全產業鏈的AI落地提供算力支撐；在金融行業，當下有幾個主要的銀行和保險公司也開始使用DGX-1快速處理數據，從而增加評估損失的準確率。

智東西認為，通過MLPerf基準測試公布的首輪結果，我們直觀地看到了英特爾、谷歌、NVIDIA不同架構的硬體產品在多個機器學習領域的正面較量。其中，NVIDIA DGX-1深度學習超級計算機橫掃六項AI性能第一，展現超強技術實力，強力推動AI研究的發展。

回溯到過去兩年，NVIDIA GPU在一系列創新技術的加持下，實現了加速性能大爆發，以強大的浮點計算能力、更低成本和完整生態體系的優勢，幫助越來越多的企業實現智能化升級。

儘管MLPerf基準測試還在完善中，它已經開始在機器學習領域為產學界提供高公信力的數據參考，從長遠來看，將推動機器學習硬體良性競爭，催化技術的創新與突破。

如果想了解MLPerf評測結果詳情，可直接點擊：https://www.nvidia.com/zh-cn/data-center/machine-learning-benchmarks/，如果想查閱《搭載Tesla V100 GPU的NVIDIA DGX-1系統架構白皮書》，可點解：http://nvidia.zhidx.com/content-9-743-1.html下載。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 智東西 的精彩文章:

※AI早報：智能音箱售8620萬台 5G毫米波頻譜規劃將發布
※AI早報：北京出台5G發展方案 IBM AI辯論賽輸給人類

TAG:智東西 |