英特爾首屆AI開發者大會：秀出AI晶元和AI能力

科技 06-04

英特爾今日在美國舊金山舉行了首屆Artificial Intelligence (AI) Developers Conference人工智慧開發者大會，向800名AI極客和媒體等觀眾展現了自己在該領域的領導力、技術和贏得的客戶。現在英特爾擁有豐富的人工智慧技術產品組合，特別是在收購了Movidius和MobileEye獲得實時處理能力，收購Altera獲得可重新編程的FPGA加速硬體，以及收購Nervana可訓練由NVIDIA GPU提供動力的工作服在。英特爾專註於訓練在生產環境中使用訓練過的神經網路的推理處理，這是一個很好的策略，因為推理處理可能會成為未來幾年訓練細分領域中一個規模越來越大的市場。雖然英特爾尚未在其產品組合中使用強大的ASIC來構建人工智慧網路，但它可以在推理方面創造出相當強大的市場地位，和蘋果、高通、Xilinx和NVIDIA等公司匹敵。

也就是說，英特爾並沒有放棄AI訓練這個市場——NVIDIA在這個市場中取得了巨大的成功，年運營率達到了30億美元。在這次大會上，英特爾強調了至強處理器在訓練方面的優勢，同時指出未來希望利用Nervana更直接地與NVIDIA晶元競爭。不幸的是，對於英特爾來說，Nervana現在似乎至少需要18個月的時間——這是我的預測，需要更大規模重新設計的時間。

英特爾人工智慧高級副總裁Naveen Rao在主題演講中闡述了英特爾的人工智慧戰略：從根本上說，英特爾要為優化開發軟體統一化的套件提供全面的人工智慧通用設備和專用設備。正如Rao所指出，運行人工智慧應用並不是一個適合所有人的市場，而且英特爾的產品提供了進行推理處理所需的性能、延遲和功率。

英特爾首屆AI開發者大會：秀出AI晶元和AI能力

圖1：英特爾高級副總裁Naveen Rao拉開了這次面向人工智慧應用開發者的大會的帷幕，英特爾最大的一些客戶在他的主題演講中露面。

英特爾還通過這次大會分享了一些關於客戶在英特爾面向人工智慧硬體方面所取得的進展，包括Google、亞馬遜、微軟、Novartis和Facebook。Novartis是一個很好的例子，在這個例子中如果不在HBM和CPU控制的DDR4內存之間來回切換，GPU內存可能不足以處理大型數據集。這也突顯了英特爾一直在抱怨的基準測試問題。具體來說，如果你（像Novartis一樣）正在處理解析度為1024x1280x3的點陣圖像，那麼晶元在訓練ImageNet資料庫（圖像僅為224x224x3位）時的性能就是無關緊要的。Novartis最近還使用OmniPath將其人工智慧訓練擴展到8個節點，將訓練時間從11小時減少到僅31分鐘。英特爾指出，Skylake至強處理器具有特定的指令（例如降低精度的數學運算），從而有助於提高至強處理器面向人工智慧任務的性能。

Facebook分享了一些有趣的數據，表明Facebook使用（至強）CPU進行所有推理工作並選擇訓練任務，而使用GPU用於訓練Convolutional Neural Networks (CNNs)針對圖像處理，以及Recurrent Neural Networks (RNN)用於語音和語言翻譯。英特爾需要Nervana用於像這樣的工作負載。從圖2中可以看出，Facebook一部分使用了CPU是因為自己已經有數百萬了CPU了。

英特爾首屆AI開發者大會：秀出AI晶元和AI能力

圖2：Facebook發表了一篇博客，第一次展示了在哪些方面使用CPU，以及如何使用GPU（綠色）進行廣泛的人工智慧處理。

英特爾指出，大多數企業的CPU容量是過剩的，特別是在夜間。英特爾緩解了針對很多機器學習工作服在使用現有資源所帶來的軟體負擔。正如Rao所說，企業現在可以在他們現有的晶元上運行人工智慧。

在筆者看來，這次活動最大的新聞是備受期待的Nervana神經網路處理器（NNP）路線圖更新了。在被英特爾收購之前，Nervana曾預計將交付一款可支持框架的NNP加速器，該加速器可能會以10倍的速度擊敗某些GPU。英特爾一直在向主要的一些人工智慧客戶提供第一代晶元樣品，並將這些客戶的反饋和增強需求融入到第一代NNP中，預計2019年年底推出。我曾預測Nervana會在去年發布首款商用產品，但是現在看起來似乎還需要時間打磨這款產品。在圖3和圖4中，英特爾透露的一些信息，讓我們可以用來對NNP進行一些預測。

英特爾首屆AI開發者大會：秀出AI晶元和AI能力

圖3：英特爾留下一些信息，讓我們可以用來預測NNP L-1000 AI加速器的最終性能

在圖3中，英特爾提到了「Chip X」，筆者認為這可能是NVIDIA Volta GPU，大幅度地誇大了其性能。英特爾在這裡可能是想表達一些觀點，但筆者要指出的是，125 TOPS這個數據僅與NVIDIA TensorCore指令執行的4x4矩陣操作有關。沒有TensorCores，Volta V100可能會是在30-40 TOPS範圍內。這與英特爾聲稱Lake Crest晶元的吞吐量大致相當，因此英特爾決定推遲第二代商用產品的原因就顯而易見了。請注意圖3最右側的說明，該圖表明最初的Nervana結構在<800 ns的延遲時間下提供了2.4TB的帶寬。這個說法令人印象深刻，而且非常重要，因為低延遲網路對於訓練大型神經網路中的橫向擴展並行處理來說至關重要。

圖4顯示了英特爾希望Spring Crest產品的落點在哪，它將目前的NNP的性能提高了3倍，使其與NVIDIA Volta GPU具有相當的競爭力。如果NVIDIA的下一代晶元不能提供更通用的TensorCore功能，我會感到非常意外，但此時NVIDIA尚未提供任何關於下一代晶元的信息。

英特爾首屆AI開發者大會：秀出AI晶元和AI能力

圖4：英特爾預測Spring Crest晶元相比Lake Crest的性能提高3-4倍。

結論

英特爾知道抓住人工智慧機遇的戰略重要性，並將專註於數據中心和邊緣的推理處理上。為了訓練大型模型以及對網路要求苛刻的大容量內存，英特爾力推至強處理器，當然這是因為英特爾主要產品就是至強。英特爾已經決定等到2019年年底推出第二款Nervana晶元，試圖追上甚至趕超NVIDIA。重要的是，英特爾將在人工智慧生態系統投資10億多美元，並為全球100多所大學的研究和教育項目提供資金。英特爾已經為至強處理器增加了統一的軟體和人工智慧功能，同時利用FPGA、MobileEye和Movidius以滿足應用特定的需求。因此，英特爾擁有相當強大的人工智慧組合，除了大型設備訓練之外。

這是令人印象深刻的進步，筆者也將密切關注接下來接下來英特爾如何贏得更多客戶和成功案例。和除了Facebook或微軟之外的所有人一樣，我只需等待第二款Nervana晶元面市即可判斷英特爾能否成功與NVIDIA和其他很多正在為訓練人工智慧網路準備晶元的初創公司相競爭。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 至頂網 的精彩文章:

※雲計算的戊戌之變
※如果你有100萬美元AI預算：來看看Pure和Nvidia聯手打造的AIRI系統吧

TAG:至頂網 |