矽谷首場AI硬體峰會幹貨報告:AI晶元井噴期即將到來
智東西(公眾號: zhidxcom)編 | 智東西內參
AI晶元不僅是未來十年半導體行業中最有希望的增長機會之一,而且還是有可能破壞傳統計算市場的力量。現今 99%的AI軟體尚未編寫,只有不到1%的雲伺服器用於AI加速(今年總計500+萬台伺服器),企業伺服器活動幾乎為零。訓練和推理工作從低基數中倍增,說明市場似乎是一致的,因為今天的加速硬體(GPU、CPU、FPGA)遠遠不能滿足市場的要求。
吞吐量上還需要巨大的飛躍(現今100倍)才能使AI無處不在。好消息是真正的架構創新即將出現,但需要時間才能生效:2019年以後,我們將看到新的工藝技術(7nm)、新的計算架構(晶元上的神經網路)、新的晶元互連(serdes 56/112GBs)、新的存儲器方法(HBM3、片上SRAM等)和新的封裝技術相結合,可帶來對數級性能的提升。因為不能太依賴工藝的縮減而進步,AI行業正在進行全面的創新。但長遠來看,台積電等主要DRAM製造商還是AI晶元產業的主要受益者。
本期的智能內參,我們推薦來自Arete的研究報告,詳解AI硬體峰會對未來的預測,2大科技巨頭及創業公司的AI晶元布局。如果想收藏本文的報告全文(Arete:AI晶元:未來計算的曙光),可以在智東西公眾號回復關鍵詞「nc292」獲取。
以下為本期智能內參整理呈現的乾貨:
1、AI硬體峰會的5大結論
上個月加州山景城舉辦的AI硬體峰會是目前唯一專門致力於開發用於神經網路和計算機視覺硬體加速器生態系統的活動。會上,來自 AI 晶元初創企業、半導體公司、系統供應商/ OEM、數據中心、企業、金融服務、投資者和基金經理等 250 多位先進技術領導者們,為新興的 AI 晶元市場構建了一幅全面的架構路線圖。
會上展示了許多AI晶元中另類創業者的狀態。其中有一件事是非常明確的:從未見過如此多的公司(無論大小)進攻這個新興晶元市場。就像今天的AI一樣,毫無疑問在接下來的幾年中,將會出現一個成果井噴期。繼谷歌的TPU之後,每個創業者都有正在研發的內部AI晶元程序。問題是這一切需要多長時間才能影響到市場情緒?畢竟,谷歌的TPU晶元已經到了第三代(在16年中期推出其第一個TPU之後),但仍然承載不了Tensorflow或其他框架的所有工作量。所以我們認為,2020年是許多AI晶元問世和量產的開始。
AI硬體峰會的5個重要結論:
1、台積電中幾乎所有的AI加速晶元都使用了7nm工藝。此外,我們還發現大量新的高速介面晶元(Serdes 56/112GBs)將在19年擴展。
2、英偉達仍然是機器學習之王,其新的T4卡將會被廣泛接受。它將在19年繼續佔據主導地位。但長遠來看,我們仍然擔心AI會減少對CUDA和GPU的依賴。
3、英特爾有新的7nm AI晶元(由台積電製造),我們認為這個晶元支持112GB的Serdes和高速DRAM。它還應該在明年的Cascade Lake伺服器中支持新的DL Boost INT8,並且速度增強11倍。
4、所有的雲計算商都在開發內部的晶元,但問題是時機的選擇,因為計劃的增加是私密的。這種垂直推進是晶元製造商面臨的主要威脅。
5、在最近的5年,我們見證了新的納米線取代了數字計算的模擬計算機的進步;硅光子學取代了Serdes(超過112 GB)和更高速內存驅動AI的性能提升。
新的AI晶元有兩種通用思路:
1、首先是擁有更快的I/O和外部存儲器介面的能夠擴展性能的系統,如英偉達,英特爾等。
2、其次是將所有數據存儲在晶元上(晶元上的神經網路),使用大量的小內核和片上存儲器來減少對外部DRAM的需求。
後一種方法將在未來六個月內會看到第一批商品化的晶元,但我們認為這需要7納米工藝真正推動家用優勢的時候(即2020年)。圍繞AI的軟體也在快速發展,雲服務商也正在推出開源適配軟體,以支持在其框架中運行的各種晶元(例如,Tensorflow XLA、Facebook Glow)。隨著新神經網路的成熟,每個人都意識到了可編程性和靈活性的重要性。隱含的目標是在7nm的FP16上達到每瓦特至少10 TOPS(比現在好10倍),並且通過更好地支持稀疏性,更低的精度、更小的批量、更快的晶元互連(112GB Serdes)、更快的存儲器介面(遠遠超出HBM2)以及新的多晶元高級封裝真正提高效率和性能。
2、英特爾:AI晶元扮裝者
儘管人們普遍轉向依賴通用CPU,但對於英特爾計劃在未來幾年內為AI引入的一些新優化措施,大家並未給予足夠的信任。英特爾去年的AI收入大約為10億美元(2017年),至強CPU將繼續在AI推理和訓練中發揮重要作用。例如,在Cascade Lake中,英特爾在架構中提供了大量新指令,以提高推理性能(聲稱在支持INT8精度的情況下性能提升11倍)。我們預計這些擴展將與AMD EPYC2規格區別開來。
英特爾的下一代Nervana ASIC晶元將在台積電(7nm工藝)製造,並將擁有一些關鍵的專有介面,可顯著提升性能。雖然GPU現在以低速(PCIE-3)連接到CPU,預計新伺服器將支持PCIE-4(16GB),但這仍然是數據輸入GPU的關鍵瓶頸。相比之下,英特爾或將在其Xeon CPU和7nm Nervana晶元之間構建專有介面,速度高達112GB。英特爾可能計劃推出一種新的高帶寬存儲器介面(對雲計算商而言是一個關鍵的關注點),並積极參与新的多晶元封裝。雖然向AI加速的轉變將導致更多的CPU被卸載,但英特爾希望通過在Xeon周圍構建外圍解決方案來獲取價值。時間將證明這是否有效,但規格的突破顯然揭示了英特爾的目標是在2020年取代英偉達的地位。
3、英偉達:暫時的旗艦
英偉達的GPU目前仍然是AI計算的王者,他們擁有真正的在位優勢(支持所有框架、所有雲服務商、所有OEM),並且其新產品具有顯著的性能提升,我們認為T4將得到廣泛採用並且其新的DGX2伺服器今年已售罄。雖然目前幾乎沒有令人信服的替代方案,而且我們也認為NVIDIA將繼續佔據主導地位(至少到2019年),但有兩個主要問題影響英偉達可以在多大程度上長期維持其領導地位:
1、首先,我們認為很明顯英偉達軟體壕溝(CUDA)將變得不那麼重要,因為像谷歌、ONNX都努力推進了他們的堆棧並建立了開發者生態系統。雲服務商現在正在積極提供替代晶元解決方案的開源插件,以支持Tensorflow、Pytorch、CNTK、Caffe2等框架,降低了新AI處理器的入門軟體門檻。
2、其次,是英偉達訓練和推理晶元的經濟性,雖然它們可以為許多AI工作負載節省CPU,但是銷售的GPU卡的超高利潤率與昂貴的內存捆綁在一起(V100每卡10萬美元,P4可能每個2萬美元)只會讓雲端用戶擁抱其他架構。
也就是說,英偉達擁有大量資源來投資競爭對手(尤其是初創公司),它致力於每年為AI推出一種新的架構,它可能會在2019年下半年首先推出7nm解決方案。 V100和T4都被視為英偉達首款用於AI的轉換晶元(遠離通用型GPU),因為它們是第一款支持張量核心和更低推理精度的晶元(INT8)。
預計19年新品的功能將再次大幅提升英偉達7nm AI加速晶元,將會有很多明顯的效率改進可以大幅提高吞吐量和延遲。我們預計它的下一代將更多地是以AI為中心的ASIC而不是GPU。雲客戶告訴我們,他們從V100 GPU獲得的利用率很低(低至15%),因為他們每個GPU只訓練一個神經網路。他們希望英偉達能夠虛擬化他們的GPU ,儘管這可能會給英偉達的GPU增長帶來壓力,甚至減少對AI計算晶元的需求。此外,今天英偉達擁有快速晶元到晶元介面(NVlink2),運行速度為25Gbs(遠遠超過標準PCIE-3連接,僅8GB或PCIE-4,16GB),我們預計到19年年底英偉達將推出對56Gbs甚至112GB serdes的支持,因為有些替代方案可以提升這些規格。我們認為英偉達的下一代架構將於2019年下半年發布(超越Volta / Turing),並將在很大程度上決定其在多大程度上可以繼續佔領市場。
微軟在AI計算選擇上的章節迎合了我們的觀點,即gpu需要快速發展
4、另類AI晶元創業公司的時代到來
在谷歌TPU的帶頭下,每個雲服務商都有內部的AI晶元程序,我們認為這可能會在未來18個月內得到驗證。有些已經公開表達他們的意圖,微軟甚至在峰會上有一個招聘廣告,說明它渴望建立自己的團隊。但這些項目所處的狀態還不清楚:雲服務商不會分享任何他們的硬體計劃細節 ,所以我們不知道他們處於什麼發展階段。我們認為第一次轉換晶元將重點關注推理,就像谷歌兩年前對TPU所做的那樣。
來自谷歌大腦的演示展示了一種諷刺,即隨著晶元行業達到摩爾定律的極限,AI計算的增長竟還能呈指數級增長,因此架構(和軟體協同設計)將成為關鍵的推動者。谷歌不僅將TPU用于越來越多的工作負載,而且繼續使用GPU,並將測試大量新系統上市。 50多家創業公司的工作已經縮減,以便將他們的平台商業化,我們預計未來12個月內將有6家公司推出首款加速晶元,2020年開始推出第二款(7nm工藝)。一些AI初創公司在19年可能會達到1億美元的銷售額,但我們還看不到是否有人能在2020年之前突破這一點。有許多令人印象深刻的初創公司,但其中許多還沒有流片,因此很難對性能聲明進行驗證。
雲服務商希望了解新的AI晶元的系統性能,因此他們建立了一個名為MLPerf的基準測試標準。我們認為這將是分析特定模型的訓練時間的關鍵標準 ,並且有助於與當前市場領導者英偉達(尚未加入MLPerf)的訓練平台進行比較。很明顯,許多初創公司從未提供產品給主要的雲數據中心,或者已經建立了領先的晶元。此外,只有少數參與者具有詳細的雲計算關係或在如何圍繞關鍵型任務雲計算晶元建立工程團隊方面擁有豐富經驗。
MLPerf將在一系列數據集和模型中獲得人工智慧晶元訓練時間
5、雲加速:巨大的市場機會
今天看一下現在典型的雲伺服器配置(2插槽,10核Xeon E5是最受歡迎的銷售平台之一),它包含大約660平方毫米的硅晶元面積來處理主CPU計算(即兩個330平方毫米的CPU晶元,主要由英特爾提供)。但是用於AI的加速伺服器(例如NVIDIA DGX-1)通常具有多達10倍的硅面積來處理加速度計算,如下圖所示。加速晶元面積與CPU晶元面積的比率僅會增加我們看到每個CPU從四個加速卡上升到每個CPU的六個和八個卡隨著時間的推移。我們認為谷歌計劃明年增加三倍的TPU晶元。
英偉達在訓練方面可能會繼續大幅增長,同時還有大量的AI創業公司。由於AI伺服器目前在市場上的滲透率很低(今年購買的雲伺服器不到1%支持加速),台積電的長期前景非常好。如果我們假設這種滲透率上升到100萬台加速AI伺服器(今年小於5萬),並且晶元面積保持不變(即每個AI伺服器6,560平方毫米),這將轉化為大約每年20萬片晶圓,或30億美元的代工收入(假設每片晶15,000美元,收益率55%)。這就是為什麼台積電會作為AI晶元長期的主要受益者之一。
AI加速訓練伺服器的晶元面積比大多數Xeon伺服器大10倍
6、長遠的新技術
峰會期間還有許多其他新興技術,未來在3到5年的視野中看起來很有趣。AI的邊緣計算顯然正在智能手機中進行,我們堅信每部智能手機都將在未來2-3年內擁有專用的計算機視覺AI處理器(在相機周圍)。谷歌的Edge TPU和英偉達的DLA是早期可授權的例子,我們看到ARM現在提供專用的AI許可證解決方案,而Qualcomm、Hisilicon、Cambricon和MediaTek則提供一系列智能手機和物聯網解決方案。一系列具有增強AI規格的嵌入式SOC即將推出 ,適用於相機、機器人、汽車等。英偉達的Xavier就是一個例子。我們將在即將發布的報告中研究自動駕駛汽車的汽車路線圖,其中AI加速將發揮核心作用。
從長遠來看,我們可以看到正在開發的一些擴展計算性能新技術,以應對摩爾定律的挑戰。其中一個更令人印象深刻的演講是來自Rain Neuromorphics和Mythic,他們看到模擬計算在5年的時間內商業化可能,使用鬆散的幾何形狀,圍繞晶元內部的納米線(如人腦中的突觸)解決功率限制。此外,Ayar Labs闡述了硅光子微型化方面的突破引起的更快的晶元互連(超過112GB Serdes)的解決方案。隨著Exascale計算機預計將在3-4年內出現在我們面前,我們認為AI正在全面推動新思路研發,將實現性能的指數增長。
智東西認為,隨著摩爾定律的終結,AI的發展不能指望摩爾定律帶來的性能提升,尤其是AI晶元的發展。英偉達雖然目前處於行業領先地位,但很有可能被英特爾或新的創業公司超越。不遠的未來AI晶元將是一個井噴的行業,而這個行業最大的受益者將是台積電。希望內地的相關企業也能在這一波浪潮中抓住機遇,改變我國缺芯的局面。
※Oculus VR一體機測評:性能大幅超預期!比Oculus GO強上幾代
※震驚!協作機器人鼻祖之一Rethink倒閉,貝索斯曾投資八輪
TAG:智東西 |