3.5億收購打水漂?Nervana被砍,英特爾專註Habana
在接連收購兩家雲端 AI 晶元初創,以鞏固自己最為重要的數據中心市場之後,英特爾終於在兩虎之間做出了選擇。
Habana 因其出色的可擴展性技術與設計,還有量產交付能力擊敗 Nervana。但這並不意味著最終勝利。對於英特爾來說,只要看到了超越英偉達的機會,他就不會吝嗇,關鍵僅在於是否選擇了正確的晶元。
Habana 因其出色的可擴展性技術與設計,還有量產交付能力擊敗 Nervana。但這並不意味著最終勝利。對於英特爾來說,只要看到了超越英偉達的機會,他就不會吝嗇,關鍵僅在於是否選擇了正確的晶元。
近日,外媒爆料了英特爾在 AI 領域的新動作。福布斯稱,Intel 將停掉台積電 16nm 代工的 Nervana 晶元,主要是其中的 Nervana NNP-T 系列。Intel 沒有大張旗鼓對外宣布此事,但已通過郵件向分析師和客戶告知:
已停止已停止開發 Nervana NNP-T 訓練晶元(之前代號 Spring Crest),但會兌現之前在推理晶元 Nervana NNP-I(代號 Spring Hill)向客戶許下的承諾。
Habana 產品線提供了同時面向推理和訓練的統一高度可編程的架構所擁有的強大戰略優勢。通過改用單一的硬體架構和軟體堆棧以實現數據中心 AI 加速,我們的工程團隊可以攜起手來,致力於為客戶更迅速地提供更多的創新。
本周五,深度學習分析師 Karl Freund 也在推文中指出,英特爾將完全停止英特爾在 2016 年收購的深度學習晶元初創公司 Nervana 的 NNP-T 產品,而專註於 Habana Labs。
1 為什麼收購兩家雲端AI公司?
儘管 Intel 在 AI 領域的終端、邊緣計算和雲端均有布局,但是重中之重仍然是利用 Intel 在雲數據中心的強勢地位,確保其在雲端 AI 晶元市場的地位。這也是它接連收購 Nervana 和 Habana 兩家雲端 AI 晶元公司重要原因。
2019 年 12 月 16 日,英特爾收購 Habana Labs 的傳聞被敲定,此次收購仍延續著英特爾「大手大腳」的作風——20 億美元,僅次於 Mobileye 第二大收購。
當時,Habana 擁有兩款產品 Gaudi AI Training Processor 和 Goya AI Inference Processor。值得注意的是,Gaudi 人工智慧訓練處理器已經在為特定超大規模客戶提供樣品,Goya 人工智慧推理處理器已實現商用。
其中,Gaudi 是 Habana 用於加速訓練的微體系結構。運用 TSMC 16 納米工藝設計,該晶元將八個 TCP 與 GEMM 引擎集成在一個集群中。Goya 是 Habana 的微體系結構,用於加速推理。Goya 採用台積電(TSMC)16 納米工藝製造,這個產品實際上是 Gaudi 的簡化版本。
不過,早在收購 Habana 之前,2016 年 8 月,英特爾以 4.08 億美元的價格收購了深度學習技術初創公司 Nervana。
這家公司的主要產品就是 Nervana 神經網路晶元,其架構設計很有特色,針對 AI 需要高性能內存的特點放棄了標準緩存系統,改用軟體管理內存系統。
但是,和 Habana 不同,Nervana 並沒有量產產品。收購 Nervana 三年後,Intel 才推出 Nervana NNP-T 及 Nervana NNP-I。
Nervana NNP-T 系列,代號 Spring Crest,主要面向 AI 訓練,使用的是台積電 16nm 工藝生產,核心面積高達 680mm2,集成 270 億晶體管,搭配 32GB HBM2 顯存,頻率 1.1GHz,TDP 150-250W,對標 NVIDIA Tesla 系列 GPU 加速晶元。
相比之下,Nervana NNP-I 系列 AI 晶元規模要小很多,代號 Spring Hill,主要面向 AI 推理應用,CPU 部分是 Intel 的 10nm 工藝 Ice Lake 核心,功耗在 10-50W 之間,有 M.2 及 PCIe 兩種規格,更為小巧靈活。
2 誰更靠譜?
就在宣布收購 Habana 之前的一個月,英特爾曾重申過 Nervana 晶元的交付計劃。當時就有一些分析人士認為,收購事件可能表明,客戶對 Nervana 硬體並不滿意,不願意再次使用 Nervana。既然 Nervana 無法跟上快速發展的市場的步伐,英特爾就要繼續探索其他選擇。
如今,英特爾停掉台積電 16nm 代工的 Nervana 晶元,也佐證了這一猜測。英特爾表示,它是在徵求其工程師和大客戶的反饋之後做出這一決策的。反饋表明,代號為 Spring Hill 和 Spring Crest 的第二代 Nervana 設計根本滿足不了那些高性能工作負載的要求。
這些客戶還提到,Habana 是一個可與 Intel 一較高下的優選平台。其中,Facebook 已向 Intel 明確表達:「你需要獲得一種更好的晶元。」
首先,Habana 網路技術很可能是英特爾決定放棄 Nervana 而是轉而使用 Habana 技術的關鍵原因之一。
Nervana 的神經網路處理器(NNP-T)使用專有的互連進行擴展,而 Habana 的 Gaudi 可以通過標準 100Gb 乙太網擴展到數千個節點。而且,Gaudi 甚至還支持遠程直接內存訪問 RDMA,該功能使軟體可以訪問整個結構中的內存,而無需增加遠程 CPU 的負擔。
這種結構可以顯著提高訓練大規模神經網路模型的性能,以應對每 3 個半月神經網路模型大小就會增加一倍,處理越來越複雜 AI 任務的趨勢。
除此之外,有分析指出,在設計底層編譯器和軟體架構的時充分考慮軟硬體協同,也幫助 Habana 晶元取得了更加良好的可擴展性。根據官方公布的數字,其分散式總體性能甚至在處理器數量大於 600 的時候也能接近線性,較之 Nvidia V100 GPU,訓練性能提高了接近 4 倍,這是一個非常了不起的結果。
最後,Habana 晶元不僅功能更強大,而且自 2018 年底以來一直在出貨。反觀 Nervana 從被收購到產品交付,不僅耗費三年的時間,產品還一再延遲。
買斷競爭對手是英特爾的合乎邏輯的舉措,Habana「上位」成功,並不意味著他不會有被替代的一天。畢竟,Groq 也在儘力而為,更多公司也正在將其晶元推向市場。
對於英特爾來說,只要看到了超越英偉達的機會,他就不會吝嗇,關鍵在於自己是否選擇了正確的晶元。