當前位置:
首頁 > 科技 > 這家AI晶元公司將成為英偉達GPU的最強挑戰者|半導體行業觀察

這家AI晶元公司將成為英偉達GPU的最強挑戰者|半導體行業觀察

來源:本文由公眾號半導體行業觀察(ID:icbank)翻譯自「nextplatform」,謝謝。

Habana Labs推出了Gaudi HL-2000,這是一款定製的AI處理器,該公司聲稱,Gaudi HL-2000能夠在訓練神經網路方面超越英偉達最優秀、最亮眼的GPU。隨著新晶元的發布,這家位於特拉維夫的初創公司推出了一系列基於Gaudi的PCIe卡,以及一個八處理器伺服器,可用作構建超大型訓練集群的基礎。

這家AI晶元公司將成為英偉達GPU的最強挑戰者|半導體行業觀察

Gaudi代表著Habana進軍AI市場的第二次嘗試。2018年第四季度,該公司開始向客戶出貨Goya推理卡。正如我們當時報告的那樣,與英偉達的V100 GPU相比,HL-1000驅動的Goya在ResNet-50上進行推理時,提供了超過4倍的吞吐量,2倍的能源效率,以及一半的延遲。據Habana首席商務官Eitan Medina稱,Habana已經收集了近20名Goya客戶,他們目前正在評估這項技術。

新的HL-2000在周一發布,與HL-1000對應。同樣,使用ResNet-50,Gaudi演示了它可以達到每秒1,650張圖像,批量大小為64。(對於V100,我們可以找到的最佳訓練結果是每秒1,360張圖像,批量大小不詳。)Medina對The Next Platform講:「讓我們在小批量的情況下實現這種性能的基本屬性與核心架構有關——它是從頭設計的,而不是依賴於老架構,比如GPU或經典CPU。」

Habana並沒有提供太多關於晶元內部細節的信息,只聲稱它是基於第二代Tensor處理核心(TPC),第一代進入了他們的推理晶元。Medina告訴我們,Gaudi處理器支持用於訓練的典型浮點格式,如FP32和bfloat16,以及一些整數格式。On-package memory採用32GB HBM2的形式,反映了GPU加速器上可用的內容,比如英偉達的V100和AMD的Radeon Instinct MI60。

Habana沒有透露新處理器的任何原始性能數據。Medina解釋說:「如果我告訴你我在晶元上放了多少個乘法器,以及它們的工作頻率,但是這個架構卻不允許你使用它們,那麼我所做的一切都是在誤導你。」據他介紹,由於他們的clean-sheet設計,他們的晶元可以實現比GPU更高的利用率。

也許Gaudi最大的潛在優勢將是提供大規模性能的能力,這對於構建更大、更複雜的神經網路一直是一個挑戰。對於大多數訓練設置,一旦超過8個或16個加速器,也就是說,一旦離開伺服器機箱,性能就趨於平穩。Medina說,Gaudi的技術並非如此。他指出,同樣的ResNet-50訓練擴展到數百個HL-2000處理器,其性能接近線性增長。與V100相比,Habana技術能夠在650處理器的水平上提供3.8倍的吞吐量優勢。

這家AI晶元公司將成為英偉達GPU的最強挑戰者|半導體行業觀察

Habana通過在他們的Gaudi晶元中插入大量網路帶寬,以RDMA over Converted Ethernet(ROCE)的形式實現這一點。使用乙太網(而不是NVLink或OpenCAPI等更奇特的東西)的理由是,它使客戶能夠輕鬆地將Habana硬體放入現有的數據中心,以及使用各種網路提供商提供的標準乙太網交換機構建AI集群。

在HL-2000處理器的情況下,10個100GbE介面集成在晶元上,其中一些介面可用於連接節點內的其他HL-2000處理器,其餘介面可用於跨節點的處理器內通信。後一個功能消除了對NIC的需求。

在Habana自己的HLS-1系統中可以看到這種工作原理,這是一個配備8個HL-2000處理器的類似3U DGX的盒子。在內部,每個晶元的100GbE鏈路中有7個用於以無阻塞、all-to-all的方式將HL-2000處理器連接到另一個處理器,而其餘3個鏈路則提供給伺服器以構建更大的集群——因此有24個100GbE外部埠。連接到主機伺服器或快閃記憶體不會佔用乙太網帶寬。為此,Habana提供了4個PCIe Gen4 x16介面。

這家AI晶元公司將成為英偉達GPU的最強挑戰者|半導體行業觀察

將其與典型的GPU加速伺服器進行對比,後者通常受單個網路介面的限制。在這方面最好的是英偉達最新的16 GPU DGX-2系統,它配備了多達8個100G埠,但這仍然是24埠HLS-1提供的一小部分。

Habana Gaudi系統的機架可以通過將6台HLS-1伺服器與6台CPU主機伺服器(HLS-1沒有主機處理器)穿插在一起,再加上機架頂部的乙太網交換機來構建。這樣的機架可以連在一起構建任意大的集群。雖然沒有板載主機處理器可能會讓一些人感到厭煩,但它確實允許客戶選擇CPU的型號和品牌,並讓他們能夠微調CPU核心與AI加速器的比例。

想要構建自己的基於Gaudi的系統的客戶可以使用Habana的HL-200 PCIe卡,它提供8個100GbE埠,或HL-205夾層卡,它有20個56Gbps SerDes介面,足以支持ROCE形式的10個100GbE或20個50GbE埠。HL-200的功耗為200瓦,而HL-205的功耗則為300瓦。

夾層卡是Habana的HLS-1伺服器的基礎。但也有可能用它來構建更大的系統。例如,如果你降低到50GbE以便在機箱中進行all-to-al連接,則可以使用16個HL-205卡構建16個處理器的機箱,仍然留下32個100GbE埠以進行擴展。如果你想構建一個較小的伺服器,則可以在一個機箱中以菊花鏈形式連接多達8個HL-200卡。

順便提一下,夾層卡支持OCP加速器模塊(OAM)規範,這是一種開放硬體計算加速器模塊形式,開發了Facebook、微軟和百度。這告訴了我們Habana瞄準這個特定產品的許多地方。

與英偉達對NVLink所做的不同,Habana不支持跨多個處理器的緩存一致的全局內存空間。Gaudi設計師認為緩存一致是一種性能殺手,無法有效擴展到少數加速器之外。從他們的角度來看,實現訓練神經網路的可擴展性基本上是一個網路問題,使用RDMA可以非常有效地生成更大的模型。

Habana的競爭可能也會轉向這種思維方式。正如Medina所指出的,在最近的GTC會議上,英偉達首席執行官Jensen Huang將RoCE作為一種大大提高深度學習工作可擴展性的方法。這意味著,一旦這家GPU製造商的收購在今年晚些時候完成,那麼該公司對於利用Mellanox的乙太網技術有一些非常具體的想法。

這家AI晶元公司將成為英偉達GPU的最強挑戰者|半導體行業觀察

軟體方面,Gaudi配備了Habana的AI軟體棧,稱為SynapseAI。它由圖形編譯器、運行時、調試器、深度學習庫和驅動程序組成。在這一點上,Habana支持TensorFlow來構建模型,但是Medina說,隨著時間的推移,他們將增加對PyTorch和其他機器學習框架的支持。

從評估系統到生產部署可能還有很長一段路要走,但如果Habana技術能像承諾的那樣交付,AI市場將樂於轉向追求更好的性能。儘管如此,在AI硬體方面,英偉達已證明自己是一個快速移動的目標,無論對於初創公司還是像英特爾和AMD這樣的老牌晶元製造商而言都是如此。有一點是肯定的:對更大更好的AI的需求正在創造一個高度競爭的市場,在這個市場中,工程團隊的靈活執行幾乎與架構設計同等重要。

Habana將在2019年下半年向選定的客戶提供Gaudi平台。雖然Medina告訴我們,Gaudi將市場上的同類產品「競爭」,但價格尚未透露。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 半導體行業觀察 的精彩文章:

台積電:美商務部沒有派員到公司調查供貨華為
3GPP到底是一個什麼樣的組織?|半導體行業觀察

TAG:半導體行業觀察 |