一大波人工智慧晶元將在2018上市（上）

科技 01-24

深度神經網路就像遙遠地平線上的海嘯一樣湧來。

鑒於該技術仍在演變的演算法和應用，目前還不清楚深度神經網路（DNNs）最終會帶來什麼變化。但是，迄今為止，它們在翻譯文本、識別圖像和語言方面所取得的成就，清楚地表明他們將重塑計算機設計，而這種變化正在半導體設計和製造方面發生同樣深刻的變化。

量身定製的第一批商用晶元將於今年上市。由於訓練新的神經網路模型可能需要幾周或幾個月的時間，因此這些晶元可能是迄今為止製造的最大的，因此也是最昂貴的大規模商用集成電路晶元。

今年的行業可能會看到來自創業公司Graphcore的一款微處理器，該公司不使用DRAM，而是來自競爭對手Cerebras Systems的晶圓級集成開拓先鋒。英特爾收購的2.5-D Nervana晶元已經在生產樣片，其他十幾個處理器正在開發中。同時，從Arm到西部數據（Western Digital）的晶元公司正在研究內核，以加速深層神經網路的推理部分。

「我認為（2018年）將是一場即將到來的派對。」加州大學伯克利分校名譽教授大衛·帕特森（David Patterson）表示：「我們剛剛開始看到許多公司正在評估一些想法。」

這個趨勢非常明顯，帕特森和合著者約翰·亨尼西（John Hennessey）在上個月發表的關於計算機的開創性文本的最新版本中，為它寫了一個新的篇章。作者對內部設計提供了深入的見解，例如Patterson為其貢獻的Google TensorFlow處理器（TPU），以及最新Apple和Google智能手機晶元中的Microsoft Catapult FPGA和推理模塊。

「這是計算機體系結構和封裝的復興。」 Patterson說：「明年我們會看到比過去十年更有趣的電腦。」

深度神經網路的興起在過去幾年裡把風險投資的資金帶回到了半導體領域。「EE Times(電子工程專輯美國版）」最新推出的初創公司評選項目「Silicon 60」中，列舉了七家初創公司，其中包括兩個鮮為人知的名稱：寒武紀科技 Cambricon Technologies（北京寒武紀科技）和Mythic Inc.（Austin，Texas）。

「我們看到基於新架構的新創公司激增。我自己跟蹤了15到20家......過去10到15年中，在任何一個細分領域中半導體行業都不曾有超過15家的半導體公司同時湧現的事情」，企業家Chris Rowen說。他從Cadence Design Systems離職後，成立了一家公司Cognite Ventures，專註於神經網路軟體。

「Nvidia由於其強大的軟體地位，將難以與高端伺服器進行訓練的競爭。如果你去追求智能手機市場你會覺得自己瘋了，因為你必須在很多方面都做得出色。不過在高端或是低端的智能手機市場，還是會可能有一些機會。」羅文說。

市場觀察家Linley集團負責人Linley Gwennap表示，Nvidia在最新的GPU（Volta）方面做得非常出色，他們調整了對DNN的速度培訓。「但我當然不認為這是最好的設計，」Gwennap說。

Gwennap說，Graphcore（英國布里斯托爾）和Cerebras（加利福尼亞州Los Altos）是培訓晶元最多的兩家初創公司，因為他們籌集的資金最多，而且似乎擁有最好的團隊。由Google前晶元設計師創立的初創公司Groq聲稱，它將在2018年推出一款推理晶元，在每秒的總操作和推論中都會以四倍的優勢擊敗競爭對手。

一大波人工智慧晶元將在2018上市（上）

英特爾的Nervana是一個大型線性代數加速器，位於硅中介層上，緊鄰四個8-GB HBM2存儲器堆棧。消息來源：Hennessy和Patterson著寫的《計算機體系結構：一種定量方法》

Intel的Nervana，被稱為Lake Crest（上圖），是最受關注的定製設計之一。它執行16位矩陣操作，數據共享指令集中提供的單個5位指數。

與Nvidia的Volta一樣，Lake Crest邏輯器件位於TSMC的CoWoS（襯底上晶元上晶元）中介層上，緊鄰著四個HBM2高帶寬存儲器堆棧。這些晶元被設計成網狀，提供五到十倍於Volta的性能。

雖然去年微軟在DNN上使用了FPGA，但Patterson仍然對這種方法持懷疑態度。「你為（FPGA）的靈活性付出了很多代價。編程真的很難，」他說。

Gwennap在去年年底的一項分析中指出，DSP也將發揮作用。 Cadence、Ceva和Synopsys都提供面向神經網路的DSP內核，他說。

雖然晶元即將問世，但是架構師們還沒有決定如何去評估它們。

就像RISC處理器的早期，Patterson回憶說，「每個公司都會說，"你不能相信別人的基準，但是你可以相信我的"，那不太好。

那時，RISC供應商在SPEC基準測試中進行了合作。現在，DNN加速器需要自己定義的測試套件，涵蓋各種數據類型的訓練和推理以及獨立的或是集群的晶元。

聽取了這個呼籲，交易處理性能委員會（TPC）是一個由20多個頂級伺服器和軟體製造商組成的小組，12月12日宣布已經組建了一個工作組來定義機器學習的硬體和軟體基準。 TPC-AI委員會主席Raghu Nambiar表示，目標是創建與加速器是CPU還是GPU的測試。但是，這個團隊的成員名單和時間框架還處於不斷變化之中。

百度公司於2016年9月發布了一個基於其深度學習工作負載的開放源代碼基準測試工具，使用32位浮點數學進行訓練任務。它在六月份更新了DeepBench以涵蓋推理工作和16位數學的使用。

哈佛研究人員發表的Fathom套件中定義的八個AI工作負載支持整數和浮點數據。帕特森說：「這是一個開始，但是要獲得一個讓人感覺舒適的全面基準測試套件，還需要更多的工作。」

「如果我們把努力做成一個好的基準，那麼所有投入工程的錢都會花得值得。」他說。

除了基準之外，工程師需要跟蹤仍在演變的神經網路演算法，以確保他們的設計不會被束之高閣。

高通公司下一代核心研發總監Karam Chatha表示：「軟體總是在變化，但是你需要儘早把硬體拿出來，因為它會影響軟體 - 你不得不催促讓它發生。到目前為止，移動晶元供應商正在驍龍SoC的DSP和GPU內核上運行神經網路工作，但一些觀察家預計，它將為機器學習定製一個新的模塊，放在2019年7納米驍龍 SoC里。

一大波人工智慧晶元將在2018上市（上）