15年來半導體行業從未有過的奇景——AI晶元
對於人類社會,深度神經網路就像是那遙遠地平線上出現的海嘯一般。
鑒於它們的演算法和應用目前仍在不斷演變,所以尚不清楚深度神經網路(DNNs)最終將會帶來怎樣的變化。
但是,迄今為止,它們在文本翻譯和圖像、語音識別領域取得的成功讓我們認識到,深度神經網路終有一日將會重塑計算機設計,而這樣的變化對半導體設計和製造領域也同樣有著深遠的影響。
為 DNNs 量身定製的第一批商用晶元將於今年上市。鑒於它能夠用幾星期或幾個月時間來訓練一個新的神經網路模型,這些晶元可能是迄今為止製造規模最大的,因此也可能是成本最高的商用晶元。
今年,這個行業會看到 Graphcore 公司開發的一款非 Dram 模式的微處理器,以及其競爭對手——在圓片級晶元封裝技術方面較為領先的 Cerebras Systems 也會推出一款產品。
與此同時,英特爾收購的 2.5-D Nervana 晶元已經開始取樣,其他諸多廠商的晶元研發也都在火熱進行當中。
此外,從 ARM 到西部數據(Western Digital),所有老牌半導體巨頭也均在研究處理器核心以加速深度神經網路的推理部分。
「我認為 2018 年,將會是各種晶元產品『百家爭鳴』的一年。我們開始見到許多公司正在評估各種針對晶元的 idea,」加州伯克利榮譽教授 David Patterson 如是說道。
這個趨勢相當明顯,Patterson 與聯合作者 John Hennessey 在上個月出版的 Computer Architecture(在計算領域影響巨大)一書的最新版本中,用整整一個章節介紹了這種趨勢。
作者對一些內部設計給出了深度的見解,譬如 Patterson 對谷歌的TensorFlow Processor(TPU),微軟的 Catapult FPGA,以及蘋果與 Google 最新的手機晶元中的推理模塊都給出了自己的意見。
Patterson 表示:「這是計算機架構與封裝技術的復興。在明年一年我們將會看到比過去十年更多的,更有意思的計算機出現。」
在過去幾年中,深度神經網路的興起將風投的資金重新帶回到半導體的領域。
在電子工程師時報(EE Times)最新發布的「Silicon 60」中,他們列出了 7 家致力於研究新型神經網路晶元的初創公司,其中包含了兩個不太為人所知的公司:
北京的寒武紀科技與美國德克薩斯州的 Mythic Inc。
Chris Rowen 從 Cadence Design Systems 離職後,成立了一家名為 Cognite Ventures 的投資公司,專門看神經網路軟體。
「我們看到具備全新架構的新創業公司如井噴式出現。我自己追蹤了 15 到 20 家公司…在過去的 10 ~15 年時間裡,在任何半導體子領域裡都不曾有過『同時出現 15 家半導體公司』這樣的事情。」Chris Rowen 說道。
他表示:「由於英偉達難以撼動的軟體地位,與其在高階伺服器訓練方面的競爭將會十分艱難;
而如果你去追求手機市場,那你一定是瘋了,要知道追求手機市場意味著你必須在很多方面都做得出色。不過在高階或是低階的手機市場中,還可能有一些機會。」
市場觀察者 The Linley Group 的負責人 Linley Gwennap 表示,英偉達最新的 GPU—Volta 性能非常不錯,他們對其進行了調整以進行 DNNs 的速度訓練。但 Gwennap 卻不認為 Volta 就是最好的設計。
Gwennap 說,Graphcore(英國布里斯托)和 Cerebras(加州洛杉磯)是在訓練晶元方面最值得觀察的兩家公司,他們籌集了最多的資金,而且似乎擁有最好的團隊。
此外,由谷歌前晶元設計員創立的初創公司 Groq 聲稱將會在 2018 年推出一款推理晶元,每秒的運算和推理都能完勝對手 4 倍。
英特爾的 Nervana 是一個大型的線性代數加速器,位於一個硅中介層上,緊鄰著四個 8GB 的 HBM2 內存棧
英特爾的 Nervana,被稱為 Lake Crest(上圖),是最受關注的定製設計之一。Nervana 使用數據共享指令集中提供的單個 5 位元指數,執行 16 位矩陣操作。
與英偉達的 Volta 一樣,Lake Crest 的邏輯單元位於一個 TSMC CoWoS 中介層上(晶元-晶片-基板),緊鄰著四個 HBM2 高頻寬內存棧。
這些晶元被設計成網狀,是 Volta 性能的 5~10 倍。
雖然去年微軟在 DNN 上使用了 FPGA,但是 Patterson 仍然對這種方法持懷疑態度。「你為 FPGA 的靈活性付出了很多的代價;編程真的很困難,」他說。
Gwennap 在去年年底的一項分析中指出,DSP 也將會發揮作用。「Cadence、Ceva 和 Synopsys 都提供面向神經網路的 DSP 內核」。
AI晶元即將到來,而架構師還未決定如何對其進行評估。
就像 RISC 處理器的早期那樣,Patterson 回憶道:「每一家公司都會說,『你可千萬不能相信別人的基準體系,但是你可以相信我的』,這可不太好。」
時間退回到那時候,當時 RISC 供應商在 SPEC 基準測試中進行了合作。現在 DNN 加速器需要定義自己的測試組件,涵蓋各種數據類型的訓練、推理。
為了順應這種趨勢,12 月 12 日,由 20 多家頂級伺服器和軟體製造商組成的交易處理性能委員會(TPC)宣布組建一個工作組對機器學習的硬體和軟體基準進行定義。
TPC - AI 委員會主席 Raghu Nambiar 表示,這個工作組的目標是要創建出對 CPU 和 GPU 加速器通用的測試。但是,團隊成員名單和時限仍未最終確定。
百度,於 2016 年 9 月發布了一個基於深度學習工作負載的開源基準,使用 32 位浮點數執行訓練任務。它在六月份更新了 DeepBench 以涵蓋推理工作並使用 16 位制。
美國哈佛大學的研究人員發表的 Fathom 套件,定義了 8 個人工智慧工作負載,支持整數和浮點數據。Patterson 說:「這是一個開始,但是要成為一個讓人滿意的全面基準測試套件,還有很多的工作要做。」
「如果我們致力於建立一個好的基準,所有投入工程的錢都會花在刀刃上。」
除了基準之外,工程師需要持續追蹤不斷變化的神經網路演算法,從而確保他們的設計能跟上時代。
高通公司下一代核心(next-generation-core)研發總監 Karam Chatha 表示:
「軟體正在不斷變化,但是我們需要儘早把硬體拿出來,因為硬體會影響軟體——軟硬體之間總會有這樣相互牽連的關係。」
到目前為止,這家移動晶元供應商仍在驍龍處理器的 DSP 和 GPU 內核的軟體平台上進行神經網路運行工作。
但是一些觀察人士預計,高通將為機器學習定製一個全新的模塊。在 2019 年,該模塊將成為驍龍處理器中一個大約 7 豪微米的部分。
高通展示了一個 DNN 定製加速器研究實例,但現在,高通在使用通用 DSP 和 GPU 內核上的軟體
Patterson 表示:「市場是晶元質量的檢驗者。這很殘酷,但也正是計算機設計讓人興奮的地方。」
實際上,早期的晶元玩家已經抓住了這次競爭的機遇。
舉例來說,Facebook 最近證明,通過大幅增加所謂批量尺寸(batch size)中的特徵數目,能將某些任務的訓練時間從一天縮短到一小時。
但這對於晶元製造商 Graphcore 而言可能是個壞消息。因為 Graphcore 試圖將所有操作放在本地 SRAM 中運行,以消除外部 DRAM 的訪問延遲,但與此同時也會限制其內存佔用。
Patterson 說道:「Graphcore 專為小批量設計,但是幾個月前軟體結果表明,大批量尺寸效果更好。事情總是瞬息萬變。」
另一方面,Rex Computing 認為他們正好抓住了有利的機遇。該初創公司的 SoC 最初為高性能伺服器設計,其中使用了一種新型暫存器內存。
Rex Computing 聯合創始人 Thomas Sohmers 表示,Rex 的方法消除了在虛擬頁表中對數據緩存的需求,這是一種在 GPU 中使用的技術,能增加延遲。
因此,Thomas Sohmers 說,尤其在處理當下神經網路中流行的矩陣運算和矢量運算時,Rex 晶元性能遠勝於現在的 GPU。
該初創公司計劃於 6 月份推出 256 核的 16-nm SoC,希望其能效比能達到 256 Gflops/W。
與此同時,研究人員正在嘗試單比特浮點數、 32 比特浮點數以及整型等各種精度的計算,旨在尋找神經網路計算中效率最高的方法。
看起來他們在某一點上達成了一致,即不要在不同的精度等級間進行轉換。
幾十年來,深度神經網路一直是人工智慧領域中的一個小分支。
自 2012 年左右開始,包括 Facebook 的 Yann LeCun 在內的研究人員開始使用特定種類的 DNN 進行圖像識別,最終獲得了比人類更高的準確率,顯示出驚人的成果。
深度學習技術吸引了學界,現在學術圈正在高速發表論文,尋求新的突破。
如今,DNN 正在提供商業化服務,如亞馬遜的 Alexa 、谷歌翻譯、Facebook 面部識別等。網路巨頭和全球其他競爭者正競相將這些技術應用於各種服務中,盡其所能尋找殺手級應用。
微軟每年都會在人工智慧方面主持兩場僅員工參與的會議。前 SPARC 處理器架構師 Marc Tremblay 表示,上一場會議有 5000 人參加。Marc Tremblay 現在正帶領微軟進行 AI 專用晶元和系統方面的工作。
專家們承認,他們並不完全理解現有演算法為何能得到良好的效果。
這質疑了 DNN 及其他各類模式的相對有效性,例如循環神經網路(RNN)和卷積神經網路(CNN)等。與此同時,學者還在不斷發明新的模式。
「演算法在五年內會發生變化的可能性很高。我們正在進行一場賭博——像矩陣乘法這樣的最底層東西是不可改變的。」在最近關於人工智慧的 IEEE 研討會上,AMD 公司研究員 Allen Rush 這樣說。
這就是 Google 用 TPU 做的賭注。
最新版本的 TPU 是能同時針對訓練和推理工作。本質上說,TPU 是一個巨大的乘加單元陣列,對矩陣操作進行運行和存儲。預計 Nervana 和 Graphcore 的晶元將效仿這一模式。
哈佛大學前大腦研究員、Nervana 的聯合創始人 Amir Khosrowshahi,目前正在英特爾 Nervana 集團任首席技術官。
他說,目前在神經網路方面取得的成功佔據了人工智慧領域成果的絕大部分。他在 IEEE 研討會上表示:
「由於深度學習的極大成功,我們對很多領域都避而不談。當下,人人都在研究 CNN,這是一場悲劇……不要以為現在的熱潮會一直持續到明年。」
如今的 DNN 受到了極大的關注,但是它只代表人工智慧廣泛領域中的一小部分
儘管 DNN 在圖像識別方面比人類有著更高的精確率,「但如今的數據科學家不得不花費過長的時間對數據進行預處理,對模型和參數進行迭代,並且等待訓練收斂……其中,每個步驟要麼有著過於密集的勞動,要麼有著過於密集的計算量」,Khosrowshahi 說道。
總而言之,他補充說:「人工智慧領域仍面臨著許多難題。頂尖研究者能讓機器人打開一扇門,但是讓機器人端起茶杯可能比打敗 AlphaGo 困難得多。」
在這種環境下,Facebook 和 Google 等網路巨頭正在發布大量的數據集,讓更多的人從事前沿問題,例如將識別應用於視頻等新興領域或其他數據類型。
隨著演算法的不斷發展,研究人員也在拓展深度學習的應用邊界。
谷歌致力於將深度神經網路系統性地應用於一系列問題,比如為盲人用戶自動添加圖片說明文字、解讀核磁共振成像的掃描結果,以及輔助工廠的質量控制監督工作。
「人工智慧並非一種單一的技術或產品,」谷歌研發部負責人李佳告訴 IEEE 研討會,「我們需要先理解那個領域,然後收集數據、找出適配演算法並提出解決方案。每一個新問題都需要一個不同的模型。」
事實上,業界正在將深度神經網路系應用於幾乎任何領域,包括晶元的設計與製作。英特爾列出了 40 多個可能的應用方向,從消費者在線購物助理,到華爾街自動交易程序。
現任 Target 數據科學家的 Shirish Tatikonda,曾在 IBM 做研究員,對深度神經網路的應用邊界有著更加清醒的認識。
他在一次簡短的採訪中談到,零售商的大多數數據都是有關聯的,不是那種最適合於神經網路的非結構化類型;在 Target 所接手的業務問題中,只有 10% 適用於深度神經網路。
儘管如此,Target 公司仍在積極探索該領域,其大約 10% 的系統使用的是 GPU 伺服器,用於訓練神經網路模型。
為了實現規模化,谷歌的研究人員正致力於探究被其稱為 AutoML 的軟體。其思想是使用神經網路來自動生成模型,無需數據科學家對其進行手動調整。
雖然近年來有許多研究人員尋求減少深度神經網路模型的內存佔用,但其尺寸差異仍然十分巨大
機器人先驅 Rodney Brooks 擔心,業界對這種演算法的預期可能過於樂觀了。他在最近的一次談話中說:「深度學習很好,但它正被當成萬靈藥。」
就 Patterson 而言,他仍然選擇保持樂觀。雖然廣博的人工智慧領域沒有兌現過去的一些承諾,但它在機器翻譯等領域所取得的成功卻是真實的。
「你可以說好採的果子都被采完了,不會再有更令人興奮的事情了,但事實上幾乎每周都會出現新的進展...... 所以我想我們會發現更多的用途。」
深度學習的早期發展充溢著狂熱與碎片化,即使軟體融合工作都被搞得支離破碎。
百度的人工智慧研究小組進行了一項調查,提出 11 項舉措來彌合不同神經網路管理軟體框架之間的隔閡。
Facebook、微軟以及新近加入的亞馬遜發起了一個比較靠譜的開源解決方案,叫做開源神經網路交換(Open Neural Network Exchange,ONNX)。
該項目在 12 月發布了 ONNX 的 1.0 版。其目標是將軟體框架領域的 12 家競爭廠商所創建的神經網路模型轉化為一種圖形表示。晶元製造商可以使用這種圖形表示來進行硬體開發。
對於初創企業來說,無論是亞馬遜的 MxNet 或谷歌的 TensorFlow,還是 Facebook 的 Caffe2 或微軟的 CNTK,這些競爭廠商所編寫的模型框架都很難互相兼容,而它們也無力編寫單獨的軟體,ONNX 無疑是一個福音。
12 月 20 日,由 30 多個主要的晶元廠商組成的一個研究小組發布了他們的首選方案——神經網路交換格式(Neural Network Exchange Format,NNEF)。
NNEF 旨在為晶元製造商提供一種個性化的選擇,使他們能夠創建屬於自己的、供內部員工使用的格式,比如英特爾的 Nervana Graph 和英偉達的 TensorRT。
百度創建的格式有 ISAAC、NNVM、Poplar 和 XLA。
「置於哪一個將被成功實施,現在還不好說,但我們正在穩步前進,而最終一定會有一個從中脫穎而出,」百度的矽谷人工智慧實驗室高級研究員 Greg Diamos 說道。
在人工智慧框架方面,亞馬遜聲稱其 MxNet 框架及其新開發的 Gluon API 效率最高
另外,谷歌已經開始致力於自動化深度神經網路模型的簡化過程,以便在智能手機、物聯網(IoT)節點等任何平台上運行。
如果該項目成功的話,可以將 50 兆位元組的模型縮小到只有 500 位元組。
谷歌也在探索如何在手機端進行有限模型訓練,其方法是調整模型的頂層網路,或是在白天收集數據,然後在夜間運行流程。
同樣,SqueezeNet 和 MobileNet 等業界同行也在開發類似的成像模型,精度與其科技界的大表哥們不相上下。
「我們已經看到,機器學習正被大量應用在五花八門的產品中,」谷歌的 TensorFlow Lite 負責人 Pete Warden 說道,「支持我徹夜工作的動力,就是能夠降低一絲一毫的運算能耗。」
當專家們專註於探索人工智慧的未來時,他們看到了一些有趣的可能性。
目前,我們所使用的有監督學習是基於手動調整。
Warden 是谷歌的一名研究人員,他和同事們都認為,不久的將來會出現一些半監督的學習方式,例如手機等客戶端設備可以獨自處理一些學習任務。
而最終的目標是無監督學習——即計算機自學,無需工程師的幫助。
一直以來,研究人員都希望能夠尋找出一種方法,使手機或物聯網節點等設備在收集數據時可以自動對其進行標記。
「谷歌認為,在這個中間階段,我們現在需要進行大量的計算,但是一旦可以自動標記數據,你就只需要索引新的增量內容,這更像是人類的數據處理方式,」Western Digital 首席數據科學家 Janet George 說道。
無監督學習打開了一扇通往加速機器智能時代的大門,有些人將其看作是數字天堂。
而另一些人則擔心,缺少人為干預的技術可能會失控,從而帶來災難性的後果。「這就是我害怕的地方,」處理器領域資深老兵 Norm Jouppi 說道,他曾領導了谷歌的 TPU 項目。
與此同時,從事半導體研究的學術工作者對於未來的人工智慧晶元有著自己的長遠設想。
現在,英特爾、Graphcore 和英偉達「已經在製造全刻線(full-reticle)晶元,下一步就是三維技術,」Patterson 說道,
「在摩爾定律當道時,人們會比較排斥複雜的晶元封裝技術,對其可靠性和成本問題有所顧忌。現在摩爾定律已經終結了,晶元封裝領域將會出現很多其它的創新性實踐。」
最終任務是創造新型的晶體管,使其可以堆疊在由邏輯和存儲器組成的裸片層上。
Suman Datta 是 Notre Dame 學院的一名電氣工程學教授,他認為負電容鐵電晶體管很適於創建這類晶元。
在最近一次有關所謂的單片 3D 架構的會議上,他談到了該領域的未來發展圖景。這種設計利用並提高了三維 NAND 快閃記憶體在晶元堆棧中的效益。
在今年 2 月舉行的國際固態電路會議(International Solid-State Circuits Conference)上,來自伯克利、麻省理工和斯坦福大學的一個團隊將提出一種體系架構,同樣富有遠見。
晶元(下圖)在帶有碳納米管制邏輯的裸片上,堆疊了電阻式 RAM(Resistive Random Access Memory,ReRAM)結構。
來自上述三校的研究人員將在 ISSCC 上介紹一種新型加速器,它使用碳納米管、ReRAM 以及模式作為計算元素受深度神經網路的啟發,該裝置採用的是近似模式,而非計算機一直以來所使用的確切數字。
這個所謂的高維計算使用成千上萬維向量作為計算元素,伯克利教授 Jan Rabaey 說道,他也是該論文的貢獻者之一,並且是英特爾的智能諮詢委員會成員。
這種晶元可以從案例中進行學習,且其所需的操作次數遠遠少於傳統系統,Rabaey 說。在一個關聯的內存陣列中,流片前的測試晶元將使用陣列振蕩器作為與 ReRAM 單元配對的模擬邏輯。
「我夢想中的引擎在場邊給我作指導…... 我的目標是把人工智慧的操作能耗降低到 100 毫伏以下,」Rabaey 在 IEEE 人工智慧研討會上說,
「我們需要重新思考我們的計算方式。我們的關注點正在從演算法轉向基於數據的系統。」
如侵刪丨如轉注
【整理不易,記得轉發】
半導體人臨走記得點下方拇指留下腳印。如覺文章不錯,留言評論,轉發更多朋友,傳遞咱半導體人的觀點。
TAG:半導體行業聯盟 |