AI晶元大軍來襲
專為訓練DNN量身客制的第一批商用晶元將於今年上市。由於訓練新的神經網路模型可能需要幾週或幾個月的時間,因此,這些晶元可能是迄今為止最大也是最昂貴的大規模商用晶元…
深度神經網路(DNN)就像遙遠地平線上的海嘯一樣湧來。
鑒於該技術的演演算法和應用仍在演進中,目前還不清楚深度神經網路最終會帶來什麽變化。但是,迄今為止,它們在翻譯文本、辨識影像和語言方面所取得的成就,清楚地表明他們將重塑電腦設計,而這種變化正在半導體設計和製造方面發生同樣深刻的變化。
專為訓練DNN量身客制的第一批商用晶元將於今年上市。由於訓練新的神經網路模型可能需要幾週或幾個月的時間,因此,這些晶元可能是迄今為止最大、也最昂貴的大規模商用晶元。
新創公司追逐深度學習
業界可能會在今年看到來自新創公司Graphcore一款未使用DRAM的微處理器,以及一款來自其競爭對手——晶圓級整合先鋒Cerebras Systems的產品。英特爾(Intel)收購取得的2.5-D Nervana晶元已經在生產樣片了,其他十幾個處理器正在開發中。同時,從Arm到Western Digital (WD)等幾家晶元公司也在研究核心,以加速深層神經網路的推論部份。
「我認為2018年將是一場各種產品紛紛出爐的派對。」加州大學柏克萊分校(UC Berkeley)榮譽教授David Patterson表示:「我們剛剛開始看到許多公司開始評估一些想法。」
這個趨勢非常明顯,Patterson和共同作者John Hennessey在上個月發表有關運算的開創性文章最新版中,另外寫了一個新的篇章。作者對內部設計提供了深入的見解,例如Patterson針對Google TensorFlow處理器(TPU)以及蘋果(Apple)和Google最新智慧型手機晶元中的Microsoft Catapult FPGA和推理模組發表評論。
「這是電腦架構和封裝的復興,」Patterson說:「明年我們將會看到比過去十年更有趣的電腦。」
過去幾年來,深度神經網路的興起,讓創業投資(VC)的資金重新回到了半導體領域。 《EE Times》最近發表的新創公司評選計劃『Silicon 60』中,列舉了七家與神經網路晶元有關的新創公司,其中包括兩個鮮為人知的名稱:中國北京的寒武紀科技(Cambricon Technologies)和美國德州的Mythic Inc.。
「我們看到基於新架構的新創公司爆增。我自己追蹤了15到20家......過去10到15年來,在任何一個細分領域中都不曾有超過15家的半導體公司同時湧現的事情」,連續創業家Chris Rowen說。他從Cadence Design Systems離職後,成立了一家公司Cognite Ventures,專註於神經網路軟體。
Rowen說:「Nvidia由於其強大的軟體地位,將難以與其在高階伺服器訓練方面競爭。而如果你去追求智慧型手機市場你會覺得自己瘋了,因為你必須在很多方面都做得出色。不過在高階或是低階的智慧型手機市場,還是可能會有一些機會。」
市場觀察家The Linley Group負責人Linley Gwennap表示,Nvidia最新的GPU (Volta)表現非常出色,他們調整了對於DNN的速度訓練。Gwennap說:「但我當然知道這還不見得是最好的設計。」
Gwennap說,英國Graphcore和美國Cerebras是在訓練晶元方面最值得觀察的兩家新創公司,因為他們籌集的資金最多,而且似乎擁有最好的團隊。由Google前晶元設計師創立的新創公司Groq聲稱,它將在2018年推出一款推理晶元,能在每秒運作效能和推論中以4倍的優勢擊敗競爭對手。
英特爾Nervana是一款大型的線性代數加速器,位於硅中介層上,緊鄰四個8GB HBM2記憶體堆疊。(來源:Hennessy和Patterson合著的《Computer Architecture: A Quantitative Approach》
Intel的Nervana稱為Lake Crest (上圖),是最受關注的客制設計之一。它執行16位元矩陣操作,資料共用指令集提供的單個5位元指數。
如同Nvidia的Volta,Lake Crest邏輯元件位於台積電(TSMC)的CoWoS中介層上,緊鄰著四個HBM2高頻寬記憶體堆疊。這些晶元被設計成網狀,提供3-10倍於Volta的性能。
雖然去年微軟在DNN上使用了FPGA,但Patterson仍然對於這種方法持懷疑態度。「你為FPGA的靈活性付出了很多代價。但程式設計真的很難,」他說。
Gwennap在去年年底的一項分析中指出,DSP也將發揮作用。他說,Cadence、Ceva和Synopsys都提供針對神經網路的DSP核心。
加速器缺少共同基準
雖然晶元即將問世,但是架構師們還沒有決定如何評估。
就像RISC處理器的早期,Patterson回憶說,「每一家公司都會說,『你不能相信別人做的基準,但是你可以相信我的』,那不太好。」
那時,RISC供應商在SPEC基準測試中進行了合作。現在,DNN加速器需要自己定義的測試套件,涵蓋各種資料類型的訓練和推理以及獨立的或是叢集的晶元。
因此,由20多家主要伺服器和軟體製造商組成的「交易處理性能委員會」(TPC)在12月12日宣佈組建了一個工作組來定義機器學習的硬體和軟體基準。 TPC-AI委員會主席Raghu Nambiar表示,目標是創建無論加速器是CPU還是GPU都適用的測試。但是,這個團隊的成員名單和時間架構還處於變化中。
百度(Baidu)於2016年9月發佈了一個基於其深度學習工作負載的開放原始程式碼基準測試工具,使用32位元浮點數學進行訓練任務。它在六月份更新了DeepBench以涵蓋推理工作以及使用16位元數學。
美國哈佛大學(Harvard University)研究人員發表的Fathom套件中,定義了8個人工智慧(AI)工作負載支援整數和浮點數據。Patterson說:「這是一個開始,但是要成為一個讓人感覺舒適的全面基準測試套件,還需要更多的努力作。」他說:「如果我們努力打造一款好的測試基準,那麽所有投入工程的錢都會花得值得。」
除了基準之外,工程師還需要追蹤仍在演變中的神經網路演演算法,以確保其設計不會被束之高閣。
高通(Qualcomm)下一代核心研發總監Karam Chatha表示:「軟體一直在變化中,但是你需要儘早把硬體拿出來,因為它會影響軟體——你不得不催促讓它發生。到目前為止,行動晶元供應商正在Snapdragon SoC的DSP和GPU核心上執行神經網路任務,但一些觀察家預計,它將為機器學習客制一個新的模組, 放在2019年的7nm Snapdragon SoC中。
高通展示客制DNN加速器的研究範例,但它現在仍然使用通用DSP和GPU核心的軟體(來源:高通)
Patterson說:「市場將會決定哪種晶元最好。現實是殘酷的,但這是設計電腦讓人興奮之處。」
早期進入的業者已經進入這場機會競賽中。
例如,Facebook最近證明,透過大幅增加封裝到所謂批量大小的功能數,可以將訓練時間從一天縮短到一小時。對於試圖在本地SRAM中執行所有運作的Graphcore來說,這可能是個壞消息,因為這樣的設計雖然降低了外部DRAM的存取延遲,但也限制記憶體佔用空間。
Patterson說:「這是為小批量資料封包而設計的,但幾個月前的軟體結果表明你需要大量的資料。這顯示事情變化的速度有多快。」
另一方面,Rex Computing認為該公司正迎來一個有利的機遇。該新創公司的SoC最初是為高性能伺服器設計的,使用了一種新穎的暫存器記憶體。Rex Computing聯合創始人Thomas Sohmers說Rex的方法消除了在虛擬頁面表中快取資料的需求——因為這種使用GPU的技術會增加延遲。
因此,他說Rex的晶元性能比現在的GPU更好,特別是在處理普遍的矩陣/向量運算神經網路時。該新創公司計畫6月份推出搭載256核心的16nm SoC,希望能提供256Gflops/watt的運算能力。
與此同時,研究人員正試圖從32位元到1位元浮點和整數數學的一切可能,以找到最有效的方法來運算神經網路的結果。他們似乎同意的一點是,最好不要在不同的精確度之間轉換。
AI演演算法仍處於發展初期
深度神經網路幾十年來一直在AI方面進行小部份的工作。從2012年開始,包括Facebook的Yann LeCun等研究人員開始使用特定類型的DNN辨識影像,最終以比人類更高的準確度顯示令人驚歎的結果。深度學習技術吸引了研究界,現在正高速發表論文,尋求新的突破。
DNN現在提供商業服務,如亞馬遜(Amazon)的Alexa和Google翻譯,以及Facebook的臉部辨識。網路巨擘及其全球競爭對手,正競相將這些技術應用於盡可能多的服務中,並期待找到殺手級應用。
微軟每年都會以AI為主題舉行兩次員工內部會議。最近一次有5,000人參加,前SPARC處理器架構師Marc Tremblay表示,他現在領導微軟在客制AI晶元和系統方面的工作。
專家坦承,他們沒法完全理解為什麽現有演演算法能如此充份發揮。辯論主題是探討這些網路演演算法的相對有效性,例如遞迴(RNN)和卷積(CNN)神經網路。同時,新的模式仍在發明之中。
AMD研究員Allen Rush在最近一次關於AI的IEEE研討會上說:「在未來五年內,演演算法仍然極有可能發生改變。但我們打賭像矩陣乘法這樣的最底層演演算法是不會改變的。」
這就是Google以TPU所做的賭注,最新版TPU針對訓練和推理工作。它本質上是一個大的乘法累加單元陣列,執行和儲存線性代數常式的結果。Nervana和Graphcore的晶元預計會隨之效仿。
哈佛大學前大腦研究人員Amir Khosrowshahi說,在神經網路方面取得的成就主要集中在AI領域。他曾經共同創辦了Nervana公司,目前是英特爾Nervana部門的技術長。他在IEEE研討會上表示:「由於深度學習非常成功,所以事實逐漸被掩蓋了。如今,每個人都在做卷積神經網路,但這是一場悲劇......不要以為現在發生的事情一年後就一定會有成果。」
當今的DNN受到了許多關注,但僅代表更廣泛AI領域的一小部份(來源:Intel)
儘管DNN可以比人類更精確地辨識影像,但Khosrowshahi說:「但當今的資料科學家被迫花費龐大的時間對數據進行預處理、對模型和參數進行迭代,並且等待訓練的彙整......每一步不是過於勞累就是過度運算密集。」
總的來說,「人工智慧的問題仍然非常困難。」他補充說,「最優秀的研究人員可以讓機器人打開一扇門,但拿起杯子可能比贏得Alpha Go更困難。」
在這種環境下,Facebook和Google等網路巨頭髮佈了大型資料組合,以吸引更多的人致力於更尖端的問題,例如視訊等新應用領域或數據類型的辨識問題。
擴展應用領域
隨著演演算法發展,研究人員也在推動深度學習的應用領域。
Google旨在系統地將DNN應用於解決各種問題,從輔助盲人的自動字幕圖片、閱讀核磁共振成像(MRI)掃描結果,一直到監測廠房的品質控制等。Google人工智慧研發負責人李佳(Jia Li)在IEEE研討會上表示:「人工智慧不是一項技術或產品。我們需要開始理解一個領域,然後收集數據、找到演演算法,並提出解決方案。每一個新問題都需要一個不同的模型。」
事實上,人們正將DNN應用於幾乎所有領域,包括設計和製造晶元。英特爾編製了四十多種可能用途的清單,包括從消費者網上購物輔助到華爾街(Wall Street)自動交易的程式等。
Target公司資料科學家Shirish Tatikonda更進一步剖析這一應用領域。大部份的零售商資料都是關聯性數據,而不是最適合神經網路的非結構化數據。Shirish Tatikonda也曾經是IBM研究人員,他在接受採訪時表示,Target的業務問題中只有大約10%適用於DNN。儘管如此,該公司正積極開拓這一領域,其系統中約有10%是針對訓練神經網路模型的GPU伺服器。
為了擴大這種巨大的努力,Google的研究人員開始探索其所謂的AutoML。這個想法是使用神經網路自動產生模型,而不需要數據科學家手動調整。
最近的許多努力試圖縮小記憶體佔用空間,但是DNN模型在尺寸上仍然差別很大。(來源:Qualcomm)
機器人技術先驅Rodney Brooks擔心,這一期待可能會落空。他在最近的一次談話中說:「深度學習是好的,但它開始成為一個鎚子,讓人們可以用它去打碎一切東西。」
Patterson則仍對此表示樂觀。他說,雖然廣泛的AI領域沒有達到過去的承諾,但它在機器翻譯等領域的成果是真實的。「可能在所有容易實現的目標都達成後,人們會發現沒有什麽更令人興奮的事情了,但你現在幾乎每個星期都會看到新的進展......所以我認為未來將會發現更多的AI用途。」
首度致力於軟體融合
在早期的狂亂和分散中,即使是致力於軟體融合的工作也很零散。百度(Baidu)的AI研究團隊進行了一項調查發現,有11項措施是用於彌補神經網路競爭軟體架構之間的差距。
目前最有前景的是開放神經網路交換(ONNX) 格式,這是一個由Facebook和微軟開始的開放來源計劃,亞馬遜(Amazon)最近也加入了。該小組在12月發佈了ONNX格式的第一版,旨在將用十幾個競爭軟體架構中任何一個創建的神經網路模型轉換成圖形表示。
晶元製造商可以在結果圖形上定位其硬體。這對於那些無法編寫獨立軟體來支持競爭模型架構的新創公司來說是個好消息,例如Amazon的MxNet、Google的TensorFlow、Facebook的Caffe2以及微軟的CNTK。
由30多家主要晶元供應商組成的團隊於12月20日發佈其首選——神經網路交換格式(Neural Network Exchange Format;NNEF)。 NNEF旨在為晶元製造商提供創建自家內部格式的替代方案,就像英特爾的Nervana Graph,以及Nvidia的TensorRT平台一樣。
百度還發現了ISAAC、NNVM、Poplar和XLA等多種格式。百度矽谷AI實驗室資深研究員Greg Diamos表示:「想知道是否會出現一個成功的格式,現在可能還為時過早,但我們正走上一條更好的路,其中之一最終可能會勝出。」
在AI架構中,亞馬遜聲稱其MxNet架構和新興的Gluon API能提供最佳效率(來源:亞馬遜)
另外,Google已經開始使用軟體來自動化精簡DNN模型的過程,使其得以執行從智慧型手機到物聯網(IoT)節點的所有事情。如果成功的話,可望將50Mbyte的模型降低到500Kbyte。
Google也在探索如何在手機上進行有限的模型訓練,方法是根據當天收集的數據調整模型的頂層或在夜間執行的流程。像SqueezeNet和MobileNet這樣的業界行動也同樣展現了更簡單成像模型的路徑。
負責Google TensorFlow Lite計劃的Pete Warden表示:「我們看到了大量使用機器學習的人們在各種各樣的產品中大量湧現。「讓每次運算的能耗降下來這件事,讓我每天工作到深夜。」
展望未來
當專家細看AI的未來時,他們看到了一些有趣的可能。
當今我們使用基於手動調整模型的監督式學習。Google的研究人員Warden也看好不久將出現半監督方法,讓手機等客戶端裝置自行處理一些學習。最終目標是無監督的學習——讓電腦自己進行教育,而不再需要建造它們的工程師協助或為其編程。
在這條發展道路上,研究人員正設法自動標記數據,這些數據來自手機或物聯網(IoT)節點等裝置。
WD首度科學家Janet George說:「Google說現在我們需要大量的運算,在這個過度階段,一旦事情被自動標記,你只需要檢索新增的內容,這才更像是人類處理數據的方式。」,」
無監督學習打開了加速機器智慧時代的大門,有些人認為這是數位化的必殺技。另一些人則擔心技術可能會在沒有人為干預的情況下失望導致災難。
Google TPU計劃負責人Norm Jouppi說:「這讓我感到害怕。」
同時,從事半導體工作的學者對未來的AI晶元也有其長遠展望。
Patterson說,英特爾、Graphcore和Nvidia「已經在製造全標線晶元,下一步就是3D技術。當摩爾定律發展如火如荼時,由於擔心可靠性和成本問題,人們在看到複雜封裝技術之前就臨陣退縮了。如今摩爾定律即將結束,我們將在封裝方面看到許多實驗。」
最終的競賽是創造出新型的電晶體,可以在邏輯和記憶體層上堆疊。
美國聖母大學(University of Notre Dame)電氣工程教授Suman Datta看好負電容鐵電電晶體技術可能成為這種晶元的基礎。他在最近召開的所謂的單體3-D結構會議上展望了該領域的前景。這一類設計應用以及3-D NAND快閃記憶體的進展都採用on-die晶元堆疊技術來實現。
來自美國柏克萊大學、麻省理工學院(MIT)和史丹佛大學(Stanford)的團隊將在二月份的國際固態電路會議(ISSCC)上展示一種類似的先進技術架構。該晶元(下圖)將磁阻式RAM (ReRAM)結構與碳奈米管製成的邏輯元件共同堆疊在晶元上。
美國柏克萊大學、麻省理工學院和史丹佛大學的研究人員將在ISSCC上報告一種使用碳奈米管、ReRAM和圖案作為運算元素的新型加速器(來源:UC Berkeley)
該裝置是從DNN獲得靈感,並且被編程為近似模式,而非目前電腦所使用的確定性數字。發表該技術論文的UC Berkeley教授Jan Rabaey說,這個所謂的高維度運算模式使用了幾萬個維度的向量作為運算元素。
Rabaey說,這種晶元可以從例子中學習,並且比傳統系統所需的操作更少得多。其測試晶元將很快問世,它使用振盪器陣列作為類比邏輯元件,並與相關記憶體陣列中ReRAM單元搭配運作。
Rabaey在IEEE AI研討會上表示:「我夢想的引擎是可以隨身攜帶,現場為我提供指導......我的目標是推動AI以小於100mV運行。我們需要重新思考如何運算,並從基於演演算法的系統轉向基於數據的系統。」
編譯:Mike Zhang
來源:eettaiwan
如侵刪丨如轉注
【整理不易,記得轉發】
半導體人臨走記得點下方拇指留下腳印。如覺文章不錯,留言評論,轉發更多朋友,傳遞咱半導體人的觀點。
※華為2017最新分紅方案流出!資深員工年終獎高達283萬?
TAG:半導體行業聯盟 |