當前位置:
首頁 > 新聞 > 專訪Novumind吳韌:一發入魂的NovuTensor晶元是如何煉成的

專訪Novumind吳韌:一發入魂的NovuTensor晶元是如何煉成的

今年10月,NovuMind自主研發的第一款ASIC晶元NovuTensor成功流片。這是一款專為卷積神經網路設計的AI推理晶元,算力15Tops而功耗僅為5W,可以裸片或PCI-E短卡(174mm)形式提供,配備Linux兼容的開發軟體工具,運行時支持和C++ API。

與此同時,NovuMind自主建造了大型分散式深度學習訓練平台NovuStar,可提供專業的人工智慧訓練模型,其「模型+晶元」的定製化全棧式解決方案,可將NovuTensor適用於從嵌入式到雲端的各種應用場景當中。

專訪Novumind吳韌:一發入魂的NovuTensor晶元是如何煉成的

打開今日頭條,查看更多圖片

今年11月,NovuMind獲選進入第19屆EE Times Silicon 60榜單。這份榜單被譽為全球新興半導體企業的金榜,又被稱為「全球最受關注60家半導體公司」,其中有15家公司鎖定AI領域,相較2017年的6家增長了150%。這無疑表明,AI的全球浪潮不但熱度沒有衰減,反而展現出了市場與技術的發展趨勢。

既然目前有這麼多做AI晶元的公司,NovuMind和其NovuTensor晶元到底有何不同之處?雷鋒網就相關問題,與NovuMind創始人兼CEO吳韌博士進行了一次詳談。

真·異構計算,不走尋常路

「AI的關鍵能力實際上就那麼幾個,比如視覺、聽覺、感知其他信號的能力。」吳韌在與我們的交流中首先明確了對AI計算的理解,「把其中一個能力放入一個解決方案中,其實已經可以了,在通用性上其實並沒有降低太多,人臉識別、車輛識別等應用雖然看起來不一樣,但對晶元來說只是換一個模型而已。」

他指出,在端應用方面,做平台不是正確的思路,NovuMind所追求的是最極致的優化、最高的能耗比,而平台化就意味著性能的降低。在這種追求的驅使下,NovuMind選擇了一種與其他晶元廠商完全做法不同的做法:捨棄傳統的二維矩陣運算。

矩陣乘法是目前絕大多數AI加速器最重要的目標演算法,但NovuMind認為,AI計算的關鍵點並非是矩陣,而是在於卷積,也就是三維張量的計算。如果為了全盤皆顧而不敢捨棄二維甚至一維的計算方式,就束縛了將算力性能逼向極致的可能。

「術業有專攻,一些計算明明可以讓CPU做,為什麼要佔用深度學習的計算能力?」

專訪Novumind吳韌:一發入魂的NovuTensor晶元是如何煉成的

NovuTensor晶元架構支持原生3*3張量計算,只處理三維的深度神經網路計算,可以最有效地在本地執行逐層計算。由於架構無需一次取一個完整張量,只需取子張量,所以內存訪問負擔大大降低,能耗比也得到提升,在神經網路等人工智慧相關計算上的表現遠高於其他常見架構,包括傳統的GPU架構。

除特立獨行的架構設計外,NovuTensor還獨創了動態半精度浮點數計算,與標準半精度浮點數相比精度損失極小但能大大節省硬體開銷。與傳統混合計算相似,NovuMind也考慮到了人工智慧計算對計算精度存在一定的容忍度,因此在一些不關鍵的地方使用較低的精度也不會對最終準確度造成損失。

吳韌特別介紹到,傳統混合計算是部分計算使用整數計算、部分計算使用浮點計算的方式,整數計算和浮點計算通常是基於獨立的計算單元,因此在進行浮點計算時,整數計算單元就閑置了。這種閑置不僅僅造成了晶元面積上的浪費,同時閑置的晶體管實際上也存在靜態漏電,因此對於功耗也有影響。

「NovuTensor的動態半精度浮點數計算的優勢在於,可以用同一套計算單元同時去做不同精度的計算,是一種統一化的計算,因此從硬體和功耗效率來看效率更高。」

2018年10月,NovuTensor晶元的設計獲得美國專利。該專利充分顯示了NovuMind在晶元設計領域的獨特架構設計。

專訪Novumind吳韌:一發入魂的NovuTensor晶元是如何煉成的

算力的暴力美學

NovuTensor的主攻市場是邊緣伺服器/邊緣強算力,可以通過提供嵌入式模組以及邊緣計算盒的形式為自動駕駛、機器人、智能攝像頭,以及有強算力需求的消費電子和智能家居(如AR/VR應用等)等提供算力支持。

這類邊緣應用場景一方面對於算力有很高要求,需要接近雲端伺服器的算力(>10TOPS),另一方面對於處理延遲和可靠性都有很高要求。目前市場上的主流解決方案還是GPU,然而天生的架構使其在低延遲應用中的效率不高,在低延遲算力往往僅能達到峰值算力的十分之一。

NovuTensor的獨特架構在邊緣計算等對於延遲有嚴格要求的場景下有獨特優勢,雷鋒網了解到,在低延遲(batch

專訪Novumind吳韌:一發入魂的NovuTensor晶元是如何煉成的

由於不少應用需要使用深度較深的神經網路模型,NovuMind還訓練了更適合硬體加速的ResNet-70,其精度接近ResNet-101但硬體執行效率遠高於ResNet-101。NovuTensor執行半精度計算ResNet-70的幀率也可達到450fps,與GPU相比也是幀率達到了2倍(半精度)/1.5倍(INT8),能耗比則是提升了4倍(半精度)/3倍(INT8)。

專訪Novumind吳韌:一發入魂的NovuTensor晶元是如何煉成的

在這一代28nm NovuTensor晶元流片成功之後,下一代晶元將能夠利用架構優勢通過設計迭代進入更多市場。據吳韌介紹,NovuMind對下一代晶元已經有了規劃,16nm晶元的預期規格為26W功耗240Tops算力,能耗比約9Tops/W;7nm晶元則為0.15W功耗4Tops算力,能耗比約27Tops/W。

據悉,能耗比的大幅提升除了得益於更先進的半導體工藝外,架構方面也對相應應用做了針對性的優化。240T的晶元主要針對伺服器等對於算力有很高需求的場景,因此在內存訪問、計算流水線等方面做了相應優化,而4T的晶元主要面向超低功耗市場,針對超低功耗場景的演算法做了相應優化。

大與小的轉換

NovuTensor目前的定位,是邊緣端計算視覺領域。據雷鋒網了解,目前幾乎沒有兼顧雲計算大晶元和邊緣計算小晶元的公司。我們對這種市場現象已經習以為常,但仍不免好奇,設計小晶元和大晶元的技術側重點和難點有那些不同?

關於這一點,吳韌首先闡明,他所理解的邊緣計算是指一系列由於延遲、可靠性和安全性等需求,必須在數據端就近完成計算而無法傳到雲端的應用。這其實不僅包括終端(如手機、智能音箱)的小晶元,也包括了無人駕駛、智能零售等領域的高算力大晶元。不管是大晶元還是小晶元,在邊緣計算方面,都要求在非常低的延遲下做到高的吞吐量。

「就大晶元和小晶元的角度來看,技術差距並非不可逾越,更大的不同其實在於商業模式。」他表示,小晶元由於對於成本敏感,希望在整體系統中晶元數量越少越好,因此晶元通常會做成SoC,包含很多個模塊,AI只是其中的一個特性,因此最合理的商業模式是AI晶元公司給SoC廠商提供IP,由SoC廠商自行集成到SoC中去。

而大晶元市場由於對性能的需求多過對成本的關注,因此完全可以接受獨立的AI晶元。對於大晶元市場來說,出售晶元或晶元模組都是合理的商業模式。所以我們很少看到公司即賣大晶元又賣小晶元,因為更合理的模型是賣大晶元同時在小晶元市場提供IP授權服務。

吳韌向我們透露,NovuTensor可以有多種形態,未來NovuMind可提供集成了多塊NovuTensor晶元的加速卡,以滿足數據中心伺服器的算力需求。在移動通訊、物聯網等對於功耗有更高要求的市場,NovuMind還提供「輕量版」的NovuTensor核心IP授權,從而為智能物聯網提供人工智慧計算加速。

專訪Novumind吳韌:一發入魂的NovuTensor晶元是如何煉成的

後記:晶元背後的物理世界

一直以來,筆者對於晶元計算的具體物理過程非常好奇。根據筆者的理解,晶元計算的本質,是把信息從無序變為有序,這是一個消耗能量的非自發減熵過程。

在談話的最後,筆者向吳韌博士追問了下面幾個略顯超綱的問題:


  1. 晶元以純電阻電路形式浪費了多少能量,實際用於信息處理過程的有效能量有多少?

  2. 最終處理完成的信息等價於多少能量,有多少能量在處理過程中流失掉了?

  3. 晶元處理信息的能源利用率與大腦有多大差距,未來的神經擬態晶元又將如何?

吳韌在與他身邊的牛人討論後很快給予了回復,詳細解釋了晶元計算中的具體情況。

他首先表示,目前基於晶體管的計算實際上離信息熵減的能量下限還很遙遠。理論上傳送/計算1bit信息需要的能量是kTln2,在常溫下是10^-21焦耳的數量級,而實際晶元晶體管中一次加法計算(歸一化到1bit)需要的能量大概是10^-14焦耳,比下限高了7個數量級;一次內存訪問數據傳輸需要的能量歸一化到1bit大概是10^-11焦耳,比下限高了10個數量級。

這樣來說,即使一次簡單的加法計算就能得到結果,目前需要使用的能量也比理論上可達到下限高了7~10個數量級,如果是比較複雜的演算法的話,能量消耗比起理論下限會高出更多。

專訪Novumind吳韌:一發入魂的NovuTensor晶元是如何煉成的

「尤其是目前基於神經網路的人工智慧,更是以計算複雜為主要特徵(例如一個基本的ResNet-18需要的計算操作次數大約是1010),因此我們估計計算耗費的能量大概比熵增需要的能量要高接近20個數量級。」對於Novumind所涉及的AI晶元領域,他也絲毫沒有避短,「從另一個角度來看,在整個計算體系中,內存訪問所消耗的的能量大約是計算的1000倍,這也是我們優化硬體架構希望把儘可能多的數據留在晶元上以減少內存訪問的原因。」

總而言之,現在離信息熵減的能耗下限還很遠,人類的晶元技術還有很大的進步空間,這是毫無意外的。

隨後,吳韌又解釋了關於神經擬態晶元的問題。由於使用了非馮諾依曼架構,神經擬態晶元可以減少內存訪問以改善能耗比,不過目前科學界對於人腦的工作機制還了解很少,神經擬態晶元還在比較初步的階段。目前複雜神經擬態網路的訓練仍然非常困難,只能做一些比較簡單的任務。

「預期在未來5~10年里,傳統AI晶元和神經擬態晶元將是一個互補關係,神經擬態晶元可以在超低功耗終端里實現比較簡單、需要快速反應的計算處理,而複雜一些的計算還是會放到傳統AI晶元里去做。」吳韌最終總結道。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

李開復:挑戰比較大的時候,反而是投資創業最好機會
新手必看:深度學習是什麼?它的工作原理是什麼?

TAG:雷鋒網 |