當前位置:
首頁 > 新聞 > 首發 | 全新類別AI晶元量產,清微的可重構晶元將成市場主流?

首發 | 全新類別AI晶元量產,清微的可重構晶元將成市場主流?

AI的浪潮讓科技巨頭們也紛紛布局AI晶元,也讓晶元領域再現多年未見的創業熱潮。不過,摩爾定律的放緩以及經典的馮諾依曼架構瓶頸讓AI晶元的進一步提升面臨挑戰,這也在很大程度影響AI的發展和落地。因此,AI晶元架構的創新對於AI發展意義重大。

本月,清微智能的首款可重構計算架構AI晶元量產,這種被稱為全新類別的AI晶元的技術獨特性在哪?以清微產品為代表的數據流驅動晶元能否成為AI晶元市場的主流?

首發 | 全新類別AI晶元量產,清微的可重構晶元將成市場主流?

可重構晶元為什麼是全新類別?

可重構的概念早在20世紀60年代就被提出,但經過半個多世紀才終於獲得突破。據悉,可重構晶元最早的技術源頭可追溯到20世紀80年代末誕生的高層次綜合理論和方法。2006年,意識到可重構計算架構對於提升晶元算力、降低功耗的巨大優勢,魏少軍教授牽頭成立了清華大學可重構計算研究團隊。成立至今的十多年,魏少軍教授一直帶領的團隊進行可重構計算的研發。

魏少軍教授此前接受雷鋒網採訪時表示,可重構計算架構晶元不屬於CPU、GPU、FPGA、ASIC,它是全新類別晶元。

但是,由於可重構晶元具備軟體、硬體雙編程的特性,無論是在國內還是國外,可重構晶元很多時候被誤解成FPGA。

魏少軍近日撰文詳細介紹了可重構晶元的技術原理,他以軟體和硬體的可編程性兩個軸構建坐標圖說明了可重構晶元的獨特性。第一象限可以歸納為動態可重構的晶元,有時稱為RCP(Reconfigurable Computing Processor,可重構計算處理器)或CGRA(Coarse grained Reconfigurable Architecture,粗粒度可重構架構)等,其特點是軟體硬體都可以編程、混合粒度、晶元的硬體功能隨軟體的變化而變化,應用改變軟體、軟體再改變硬體。

而且它與CPU等處理器有很多類似的地方,開發者不需要底層晶元設計知識。這類晶元與ASIC一樣,具備很好的能量效率和計算效率等。顯然,這種晶元的屬性分類與以前不同,不可以將其與FPGA等混為一談。

首發 | 全新類別AI晶元量產,清微的可重構晶元將成市場主流?

動態可重構晶元的屬性分類

可重構計算架構的優勢

清微創始人CEO王博接受雷鋒網採訪時更具體地解釋了這一架構以及相比其他傳統晶元的優勢。他表示,CGRA計算架構通過空域硬體結構組織不同粒度和不同功能的計算資源,通過硬體運行時配置,調整硬體功能,根據數據流的特點,讓功能配置好的硬體資源互連形成相對固定的計算通路,從而以接近「專用電路」的方式進行數據驅動下的計算。

首發 | 全新類別AI晶元量產,清微的可重構晶元將成市場主流?

可重構陣列在不同時刻可以配置成為不同的功能,進而進行數據驅動的ASIC計算

當演算法和應用變換時,再次通過配置,使硬體重構為不同的計算通路去執行。

首發 | 全新類別AI晶元量產,清微的可重構晶元將成市場主流?

可重構陣列的PE在不同時刻可以配置成為不同的功能

王博進一步表示,CGRA最大的優勢體現在兩方面,一是沒有傳統指令驅動的計算架構取指和解碼操作的延時和能耗開銷,二是在計算過程中以接近「專用電路」的方式執行。對比來看,CGRA的計算能效平均可達CPU計算架構的1000倍以上、是GPU計算架構的100~1000倍、是FPGA計算架構的100倍以上,相比NPU能夠有10倍以上的性能提升,CGRA基於配置方式執行,執行效率可以和ASIC相當,但是靈活性遠遠好於ASIC。

此外,CGRA架構算力可以彈性擴展,適用於從雲端到邊緣端對高能效和靈活性有綜合要求的場景。

可重構架構優勢突出為何今年才量產?

前面已經提到,魏少軍教授早在2006年就牽頭成立了清華大學可重構計算研究團隊。2015年,可重構晶元因為第三次AI熱潮也開始受到關注。2017年6月,清華大學可重構計算研究團隊的第一代人工智慧晶元Thinker-Ⅰ推出,並獲2017 ACM/IEEE ISLPED會議設計競賽獎。研究團隊還在ISCA 2018發表了中國唯一第一作者論文。

到了2018年7月,北京清微智能科技有限公司在在北京中關村註冊成立,基於十多年的技術積累,200多項技術專利,清微智能在不到一年的時間就成功量產了首款可重構晶元TX210,這款語音SoC晶元可以應用於智能手機、可穿戴智能設備、小家電、大家電、玩具、車載等場景。

從2006年清華大學可重構計算研究團隊開始研究,到2015年AI晶元創業熱潮開啟,為何可重構架構的商用等到了2018年清微智能的成立?王博表示:「我之前一直在做智能硬體相關的產品,2017年,我當時所在公司為一款人臉識別智能門鎖尋找晶元時,發現市場上根本找不到特別合適的產品,其實當時心裡就存下了一個想法——為什麼市面上會沒有好用的晶元,困難在什麼地方?因為跟清華大學微電子學研究所的尹首一教授也是舊相識,後來藉由種種機會,有過幾次比較深入的溝通,也了解到他們所研究的這項技術對於晶元產業的意義研究AI晶元,當初的那個想法逐漸成型,並最終和尹老師他們一起在2018年成立清微智能。希望藉助清華大學這支團隊十多年的技術積累,結合我在AI領域的商業落地的經驗,將可重構計算晶元商業化。」

顯然,可重構架構晶元的商用化背後很重要的推動力就是眾多電池供電的智能設備對低功耗AI晶元的需求。僅看智能音箱市場,根據市場研究公司Strategy Analytics發布的報告,2018年第四季度植入AI的智能音箱出貨量從第三季度的2260萬台增長到3850萬台,增幅達95%,超過整個2017年的出貨總量。報告還預測,2019年全球AIoT市場規模為51億美元,到2024年,這一數字將增長至162億美元,複合年增長率為26.0%。

王博順勢從AI晶元的需求方轉變提供方,發揮可重構晶元的優勢。

首發 | 全新類別AI晶元量產,清微的可重構晶元將成市場主流?

清微TX210

量產的可重構晶元究竟如何?

王博指出,清微的可重構晶元主要分為三個維度,從MAC層面支持不同的位寬重構,到執行單元層面支持不同運算元重構,再到陣列層面支持不同功能重構。因此,清微的可重構晶元既可以是「樂高」層級的可重構,也可以是「麵粉」層級的可重構。並且,配置過程運行速度非常快,動態重構的時間都是在納秒級,在運行的過程中是無縫執行,客戶根本感覺不到晶元的架構在實時切換,同時初始的配置也會很快,配置本身開銷很小。

清微智能CTO歐陽鵬也透露,在可重構計算更低能耗和更強靈活性的基礎上,清微在具體的晶元設計上又做了兩方面深化。他表示:「我們的AI晶元支持從1bit-16bit的混合精度計算,同時,不同的神經網路層可以採用不同的精度表示,可實現實時切換精度。在具體實現過程中,可重構模式動態重組計算資源和帶寬,根據精度表示,讓計算資源和帶寬接近滿負荷進行計算,從而將混合精度網路下的計算資源和帶寬的利用率逼近極限,高效支持多種混合精度的神經網路。」

「另外一方面,人工智慧演算法,除了神經網路中卷積層,全連接層等邏輯,還有非神經網路計算邏輯。傳統AI晶元架構強調了神經網路邏輯的計算效率,卻忽視了非神經網路邏輯的計算效率。清微的AI晶元針對神經網路部分和非神經網路均進行了計算效率考慮。針對非神經網路處理邏輯,從演算法數據流圖進行空間映射,以接近ASIC效率計算。同時,通過配置形成不同的電路結構來動態處理不同非神經網路計算邏輯,在保證靈活性前提下,計算效率有極大提升。」 歐陽鵬進一步表示。

雷鋒網了解到,具備上述特性的清微TX210採用TSMC40ULP工藝,支持WLCSP和QFN兩種產品封裝,多級喚醒模式也很大程度降低了晶元功耗,工作功耗為mW級,VAD功耗僅uW級。同時,TX210結構靈活,支持多比特DNN神經網路,可以支持1-16bit位寬的神經網路計算,也支持FFT/MEL FILTER等。還有一個顯著特點就是用極小的晶元面積支持豐富的介面和電源管理。

首發 | 全新類別AI晶元量產,清微的可重構晶元將成市場主流?

清微TX210 參數

除了硬體,清微也能在演算法方面有所布局,採取自研+與科研院所合作的思路。目前清微與中科院、清華大學、喬治理工大學等開展了深入合作。自研方面,清微在演算法壓縮,量化以及硬體友好化設計方面有長期的積累。

軟體方面,CGRA軟體開發平台兼容通用的TensorFlow/Caffe/MEXNET等AI框架,用戶無需改變他們的編程環境和習慣,軟體開發平台可以自動完成轉換、解析、編譯、生成等過程,給用戶提供友好的開發支持。

雖然用戶可以實現無縫遷移,但王博還表示:「我們有一套自己的編譯平台,用戶可以從其它的框架直接遷移到我們晶元里。但我們內部還會做一些包括量化、壓縮等與晶元相關的優化工作。」

王博強調,可重構晶元能否達到非常高的能效值,很大一部分決定於軟體、工具鏈優化、調度的好壞。

根據清微的說法,採用演算法+晶元的協同設計優化,TX210在典型信噪比下,喚醒識別率95%,誤識別率小於24小時一次。據悉,TX210正式上市前,清微已與一些大型的互聯網公司,智能手機及家電廠商建立了合作關係。

雷鋒網了解到,除了語音晶元,清微智能在下半年還會發布面向圖像識別的低功耗視覺晶元,面向智能家居、智能安防和新零售等領域。

王博認為,可重構晶元的商業化,不僅可以替代現有的產品,還能夠擴展現有產品的應用場景,更好地滿足低功耗AI晶元市場的需求。隨著我們產品在邊緣端的落地,基於CGRA軟硬體工具鏈以及生態也不斷完善,未來我們也會將CGRA架構算力可擴展、高能效、靈活的優勢拓展至雲端市場。

據王博介紹,在可重構雲端晶元方面,核心團隊在5年前就開始做技術預研和晶元驗證,面向雲端人工智慧演算法的推理、訓練、數據分析、資料庫操作等應用。這些成果有助於清微快速進入對算力、靈活性、功耗以及生態要求更高的伺服器和雲計算市場。

數據流AI晶元或成未來主流

不過,目前CPU、GPU、FPGA、ASIC在AI晶元市場激烈競爭,哪一種晶元能夠成為最大的受益者還難以得出結論。可重構計算架構晶元在市場落地中優勢如何?王博指出,可重構技術可以很大程度的延長晶元的生命周期。目前終端的AI演算法還在不斷演進,應用也非常碎片化。而基於可重計算構架的晶元具有低功耗、靈活、高效的優勢,如果有新的神經網路演算法出來,可重構晶元在很長時間內也能支持,並且是以接近ASIC的功耗滿足需求。不需要針對新的應用重新流片,能夠大大節省成本。

更為重要的是,可重構晶元代表的是採用的是數據驅動下的空域執行模式,區別於CPU、GPU、NPU諾依曼架構的時域計算模式,數據流驅動的晶元從架構上就可以避免了馮諾依曼架構的限制。

首發 | 全新類別AI晶元量產,清微的可重構晶元將成市場主流?

「指令驅動」的時域計算模式 v.s. 「數據驅動、動態重構」的空間計算模式

王博用通俗的方式解釋數據流驅動的晶元,數據流直白的理解就像水流一樣,在流動過程中直接把計算完成,不用等待,非常高效。對比指令驅動的方式,因為它需要取值、解碼、存在開銷,同時,這種方式使得中間的數據流被不斷打斷,執行效率低。

王博認為,數據流驅動的晶元在未來將會在AI以及對算力需求比較大的領域將成為主流。他表示:「因為這些場景需要的是強算力而非強邏輯,數據流驅動晶元特別適合。而之所以可重構晶元和數據流驅動的晶元直到近年來才受到了比較多的關注,可能是因為學界和工業界的人之前都想讓它去完全替代馮諾依曼架構。但如今AI讓大家回歸理性,認識到計算密集型的場景最適合數據流驅動的晶元,我們也看到現在數據流驅動的晶元業都是圍繞密集計算。」

不過,想要真正發揮可重構架構的優勢,讓數據流驅動的晶元成為主流仍需解決一些問題。王博指出,如果理解了可重構的原理,不同的人都可以把各個PE以某種形式連接起來,關鍵是如何連接這些PE能更加靈活,編譯器的設計怎麼能更加的提高效率,同時,數據流驅動的晶元同樣需要提升數據訪存效率的問題。清微的優勢就在於有清華大學微電子學研究所多年的研究作為基礎,我們的編譯系統非常完善,這是我們的軟體的優勢。因此,我們能夠在可重構架構硬體優勢的基礎上結合完善的軟體,最大程度發揮可重構架構晶元的優勢。

雷鋒網小結

AI作為一個新的領域,無論是晶元還是演算法都區別於傳統的數字、模擬等晶元,由此帶來的機會也催生了AI晶元的創業熱潮。在競爭還不夠充分的AI晶元市場,AI晶元的Benchmark發布不久、AI演算法的飛速演進,應用沒有標準,這麼多的尚未確定也是AI晶元初創公司的機會所在。

但正如王博接受採訪時所說:「晶元研發是一個特別需要積累的過程,一款成熟的晶元要考慮功耗、發熱以及量產等各方面的問題,除了技術的更迭速度,還要經受市場的考驗,用『十億起步,十年結果『形容一點不為過。」十億的成本投入以及十年的時間是晶元公司成功的要素,但將技術的獨特性轉換為產品的優勢同樣是吸引用戶的關鍵。

作為一種新類別的AI晶元,清微量產的可重構語音晶元能否推動相關應用市場的爆發,我們拭目以待。我們也期待數據流驅動的晶元更好地滿足密集計算場景需求,與馮諾依曼架構晶元一起加速AI的普及。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

杉數科技陳廷豪:零售場景中的需求預測
蘋果的神之一手:是戰略,也是侵略

TAG:雷鋒網 |