AI時代，一美元能夠買到多強的算力？

科技 03-24

演算法、數據和算力，並稱為新AI時代三大驅動力。如何在追求更好性能的同時實現低功耗、低延遲和低成本，逐漸成為擺在所有AI從業者面前的艱巨挑戰之一。日前，深鑒科技ASIC副總裁陳忠民應邀在「2018人工智慧與半導體技術國際論壇」發表演講就指出：當真正需要在嵌入式終端設備中使用AI技術時，客戶的訴求更多的集中在功耗、響應時間、成本等方面，對性能的無盡追求反而不是重點，這和很多人之前的預想並不一致。」他提出客戶最切實的需求是：花一美元或一瓦電能買到多強的算力？

【廣告植入】

AI時代，一美元能夠買到多強的算力？

如何解決當下面臨的算力與功耗比的困境，深鑒科技本次演講主題《人工智慧晶元設計與應用：軟硬體協同》提出新的思路。而會後陳忠民與《電子工程專輯》就如何突破AI晶元的算力與功耗的限制進行更加深入的對談。表明這是兩種很難調和的矛盾。深鑒科技研發團隊為此進行了深入分析，試圖解開困擾當前AI運算的謎團。

算力與功耗，真的難以兼得？

在接受《電子工程專輯》的電話採訪時，陳忠民提及：隨著海量數據的爆炸式增長與摩爾定律的逐漸放緩，可以看到像英偉達、英特爾、微軟、谷歌這樣的行業巨頭紛紛推出了定製化專用AI晶元。儘管實現方式不同，但無論是選擇FPGA還是ASIC，都在向業界傳遞一個明確的信號：即整個AI運算今後將會從通用計算平台走向定製化計算平台。追求更好性能，兼顧低功耗、低延遲和低成本將會是未來的主流趨勢。

AI時代，一美元能夠買到多強的算力？

圖1

圖1中，很多硬體平台都展示了自身所具備的強大算力，然而當用戶在真正運行一個應用時，卻發現由於內存帶寬的限制和架構的限制，依然不能將所有的AI運算單元填滿，從而導致計算硬體的計算效率低下。以谷歌第一代TPU為例，其平均硬體乘法陣列使用率只有28%，這意味著72%的硬體在大部分時間內是沒有任何事情可以做的。

另一方面，在設計AI平台的時候，大量運算引擎所帶來的能量消耗是不可忽視的。

AI時代，一美元能夠買到多強的算力？

圖2

圖2表明，如果將完成16位整數加法能量消耗定義為1，那麼將32比特的數據從DDR內存傳輸到晶元中，就將花費1萬倍的能量消耗。因此，過大的訪問帶寬將會直接導致AI晶元功耗高居不下。

問題找到了，接下來該如何提升計算效率、降低功耗？陳忠民表示深鑒經過多次研究，總結出三條路徑：首先，優化計算引擎，增加計算並行度；其次，優化訪存系統；第三，利用神經網路稀疏性，實現軟硬體協同設計。

Yann LeCun教授在IBM 45nm晶元上採用NeuFlow新架構為例，新架構使得晶元性能直接上升到了1.2T，這比傳統CPU高出約100倍，比V6 FPGA實現的NeuFlow高出8倍，說明當架構設計得到改進後，更多的並行運算單元的確能夠提升性能，讓所有的硬體數據得到充分的運算。

「如果我打算構建一個8位乘法器，或是一個浮點16位乘法器，在每一代工藝節點下，是不是就一定會有天然的物理極限？要消耗多少晶體管才能實現一個16比特的乘法是一個定數」陳忠民說。一個有趣的事實是，早期之所以要在硬體和演算法之間畫出一道明顯的界限，是因為處理器設計人員永遠不知道將來要運行一個怎樣的程序，是一個資料庫應用還是一個網頁顯示？所以最簡單的方法就是把介面標準化，這樣，軟體工程師透過編譯器就可以將程序變成標準的硬體指令去執行。然而到了AI時代，每一個神經網路要做什麼，設計人員都非常清楚，那麼硬體就可以想辦法實現與軟體的配合，突破摩爾定律限制，做出兼具高性能與低功耗的產品。

軟硬體協同優化

作為一家專註於提供從演算法壓縮、到軟體/硬體、再到系統的完整解決方案的新銳AI公司，深鑒科技一直試圖通過核心的深度壓縮技術優化演算法，結合自有深度學習底層架構—亞里士多德架構和笛卡爾架構，實現演算法和硬體的協同優化，促進嵌入式端與雲端的推理平台更加高效、便捷、經濟。

深鑒科技聯合創始人韓松博士是世界上首位提出利用稀疏性和模型量化來壓縮運算量的科學家。簡單來說，就是當拿到一個浮點32位或者浮點16位的模型之後，由於稀疏性的存在，完全可以將那些對結果沒有影響的運算從神經網路中剪除，這樣就能在減少運算量的同時保持整個網路的精度。對於現在的卷積神經網路來說，也沒有必要通過運行浮點16/32位才能保證足夠的精度，很多整數運算在某些網路層上已經可以實現。因此通過量化的方法，將一些浮點數轉化為定點數運算，比如將16位浮點加運算轉化為16位整數加運算時，能量消耗就會下降87.5%。

採訪中，陳忠民將深鑒科技軟硬體協同優化思路歸結為「一句話」：軟體定義硬體架構，而高效的硬體架構定義軟體的組織方式。這種優化需要實現「三個目標」：第一，要在有限的資源下實現儘可能高的峰值性能；第二，需要優化硬體的微結構和編譯工具來提升整體計算效率；第三，所有工作都不能破壞模型的精度。

然而「知易行難」，要做到這三點並不容易。

AI時代，一美元能夠買到多強的算力？

圖3

圖3是他向記者展示的不同計算特質的硬體架構，可以看到，一個標準的CNN網路里會包括一些共通的層，比如卷積層和全連接層。卷積層進行的是密集型計算，消耗的帶寬有限，如果並行化能力突出，就可以用更多的計算單元來獲得更好的卷積層性能；對全連接層而言，計算能力會被訪存的帶寬所限制，因此設計者需要思考為FC層所付出的硬體代價是什麼？要怎樣去構建硬體結構？等關鍵問題。

此外，一個眾所周知的事實是，AI演算法始終處於持續進化狀態，即便是在同一個演算法內部，仍然存在多種不同的運算元。這勢必要求設計者在硬體設計結構上時刻保持前瞻性分析，了解最新的演算法趨勢，平衡不同運算元間的效率，深刻剖析整個網路里每一層的硬體需求，並藉此設計出一個合理的、高效的硬體架構。

「針對這些不同的方法論，我們採取了很多應對策略。」陳忠民解釋說，在整個硬體設計中，深鑒科技一直在追尋低比特量化的運算，同時要把運算單元整體充分調動起來，繼而在編譯器層面對神經網路數據結構做了很多優化，開發了自己的編譯工具。在保持在模型精度不變的情況下將網路壓縮降低運算量。

揭開「聽濤」SoC的神秘面紗

今年上半年，深鑒科技將落實晶元計劃，正式發布基於自主研發的人工智慧處理器核心DPU 的「聽濤」系列 SoC。資料顯示，該DPU屬於卷積神經網路加速器，能夠實現高效地圖像檢測、識別、分類等AI應用。早前在該架構基礎之上，深鑒科技做出了第一代FPGA產品，已經在攝像頭市場實現了批量出貨。

DPU計算核心採用全流水設計結構設計，內部集成了大量的卷積運算器、加法器、非線性等運算單元。高效率的架構設計會確保每一個運算單元都能夠被充分的調動起來。像VGG16比較重的應用中，深鑒科技DPU的運算器利用率可以達到85%，對主流演算法可以達到50%以上，功耗方面則大大低於競爭對手的產品。

陳忠民對記者說，在實際的客戶拜訪中，他注意到這樣一個現象，即某些行業客戶有自己偏愛的演算法。深鑒科技就在自己開發的DNNDK工具鏈中毫無保留地加入了自動網路壓縮和自動編譯，任何一家客戶的演算法在DNNDK編譯的過程中將自動完成網路的壓縮，將浮點32位網路壓縮成定點8位的運算網路，從而實現網路運算量的降低。客戶甚至只用了50行代碼就可以實現了一個Resnet 50的演算法結構，極為便捷。

AI時代，一美元能夠買到多強的算力？

圖4

在論壇現場，陳忠民展示了DNNDK在SSD演算法上的結果。如圖4，藍色表示運算量，灰色表示運算精度。可以看到，在SSD演算法上經過了若干輪迭代的壓縮之後，整個運算量壓縮從120降到了11.5，只有原來網路的1/10，同時基本保持了整個運算模型的精度沒有變化。據此，陳忠民認為深度壓縮可以使網路計算量變的更少，實現輕量化AI的運算。

相比現有FPGA產品的較高功耗，將於年中交付的「聽濤」SoC產品的預期功耗約為3瓦，峰值算力4TOPS。考慮到網路壓縮部分，等效的算力應該再擴大5-10倍。當下嵌入式領域的AI晶元中，無論是FPGA還是GPU，都很難越過每瓦1TOPs能效比，而聽濤將會超過這條能效比的紅線。

「我們希望通過自身在神經網路壓縮以及先進晶元設計技術方面的經驗，能夠幫助客戶得到更好的AI應用體驗。他們完全不必關心使用何種硬體，只需要根據自己的性能和功耗需求選擇適合的硬體平台即可。」這是陳忠民，也是深鑒科技對客戶，也是對AI晶元未來的期望。

最後做個跟人工智慧相關的重要活動的宣傳：

AI時代，一美元能夠買到多強的算力？

對於人工智慧IC設計和市場感興趣的朋友，可以點擊圖片或右邊的鏈接報名參加： http://site.eet-china.com/events/icsummit2018/index.html

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 EET電子工程專輯 的精彩文章:

※手機市場越來越難做，本土元器件品牌如何找到避風港？
※基於驍龍845的全新移動VR參考設計助力下一代VR體驗發展

TAG:EET電子工程專輯 |