2018年AI晶元爆發倒計時（中）：用FPGA還是專用ASIC？

科技 02-28

談完了應用布局，我們回到具體硬體上來。如此多的玩家同時闖入終端AI晶元領域，針對大量不同的細分市場和應用需求，下一代AI晶元的技術發展到底往哪個方向走呢？，是採用FPGA還是專用ASIC呢？

以GPU為代表的圖形處理器確實推動了第一波的深度學習的浪潮，現在專用AI晶元正推動第二波浪潮。包括蘋果、華為、Intel、NVIDIA、Google和一些初創公司都相繼推出了基於神經網路演算法的專用ASIC晶元。

如果你認為蘋果和華為在手機晶元中搭載「AI」單元模塊僅僅是為了尋找新的賣點那就錯了。雲端到終端確實能帶來真正的好處，比如功耗和成本的降低，效率的提升等。華為麒麟晶元市場總監周晨認為，在雲端進行AI運算的方式，如增加模型的大小和層數並不是真正的方向。AI開始從雲端往終端遷移會把運算量和網路大小減少100倍，也會減少對網路帶寬的需求。「隨著算力的提升和演算法的優化，最後會形成一個很好的甜蜜點。」周晨表示。「終端的性能現在是瓶頸，大批公司雖然水平參差不齊，但是都在往晶元端走，如何解決兼容性問題，如何讓演算法更流暢，成為大家關注的焦點。」周晨表示，從2017年的數據來看，AI的算力中雲端佔了95%，終端只佔5%，這兩點的巨大差距會帶來很大的成長空間。對於華為麒麟，因為是一家硬體平台公司，自然更偏向用硬體的方式來做，提供通用性的加速器，從而滿足大部分的演算法需求。目前跑演算法大概有兩種方式：一種是用CPU跑純軟體，另一種是通過硬體加速器來固定演算法。此外，從AI運算的需求本身來看，大部分是計算密度要求很高的行為，也需要用非常高效的硬體方式去做。周晨認為，從晶元的發展歷史來看，很多演算法一旦穩定成熟下來就會固定用硬體來做。

對於華為的下一代AI晶元，周晨沒有透露太具體的規格或參數。但他表示，後面兩代的產品定義經明確，基本上有幾個方向不會變：第一是算力會持續上漲。第二是專註在通用的AI運算平台上，持續將AI運算能力開放給更多開發者。第三是AI晶元的工藝會越來越先進，更新速度可能會比摩爾定律還要快。「當我們把算力釋放出去以後，可能會有一大票應用能力提升。這會產生正向循環，會有越來越多的開發者做一些新的好的體驗。」周晨表示，AI本身是一種技術，但是未來的價值會體現在有多少開發者來開發出相關的應用。

周海天認為，雖然目前有很多的晶元架構都針對AI，但在AI發展初期的一些應用上，在還沒找到最優的演算法和性能的時候，絕對是FPGA更合適。「尤其是未來兩、三年，當然不是說我們現有的產品拿出去就可以了，我們也在不斷的專註這一塊。」

周海天表示，賽靈思目前也在不斷的做一些介面、通用協議的固化，再引入SoC，固化內存驅動，隨著AI的發展和成熟，一些關鍵的模塊也可以在FPGA產品里固化，可以推出相應的FPGA base。他認為，其實不同的晶元架構都有一定的優勢。現在的處理器產品可以很容易開發處理器平台，處理器也有它的瓶頸。所以現在GPU過去幾年是非常成功的，但是也碰到一些功耗和挑戰。但是GPU的優勢也是很好的產品開發的工具和庫。但是在FPGA上，除了可編程的優勢，隨著演算法的演進，將一些硬體架構做一些優化和改變，而不用等硬體變化。「再加上過去我們開發的時候，要從源代碼去起步，這是我們這兩年的改變，我們不斷提到硬體平台還有庫和高端的設計語言，也就是跟GPU一樣的開發流程。」

周海天指出，針對一些TPU和ASIC，這些專門的AI晶元好處是更加的集中，但也有個缺點，就是它需要非常成熟的演算法，因此，AI晶元往往是固化了兩年前的演算法。而隨著AI的演進，尤其是演算法的發展和變化是非常快的。

周海天表示，隨著AI應用的發展，最近幾年AI演算法正在不斷的演進，硬體架構也在隨之不斷的變化。「兩三年前我們認為要用浮點運算，在神經網路中達到一定比例。隨著演算法的成熟，我們發現不一定要用浮點運算，用定點運算也可以。」他認為，這種改變可能就一年的時間，而FPGA非常容易快速的響應演算法的改變。

深鑒科技CEO姚頌認為，從AI晶元所處的發展階段來看， CPU、GPU和FPGA等通用晶元是目前AI領域的主要晶元，而針對神經網路演算法的專用晶元ASIC也正在被眾多AI公司陸續推出，並且由於專用晶元能夠更好的根據場景及行業進行定向優化，所以目前有種趨勢：專用晶元有望在今後數年內取代通用晶元所不能完全覆蓋到的領域，而成為AI晶元的主力。同時隨著大數據、演算法和算力的不斷迭代演進，市場對智能硬體(晶元)的要求也會越來越高，對應的研發成本會面臨新的挑戰。

Intel CEO 科再奇認為，當前的AI革命實際上是一種計算的革新。自從集成電路問世以來，Intel一直是突破計算限制的核心力量。「我們的產品路線圖讓我們正在超越去年設定的目標：即到2020年，深度學習訓練的性能可以提高100倍。」金勇斌認為，針對終端的晶元設計有幾個特點：一是功耗不能大，二是硬體的效率要非常高，三是運算模型要針對終端特點來定製。在以往GPU在AI計算領域取得了非常好的成績，目前各大廠商都在做各種架構的專用加速器，有的基於DSP、有的基於GPU。金勇斌認為，GPU的功耗比較高，因此他不認為GPU能夠解決終端的效能和成本平衡問題。包括DSP、FPGA都有各自的優點和缺點。從靈活性和效能的平衡來看，在AI應用場景中，比較通用的神經網路以及卷積運算，特定的硬體加速器優勢會比DSP和GPU效能更高。「我們認為未來一個相對通用演算法的硬體加速器加上CPU的架構會越來越流行。」金勇斌表示，CPU比較靈活但效率不高，加速器效率高但不夠靈活。因此可以針對不同的特點採用不同的硬體，比如深度學習的卷積運算需求相對固定，就可以採用硬體加速器；而很多針對終端的應用演算法需要高度的可靈活編程性，就可以採用CPU。CEVA公司視覺產品市場主管Liran Bar也認為，CPU或GPU這樣的通用技術相比專用AI處理器來說性能更低卻功耗更高，因此不再是能有效地滿足AI要求的可行技術。

林宗瑤表示，如果說AI的發展前期主要集中在雲端(Cloud)，那麼接下來的發展趨勢將會往終端(Edge)轉移。這個轉移有四大好處：第一是終端的回應速度大大提升，比如針對一些車載系統的智能應用，如ADAS應用，如果通過雲端計算處理，再把資料從雲端傳回來的速度會比較慢。第二是如果把資料放到雲端，隱私也非常容易暴露。第三是目前的上傳流量資費成本也很高。第四是相對伺服器端，終端的功耗會更低。實際上目前雲端伺服器的用電量已經達到全球電力的5%。從環保節能的角度來看，AI從雲端往終端的遷移也會是一個潮流。NeuroPilot採用的就是APU(Artificial intelligence Processing Unit)的方式，把目前已知的比較固定的80~90種演算法固定到APU中，剩下一些一直演進的10個演算法會放到CPU中，從而兼顧彈性和效率。「獨立的DSP會有一個好處，功耗效能會比較好，比如谷歌的TPU效率比較好，但是彈性比較低。」林宗瑤表示，APU將會包含已獲得IP授權的DSP，未來也可能採用其它廠商的。

比特大陸產品戰略總監湯煒偉認為，到2020年AI專用晶元的數量將超過GPU，這符合行業的發展趨勢。湯煒偉認為，無論是運算需求還是能耗成本來看，目前的雲端算力都難以滿足未來龐大的運算需求。「在雲端，深度學習的架構更加困難，在終端CPU參與許多的搬運和調度，但是受限於功耗，在手機里不能超過2瓦，在攝像頭裡可能最多10瓦的一個功耗，非常受限於前段功耗的限制。我們面臨著巨大的深度學習計算規模，也面臨晶元技術的挑戰，怎麼應對？」湯煒偉表示，當初比特幣挖礦也走過從CPU到GPU再到專用晶元的路，因此比特大陸認為深度學習也會走類似的路，會從CPU過渡到最新的ASIC，也就是TPU。

啟英泰倫科技總經理高君效表示，AI晶元和傳統晶元不一樣，其基於特定的差異化架構，通過異構計算能提供非常高性能的並行計算能力。當前AI晶元已經從集成多核CPU或DSP，用軟體方式支持各種神經網路演算法的方式，轉變為設計專用的NPU處理器來完成神經網路的並行計算，最大化地發揮硬體的計算能力。同時，隨著技術的進一步發展和AI碎片化應用需求的進一步提升，AI晶元也會從通用的NPU處理器核，嚮應用場景進行覆蓋。 啟英泰倫科技總經理高君效

中科創達副總裁楊宇欣則認為，應針對不同的應用場景區別對待。比如手機這種單一市場做AI肯定是SoC為主，但是對於一些安防、工業應用等量不大的市場，這種單獨做SoC不值，用FPGA來做可以比較靈活。「面向比較碎片化的市場，就可以採用單獨的協處理器配合主晶元去滿足客戶需求。」楊宇欣表示，中科創達不會傾向於某一個晶元架構，而是根據不同的應用場景和功耗綜合考慮。

未完待續，請期待2018年AI晶元爆發倒計時（下）：AI生態成熟，IC工程師失業？

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 EET電子工程專輯 的精彩文章:

※傳iPhone X滯銷富士康提前放假？官方怒曬春節假期公告
※Wi-Fi聯盟WPA3安全標準今年部署，修復KRACKs漏洞

TAG:EET電子工程專輯 |