當前位置:
首頁 > 科技 > 2018年AI晶元爆發倒計時(中):用FPGA還是專用ASIC?

2018年AI晶元爆發倒計時(中):用FPGA還是專用ASIC?

談完了應用布局,我們回到具體硬體上來。如此多的玩家同時闖入終端AI晶元領域,針對大量不同的細分市場和應用需求,下一代AI晶元的技術發展到底往哪個方向走呢?,是採用FPGA還是專用ASIC呢?

以GPU為代表的圖形處理器確實推動了第一波的深度學習的浪潮,現在專用AI晶元正推動第二波浪潮。包括蘋果、華為、Intel、NVIDIA、Google和一些初創公司都相繼推出了基於神經網路演算法的專用ASIC晶元。

如果你認為蘋果和華為在手機晶元中搭載「AI」單元模塊僅僅是為了尋找新的賣點那就錯了。雲端到終端確實能帶來真正的好處,比如功耗和成本的降低,效率的提升等。華為麒麟晶元市場總監周晨認為,在雲端進行AI運算的方式,如增加模型的大小和層數並不是真正的方向。AI開始從雲端往終端遷移會把運算量和網路大小減少100倍,也會減少對網路帶寬的需求。「隨著算力的提升和演算法的優化,最後會形成一個很好的甜蜜點。」周晨表示。「終端的性能現在是瓶頸,大批公司雖然水平參差不齊,但是都在往晶元端走,如何解決兼容性問題,如何讓演算法更流暢,成為大家關注的焦點。」周晨表示,從2017年的數據來看,AI的算力中雲端佔了95%,終端只佔5%,這兩點的巨大差距會帶來很大的成長空間。對於華為麒麟,因為是一家硬體平台公司,自然更偏向用硬體的方式來做,提供通用性的加速器,從而滿足大部分的演算法需求。目前跑演算法大概有兩種方式:一種是用CPU跑純軟體,另一種是通過硬體加速器來固定演算法。此外,從AI運算的需求本身來看,大部分是計算密度要求很高的行為,也需要用非常高效的硬體方式去做。周晨認為,從晶元的發展歷史來看,很多演算法一旦穩定成熟下來就會固定用硬體來做。

對於華為的下一代AI晶元,周晨沒有透露太具體的規格或參數。但他表示,後面兩代的產品定義經明確,基本上有幾個方向不會變:第一是算力會持續上漲。第二是專註在通用的AI運算平台上,持續將AI運算能力開放給更多開發者。第三是AI晶元的工藝會越來越先進,更新速度可能會比摩爾定律還要快。 「當我們把算力釋放出去以後,可能會有一大票應用能力提升。這會產生正向循環,會有越來越多的開發者做一些新的好的體驗。」周晨表示,AI本身是一種技術,但是未來的價值會體現在有多少開發者來開發出相關的應用。

周海天認為,雖然目前有很多的晶元架構都針對AI,但在AI發展初期的一些應用上,在還沒找到最優的演算法和性能的時候,絕對是FPGA更合適。「尤其是未來兩、三年,當然不是說我們現有的產品拿出去就可以了,我們也在不斷的專註這一塊。」

周海天表示,賽靈思目前也在不斷的做一些介面、通用協議的固化,再引入SoC,固化內存驅動,隨著AI的發展和成熟,一些關鍵的模塊也可以在FPGA產品里固化,可以推出相應的FPGA base。他認為,其實不同的晶元架構都有一定的優勢。現在的處理器產品可以很容易開發處理器平台,處理器也有它的瓶頸。所以現在GPU過去幾年是非常成功的,但是也碰到一些功耗和挑戰。但是GPU的優勢也是很好的產品開發的工具和庫。但是在FPGA上,除了可編程的優勢,隨著演算法的演進,將一些硬體架構做一些優化和改變,而不用等硬體變化。「再加上過去我們開發的時候,要從源代碼去起步,這是我們這兩年的改變,我們不斷提到硬體平台還有庫和高端的設計語言,也就是跟GPU一樣的開發流程。」

周海天指出,針對一些TPU和ASIC,這些專門的AI晶元好處是更加的集中,但也有個缺點,就是它需要非常成熟的演算法,因此,AI晶元往往是固化了兩年前的演算法。而隨著AI的演進,尤其是演算法的發展和變化是非常快的。

周海天表示,隨著AI應用的發展, 最近幾年AI演算法正在不斷的演進,硬體架構也在隨之不斷的變化。「兩三年前我們認為要用浮點運算,在神經網路中達到一定比例。隨著演算法的成熟,我們發現不一定要用浮點運算,用定點運算也可以。」他認為,這種改變可能就一年的時間,而FPGA非常容易快速的響應演算法的改變。

深鑒科技CEO姚頌認為,從AI晶元所處的發展階段來看, CPU、GPU和FPGA等通用晶元是目前AI領域的主要晶元,而針對神經網路演算法的專用晶元ASIC也正在被眾多AI公司陸續推出,並且由於專用晶元能夠更好的根據場景及行業進行定向優化,所以目前有種趨勢:專用晶元有望在今後數年內取代通用晶元所不能完全覆蓋到的領域,而成為AI晶元的主力。同時隨著大數據、演算法和算力的不斷迭代演進,市場對智能硬體(晶元)的要求也會越來越高,對應的研發成本會面臨新的挑戰。

Intel CEO 科再奇認為,當前的AI革命實際上是一種計算的革新。自從集成電路問世以來,Intel一直是突破計算限制的核心力量。「我們的產品路線圖讓我們正在超越去年設定的目標:即到2020年,深度學習訓練的性能可以提高100倍。」金勇斌認為,針對終端的晶元設計有幾個特點:一是功耗不能大,二是硬體的效率要非常高,三是運算模型要針對終端特點來定製。在以往GPU在AI計算領域取得了非常好的成績,目前各大廠商都在做各種架構的專用加速器,有的基於DSP、有的基於GPU。金勇斌認為,GPU的功耗比較高,因此他不認為GPU能夠解決終端的效能和成本平衡問題。包括DSP、FPGA都有各自的優點和缺點。從靈活性和效能的平衡來看,在AI應用場景中,比較通用的神經網路以及卷積運算,特定的硬體加速器優勢會比DSP和GPU效能更高。 「我們認為未來一個相對通用演算法的硬體加速器加上CPU的架構會越來越流行。」 金勇斌表示,CPU比較靈活但效率不高,加速器效率高但不夠靈活。因此可以針對不同的特點採用不同的硬體,比如深度學習的卷積運算需求相對固定,就可以採用硬體加速器;而很多針對終端的應用演算法需要高度的可靈活編程性,就可以採用CPU。CEVA公司視覺產品市場主管Liran Bar也認為,CPU或GPU這樣的通用技術相比專用AI處理器來說性能更低卻功耗更高,因此不再是能有效地滿足AI要求的可行技術。

林宗瑤表示,如果說AI的發展前期主要集中在雲端(Cloud),那麼接下來的發展趨勢將會往終端(Edge)轉移。這個轉移有四大好處:第一是終端的回應速度大大提升,比如針對一些車載系統的智能應用,如ADAS應用,如果通過雲端計算處理,再把資料從雲端傳回來的速度會比較慢。第二是如果把資料放到雲端,隱私也非常容易暴露。第三是目前的上傳流量資費成本也很高。第四是相對伺服器端,終端的功耗會更低。實際上目前雲端伺服器的用電量已經達到全球電力的5%。從環保節能的角度來看,AI從雲端往終端的遷移也會是一個潮流。NeuroPilot採用的就是APU(Artificial intelligence Processing Unit)的方式,把目前已知的比較固定的80~90種演算法固定到APU中,剩下一些一直演進的10個演算法會放到CPU中,從而兼顧彈性和效率。「獨立的DSP會有一個好處,功耗效能會比較好,比如谷歌的TPU效率比較好,但是彈性比較低。」 林宗瑤表示,APU將會包含已獲得IP授權的DSP,未來也可能採用其它廠商的。

比特大陸產品戰略總監湯煒偉認為,到2020年AI專用晶元的數量將超過GPU,這符合行業的發展趨勢。湯煒偉認為,無論是運算需求還是能耗成本來看,目前的雲端算力都難以滿足未來龐大的運算需求。「在雲端,深度學習的架構更加困難,在終端CPU參與許多的搬運和調度,但是受限於功耗,在手機里不能超過2瓦,在攝像頭裡可能最多10瓦的一個功耗,非常受限於前段功耗的限制。我們面臨著巨大的深度學習計算規模,也面臨晶元技術的挑戰,怎麼應對?」 湯煒偉表示,當初比特幣挖礦也走過從CPU到GPU再到專用晶元的路,因此比特大陸認為深度學習也會走類似的路,會從CPU過渡到最新的ASIC,也就是TPU。

啟英泰倫科技總經理高君效表示,AI晶元和傳統晶元不一樣,其基於特定的差異化架構,通過異構計算能提供非常高性能的並行計算能力。當前AI晶元已經從集成多核CPU或DSP,用軟體方式支持各種神經網路演算法的方式,轉變為設計專用的NPU處理器來完成神經網路的並行計算,最大化地發揮硬體的計算能力。同時,隨著技術的進一步發展和AI碎片化應用需求的進一步提升,AI晶元也會從通用的NPU處理器核,嚮應用場景進行覆蓋。 啟英泰倫科技總經理高君效

中科創達副總裁楊宇欣則認為,應針對不同的應用場景區別對待。比如手機這種單一市場做AI肯定是SoC為主,但是對於一些安防、工業應用等量不大的市場,這種單獨做SoC不值,用FPGA來做可以比較靈活。「面向比較碎片化的市場,就可以採用單獨的協處理器配合主晶元去滿足客戶需求。」 楊宇欣表示,中科創達不會傾向於某一個晶元架構,而是根據不同的應用場景和功耗綜合考慮。

未完待續,請期待2018年AI晶元爆發倒計時(下):AI生態成熟,IC工程師失業?

本文為《電子工程專輯》原創,版權所有,謝絕轉載

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 EET電子工程專輯 的精彩文章:

傳iPhone X滯銷富士康提前放假?官方怒曬春節假期公告
Wi-Fi聯盟WPA3安全標準今年部署,修復KRACKs漏洞

TAG:EET電子工程專輯 |