國內外AI晶元發展現狀,看這一篇就夠了!
國外:技術寡頭,優勢明顯
由於具有得天獨厚的技術和應用優勢,英偉達和谷歌幾乎佔據了人工智慧處理領域80%的市場份額,而且在谷歌宣布其Cloud TPU開放服務和英偉達推出自動駕駛處理器Xavier之後,這一份額佔比在2018年有望進一步擴大。其他廠商,如英特爾、特斯拉、ARM、IBM以及Cadence等,也在人工智慧處理器領域佔有一席之地。
當然,上述這些公司的專註領域卻不盡相同。比如英偉達主要專註於GPU和無人駕駛領域,而谷歌則主要針對雲端市場,英特爾則主要面向計算機視覺,Cadence則以提供加速神經網路計算相關IP為主。如果說前述這些公司還主要偏向處理器設計等硬體領域,那麼ARM公司則主要偏向軟體,致力於針對機器學習和人工智慧提供高效演算法庫。
獨佔鰲頭——英偉達
在人工智慧領域,英偉達可以說是目前涉及面最廣、市場份額最大的公司,旗下產品線遍布自動駕駛汽車、高性能計算、機器人、醫療保健、雲計算、遊戲視頻等眾多領域。其針對自動駕駛汽車領域的全新人工智慧超級計算機Xavier,用NVIDIA首席執行官黃仁勛的話來說就是「這是我所知道的 SoC 領域非常了不起的嘗試,我們長期以來一直致力於開發晶元。」
Xavier 是一款完整的片上系統 (SoC),集成了被稱為 Volta 的全新 GPU 架構、定製 8 核 CPU 架構以及新的計算機視覺加速器。該處理器提供 20 TOPS(萬億次運算/秒)的高性能,而功耗僅為 20 瓦。單個 Xavier 人工智慧處理器包含 70 億個晶體管,採用最前沿的 16nm FinFET 加工技術進行製造,能夠取代目前配置了兩個移動 SoC 和兩個獨立 GPU 的 DRIVE PX 2,而功耗僅僅是它的一小部分。
而在2018年拉斯維加斯CES展會上,NVIDIA又推出了三款基於Xavier的人工智慧處理器,包括一款專註於將增強現實(AR)技術應用於汽車的產品、一款進一步簡化車內人工智慧助手構建和部署的DRIVE IX和一款對其現有自主計程車大腦——Pegasus的修改,進一步擴大自己的優勢。
產學研的集大成者——谷歌
如果你只是知道谷歌的AlphaGo、無人駕駛和TPU等這些人工智慧相關的產品,那麼你還應該知道這些產品背後的技術大牛們:谷歌傳奇晶元工程師Jeff Dean、谷歌雲計算團隊首席科學家、斯坦福大學AI實驗室主管李飛飛、Alphabet董事長John Hennessy和谷歌傑出工程師David Patterson。
時至今日,摩爾定律遇到了技術和經濟上的雙重瓶頸,處理器性能的增長速度越來越慢,然而社會對於計算能力的需求增速卻並未減緩,甚至在移動應用、大數據、人工智慧等新的應用興起後,對於計算能力、計算功耗和計算成本等提出了新的要求。
與完全依賴於通用CPU及其編程模型的傳統軟體編寫模式不同,異構計算的整個系統包含了多種基於特定領域架構(Domain-Specific Architecture, DSA)設計的處理單元,每一個DSA處理單元都有負責的獨特領域並針對該領域做優化,當計算機系統遇到相關計算時便由相應的DSA處理器去負責。而谷歌就是異構計算的踐行者,TPU就是異構計算在人工智慧應用的一個很好例子。
2017年發布的第二代TPU晶元,不僅加深了人工智慧在學習和推理方面的能力,而且谷歌是認真地要將它推向市場。根據谷歌的內部測試,第二代晶元針對機器學習的訓練速度能比現在市場上的圖形晶元(GPU)節省一半時間;第二代TPU包括了四個晶元,每秒可處理180萬億次浮點運算;如果將64個TPU組合到一起,升級為所謂的TPU Pods,則可提供大約11500萬億次浮點運算能力。
計算機視覺領域的攪局者——英特爾
英特爾作為世界上最大的計算機晶元製造商,近年來一直在尋求計算機以外的市場,其中人工智慧晶元爭奪成為英特爾的核心戰略之一。為了加強在人工智慧晶元領域的實力,不僅以167億美元收購FPGA生產商Altera公司,還以153億美元收購自動駕駛技術公司Mobileye,以及機器視覺公司Movidius和為自動駕駛汽車晶元提供安全工具的公司Yogitech,背後凸顯這家在PC時代處於核心位置的巨頭面向未來的積極轉型。
Myriad X就是英特爾子公司Movidius在2017年推出的視覺處理器(VPU,vision processing unit),這是一款低功耗的系統晶元(SoC),用於在基於視覺的設備上加速深度學習和人工智慧——如無人機、智能相機和VR / AR頭盔。Myriad X是全球第一個配備專用神經網路計算引擎的片上系統晶元(SoC),用於加速設備端的深度學習推理計算。該神經網路計算引擎是晶元上集成的硬體模塊,專為高速、低功耗且不犧牲精確度地運行基於深度學習的神經網路而設計,讓設備能夠實時地看到、理解和響應周圍環境。引入該神經計算引擎之後,Myriad X架構能夠為基於深度學習的神經網路推理提供1TOPS的計算性能。
執「能效比」之牛耳——學術界
除了工業界和廠商在人工智慧領域不斷推出新產品之外,學術界也在持續推進人工智慧晶元新技術的發展。
比利時魯汶大學的Bert Moons等在2017年頂級會議IEEE ISSCC上面提出了能效比高達10.0TOPs/W的針對卷積神經網路加速的晶元ENVISION,該晶元採用28nm FD-SOI技術。該晶元包括一個16位的RISC處理器核,1D-SIMD處理單元進行ReLU和Pooling操作,2D-SIMD MAC陣列處理卷積層和全連接層的操作,還有128KB的片上存儲器。
韓國科學技術院KAIST的Dongjoo Shin等人在ISSCC2017上提出了一個針對CNN和RNN結構可配置的加速器單元DNPU,除了包含一個RISC核之外,還包括了一個針對卷積層操作的計算陣列CP和一個針對全連接層RNN-LSTM操作的計算陣列FRP,相比於魯汶大學的Envision,DNPU支持CNN和RNN結構,能效比高達8.1TOPS/W。該晶元採用了65nm CMOS工藝。
相比較於魯汶大學和韓國科學技術院都針對神經網路推理部分的計算操作來說,普渡大學的Venkataramani S等人在計算機體系結構頂級會議ISCA2017上提出了針對大規模神經網路訓練的人工智慧處理器SCALLDEEP。
該論文針對深度神經網路的訓練部分進行針對性優化,提出了一個可擴展伺服器架構,且深入分析了深度神經網路中卷積層,採樣層,全連接層等在計算密集度和訪存密集度方面的不同,設計了兩種處理器core架構,計算密集型的任務放在了comHeavy核中,包含大量的2D乘法器和累加器部件,而對於訪存密集型任務則放在了memHeavy核中,包含大量SPM存儲器和tracker同步單元,既可以作為存儲單元使用,又可以進行計算操作,包括ReLU,tanh等。
而一個SCALEDEEP Chip則可以有不同配置下的兩類處理器核組成,然後再組成計算簇。論文中所用的處理平台包括7032個處理器tile。
論文作者針對深度神經網路設計了編譯器,完成網路映射和代碼生成,同時設計了設計空間探索的模擬器平台,可以進行性能和功耗的評估,性能則得益於時鐘精確級的模擬器,功耗評估則從DC中提取模塊的網表級的參數模型。該晶元僅採用了Intel 14nm工藝進行了綜合和性能評估,峰值能效比高達485.7GOPS/W。
國內:百家爭鳴,各自為政
可以說,國內各個單位在人工智慧處理器領域的發展和應用與國外相比依然存在很大的差距。由於我國特殊的環境和市場,國內人工智慧處理器的發展呈現出百花齊放、百家爭鳴的態勢,這些單位的應用領域遍布股票交易、金融、商品推薦、安防、早教機器人以及無人駕駛等眾多領域,催生了大量的人工智慧晶元創業公司,如地平線、深鑒科技、中科寒武紀等。儘管如此,國內起步較早的中科寒武紀卻並未如國外大廠一樣形成市場規模,與其他廠商一樣,存在著各自為政的散裂發展現狀。
除了新興創業公司,國內研究機構如北京大學、清華大學、中國科學院等在人工智慧處理器領域都有深入研究;而其他公司如百度和比特大陸等,2017年也有一些成果發布。
全球AI晶元界首個獨角獸——寒武紀
2017年8月,國內AI晶元初創公司寒武紀宣布已經完成1億美元A輪融資,戰略投資方可謂陣容豪華,阿里巴巴、聯想、科大訊飛等企業均參與投資。而其公司也成為全球AI晶元界首個獨角獸,受到國內外市場廣泛關注。
寒武紀科技主要負責研發生產AI晶元,公司最主要的產品為2016年發布的寒武紀1A處理器(Cambricon-1A),是一款可以深度學習的神經網路專用處理器,面向智能手機、無人機、安防監控、可穿戴設備以及智能駕駛等各類終端設備,在運行主流智能演算法時性能功耗比全面超越傳統處理器。目前已經研發出1A、1H等多種型號。與此同時,寒武紀也推出了面向開發者的寒武紀人工智慧軟體平台 Cambricon NeuWare,包含開發、調試和調優三大部分。
軟硬體協同發展的典範——深鑒科技
深鑒科技的聯合創始人韓松在不同場合曾多次提及軟硬體協同設計對人工智慧處理器的重要性,而其在FPGA領域頂級會議FPGA2017最佳論文ESE硬體架構就是最好的證明。該項工作聚焦於使用 LSTM 進行語音識別的場景,結合深度壓縮(Deep Compression)、專用編譯器以及 ESE 專用處理器架構,在中端的 FPGA 上即可取得比 Pascal Titan X GPU 高 3 倍的性能,並將功耗降低 3.5 倍。
在2017年10月的時候,深鑒科技推出了六款AI產品,分別是人臉檢測識別模組、人臉分析解決方案、視頻結構化解決方案、ARISTOTLE架構平台,深度學習SDK DNNDK、雙目深度視覺套件。而在人工智慧晶元方面,公布了最新的晶元計劃,由深鑒科技自主研發的晶元「聽濤」、「觀海」將於2018年第三季度面市,該晶元採用台積電28nm工藝,亞里士多德架構,峰值性能 3.7 TOPS/W。
對標谷歌TPU——比特大陸算豐
作為比特幣獨角獸的比特大陸,在2015年開始涉足人工智慧領域,其在2017年發布的面向AI應用的張量處理器算豐Sophon BM1680,是繼谷歌TPU之後,全球又一款專門用於張量計算加速的專用晶元(ASIC),適用於CNN / RNN / DNN的訓練和推理。
BM1680單晶元能夠提供2TFlops單精度加速計算能力,晶元由64 NPU構成,特殊設計的NPU調度引擎(Scheduling Engine)可以提供強大的數據吞吐能力,將數據輸入到神經元核心(Neuron Processor Cores)。BM1680採用改進型脈動陣列結構。2018年比特大陸將發布第2代算豐AI晶元BM1682,計算力將有大幅提升。
百家爭鳴——百度、地平線及其他
在2017年的HotChips大會上,百度發布了XPU,這是一款256核、基於FPGA的雲計算加速晶元,用於百度的人工智慧、數據分析、雲計算以及無人駕駛業務。在會上,百度研究員歐陽劍表示,百度設計的晶元架構突出多樣性,著重於計算密集型、基於規則的任務,同時確保效率、性能和靈活性的最大化。
歐陽劍表示:「FPGA是高效的,可以專註於特定計算任務,但缺乏可編程能力。傳統CPU擅長通用計算任務,尤其是基於規則的計算任務,同時非常靈活。GPU瞄準了並行計算,因此有很強大的性能。XPU則關注計算密集型、基於規則的多樣化計算任務,希望提高效率和性能,並帶來類似CPU的靈活性。在2018年百度披露更多關於XPU的相關信息。
2017年12月底,人工智慧初創企業地平線發布了中國首款全球領先的嵌入式人工智慧晶元——面向智能駕駛的征程(Journey)1.0處理器和面向智能攝像頭的旭日(Sunrise)1.0處理器,還有針對智能駕駛、智能城市和智能商業三大應用場景的人工智慧解決方案。「旭日 1.0」和「征程 1.0」是完全由地平線自主研發的人工智慧晶元,具有全球領先的性能。
為了解決應用場景中的問題,地平線將演算法與晶元做了強耦合,用演算法來定義晶元,提升晶元的效率,在高性能的情況下可以保證它的低功耗、低成本。具體晶元參數尚無公開數據。
除了百度和地平線,國內研究機構如中國科學院、北京大學和清華大學也有人工智慧處理器相關的成果發布。
總結——對國產人工智慧晶元的一點愚見
正如前文所述,在人工智慧晶元領域,國外晶元巨頭佔據了絕大部分市場份額,不論是在人才聚集還是公司合併等方面,都具有絕對的領先優勢。而國內人工智慧初創公司則又呈現百家爭鳴、各自為政的紛亂局面;特別是每個初創企業的人工智慧晶元都具有自己獨特的體系結構和軟體開發套件,既無法融入英偉達和谷歌建立的生態圈,又不具備與之抗衡的實力。
國產人工智慧晶元的發展,一如早年間國產通用處理器和操作系統的發展,過份地追求完全獨立、自主可控的怪圈,勢必會如眾多國產晶元一樣逐漸退出歷史舞台。藉助於X86的完整生態,短短一年之內,兆芯推出的國產自主可控x86處理器,以及聯想基於兆芯CPU設計生產的國產計算機、伺服器就獲得全國各地黨政辦公人員的高度認可,並在黨政軍辦公、信息化等國家重點系統和工程中已獲批量應用。
當然,投身於X86的生態圈對於通用桌面處理器和高端伺服器晶元來說無可厚非,畢竟創造一個如Wintel一樣的生態鏈已絕非易事,我們也不可能遇見第二個喬布斯和蘋果公司。而在全新的人工智慧晶元領域,對眾多國產晶元廠商來說,還有很大的發展空間,針對神經網路加速器最重要的就是找到一個具有廣闊前景的應用領域,如華為海思麒麟處理器之於中科寒武紀的NPU;否則還是需要融入一個合適的生態圈。
另外,目前大多數國產人工智慧處理器都針對於神經網路計算進行加速,而能夠提供單晶元解決方案的很少;微控制器領域的發展,ARM的Cortex-A系列和Cortex-M系列佔據主角,但是新興的開源指令集架構RISC-V也不容小覷,完全值得眾多國產晶元廠商關注。
來源:網易有料
GIF
※一周機器人行業重大新聞匯總
※十篇TED點擊率最高演講,帶你重新認識大數據與人工智慧
TAG:機器人大講堂 |