2019年AI晶元產業深度研究報告
摘要:經歷了 60 多年的起起伏伏之後,人工智慧終於迎來了第三次爆發。第三次爆發的核心引爆點是深度學習演算法的出現,但其背後的支撐是數據和算力。
一、人工智慧晶元發展現狀及趨勢
1、深度學習演算法對晶元要求更為苛刻,通用 CPU 性價比相對較差
經歷了 60 多年的起起伏伏之後,人工智慧終於迎來了第三次爆發。第三次爆發的核心引爆點是深度學習演算法的出現,但其背後的支撐是數據和算力。對整個 AI 行業來講,演算法、數據和算力三大基本要素中,數據尤其是海量數據的獲取和處理難度在下降,演算法也在深度學習模型的基礎上不斷優化,而負責將數據和深度演算法統一協調起來的晶元能否獲得大的飛躍,成為市場關注的焦點。
深度學習演算法對晶元性能需求主要表現在三個方面:一、海量數據在計算和存儲單元之間的高速通信需求。這不但需要晶元具備強大的緩存和片上存儲能力,而且還需要計算和存儲單元之間有較大的通信帶寬。二、專用計算能力需求高。深度學習演算法中有大量卷積、殘差網路、全連接等特殊計算需要處理,還需要提升運算速度,降低功耗。三、海量數據自身處理同樣也對晶元提出了新的要求,尤其是非結構化數據的增多,對傳統晶元結構造成了較大的壓力。
通用 CPU 在深度學習中可用但效率較低。比如在圖像處理領域,主要用到的是 CNN(卷積神經網路),在自然語言識別、語音處理等領域,主要用到的是 RNN(循環神經網路),雖然這兩種演算法模型有著較大的區別,但本質上都是向量和矩陣運算,主要是加法和乘法,輔助一些除法和指數運算。傳統 CPU 可用於做上述運算,但是 CPU 還有大量的計算邏輯控制單元,這些單元在 AI 計算中是用不上的,造成了 CPU 在 AI 計算中的性價比較低。
2、GPU、FPGA 以及 ASIC 各有優劣,成為當前 AI 晶元行業的主流
正因為 CPU 在 AI 計算上的弱點,給了可以實現海量並行計算且能夠對進行計算加速的 AI 晶元留下了市場空間。從廣義上講,面向 AI 計算的晶元都可以稱為 AI 晶元,包括基於傳統架構的 GPU、FPGA以及 ASIC(專用晶元),也包括正在研究但離商用還有較大差距的類腦晶元、可重構 AI 晶元等。
雲端訓練晶元市場較為集中,而推理市場雲、邊兩端均有大量企業參與
按照部署位置劃分,AI 晶元可以分為雲端晶元和邊緣端晶元。雲端晶元部署位置包括公有雲、私有雲或者混合雲等基礎設施,主要用於處理海量數據和大規模計算,而且還要能夠支持語音、圖片、視頻等非結構化應用的計算和傳輸,一般情況下都是用多個處理器並行完成相關任務;邊緣端 AI 晶元主要應用於嵌入式、移動終端等領域,如攝像頭、智能手機、邊緣伺服器、工控設備等,此類晶元一般體積小、耗電低,性能要求略低,一般只需具備一兩種 AI 能力。
按照承擔的任務分,AI 晶元可以劃分為訓練晶元和推理晶元。訓練是指通過大量標記過的數據在平台上進行「學習」,並形成具備特定功能的神經網路模型;推理則是利用已經訓練好的模型輸入新數據通過計算得到各種結論。訓練晶元對算力、精度要求非常之高,而且還需要具備一定的通用性,以適應多種演算法的訓練;推理晶元更加註重綜合能力,包括算力能耗、時延、成本等因素。
綜合來看,訓練晶元由於對算力的特殊要求,只適合在雲端部署,而且多採用的是「CPU 加速晶元」類似的異構模式,加速晶元可以是 GPU,也可以是 FPGA 或者是 ASIC 專用晶元。AI 訓練晶元市場集中度高,英偉達和谷歌領先,英特爾和 AMD 正在積極切入。推理在雲端和終端都可進行,市場門檻相對較低,市場參與者較多。雲端推理晶元除了傳統的英偉達、谷歌、賽靈思等晶元大廠外,Groq等國際新興力量也在加入競爭,國內寒武紀、比特大陸也有不錯表現;終端推理晶元市場較為分散,場景各異,參與者除了英偉達、英特爾、ARM 和高通之外,國內企業如寒武紀、地平線、雲知聲、雲天勵飛等在各自細分領域均有所建樹。
GPU 擅長雲端訓練,但需與 CPU 異構、功耗高且推理效率一般
GPU(Graphics Processing Unit)是一種由大量核心組成的大規模並行計算架構,專為同時處理多重任務而設計的晶元。正是由於其具備良好的矩陣計算能力和並行計算優勢,最早被用於 AI 計算,並在雲端獲得大量應用。GPU 中超過 80%部分為運算單元(ALU),而 CPU 僅有 20%,因此 GPU更擅長於大規模並行運算。以英偉達的 GPU TITAN X 為例,該產品在深度學習中所需訓練時間只有CPU 的 1/10 不到。但 GPU 用於雲端訓練也有短板,GPU 需要同 CPU 進行異構,通過 CPU 調用才能工作,而且本身功耗非常高。同時,GPU 在推理方面需要對單項輸入進行處理時,並行計算的優勢未必能夠得到很好的發揮,會出現較多的資源浪費。
CPU與GPU架構對比
FPGA 晶元算力強、靈活度高,但技術難度大國內差距較為明顯
FPGA(Field-Programmable Gate Array)即現場可編程門陣列,該晶元集成了大量的基本門電路以及存儲器,其靈活性介於 CPU、GPU 等通用處理器和專用集成電路 ASIC 之間,在硬體固定之前,允許使用者靈活使用軟體進行編程。FPGA 在出廠時是「萬能晶元」,用戶可根據自身需求,用硬體描述語言對 FPGA 的硬體電路進行設計;每完成一次燒錄,FPGA 內部的硬體電路就有了確定的連接方式,具有了一定的功能;輸入的數據只需要依次經過各個門電路,就可以得到輸出結果。
FPGA 應用於 AI 有以下優勢:
(1)算力強勁。由於 FPGA 可以同時進行數據並行和任務並行計算,在處理特定應用時效果更加明顯,對於某一個特定的運算,FPGA 可以通過編輯重組電路,生成專用電路,大幅壓縮計算周期。從賽靈思推出的 FPGA 產品看,其吞吐量和時延指標都好於 CPU 和 GPU 產品。
(2)功耗優勢明顯。FPGA 能耗比是CPU的10倍以上、GPU的3倍。由於在 FPGA 中沒有取指令與指令解碼操作,沒有這部分功耗;而在複雜指令集(X86)的 CPU 中僅僅解碼就占整個晶元能耗的約 50%,在 GPU 里取指與解碼也會消耗 10%至 20%的能耗。
(3)靈活性好。使用通用處理器或 ASIC 難以實現的下層硬體控制操作技術,利用 FPGA 可以很方便的實現,從而為演算法的功能實現和優化留出了更大空間。
(4)成本相對 ASIC 具備一定優勢。FPGA 一次性成本(光刻掩模製作成本)遠低於 ASIC,在晶元需求還未成規模、深度學習演算法暫未穩定需要不斷迭代改進的情況下,利用具備可重構特性的FPGA 晶元來實現半定製的人工智慧晶元是最佳選擇。
正因為存在上述優勢,FPGA 被廣泛用於 AI 雲端和終端的推理。國外包括亞馬遜、微軟都推出了基於 FPGA 的雲計算服務,而國內包括騰訊雲、阿里雲均在 2017 年推出了基於 FPGA 的服務,百度大腦也使用了 FPGA 晶元。
從市場格局上看,全球 FPGA 長期被 Xilinx(賽靈思)、Intel(英特爾)、Lattice(萊迪思)、Microsemi(美高森美)四大巨頭壟斷。其中,賽靈思和英特爾合計佔到市場的 90%左右,賽靈思的市場份額超過 50%,國內廠商剛剛起步,差距較大。
專用晶元(ASIC)深度學習演算法加速應用增多,可提供更高能效表現和計算效率
ASIC(Application Specific Integrated Circuits),即專用晶元,是一種為特定目的、面向特定用戶需求設計的定製晶元,具備性能更強、體積小、功耗低、可靠性更高等優點。在大規模量產的情況下,還具備成本低的特點。
ASIC 與 GPU、FPGA 不同,GPU、FPGA 除了是一種技術路線之外,還是實實在在的確定產品,而 ASIC 只是一種技術路線或者方案,其呈現出的最終形態與功能也是多種多樣的。近年來,越來越多的公司開始採用 ASIC 晶元進行深度學習演算法加速,其中表現最為突出的 ASIC 就是 Google 的TPU(張量處理晶元)。
TPU 是谷歌為提升 AI 計算能力同時大幅降低功耗而專門設計的晶元。該晶元正式發佈於 2016 年 5月。TPU 之所以稱為 AI 專用晶元,是因為它是專門針對 TensorFlow 等機器學習平台而打造,該晶元可以在相同時間內處理更複雜、更強大的機器學習模型。谷歌通過數據中心測試顯示,TPU 平均比當時的 GPU 或 CPU 快 15-30 倍,性能功耗比(TFOPS/Watt)高出約 30-80 倍。
但是,ASIC 一旦製造完成以後就不能修改了,且研發周期較長、商業應用風險較大,目前只有大企業或背靠大企業的團隊願意投入到它的完整開發中。國外主要是谷歌在主導,國內企業寒武紀開發的 Cambricon 系列處理器也廣泛受到關注。其中,華為海思的麒麟 980 處理器所搭載的 NPU 就是寒武紀的處理器 IP。
3、短期內 GPU 仍將是 AI 晶元主導,長期看三大技術路線將呈現並行態勢
短期內 GPU 仍將主導 AI 晶元市場,FPGA 的使用將更為廣泛
GPU 短期將延續 AI 晶元的領導地位。GPU 作為市場上 AI 計算最成熟、應用最廣泛的通用型晶元,應用潛力較大。憑藉其強大的計算能力、較高的通用性,GPU 將繼續佔領 AI 晶元的主要市場份額。
當前,兩大 GPU 廠商都還在不斷升級架構並推出新品,深度學習性能提升明顯,未來應用的場景將更為豐富。英偉達憑藉著其在矩陣運算上的優勢,率先推出了專為深度學習優化的 Pascal GPU,而且針對 GPU 在深度學習上的短板,2018 年推出了 Volta 架構,正在完成加速-運算-AI 構建的閉環;AMD 針對深度學習,2018 年推出 Radeon Instinct 系列,未來將應用於數據中心、超算等 AI 基礎設施上。我們預計,在效率和場景應用要求大幅提升之前,作為數據中心和大型計算力支撐的主力軍,GPU 仍具有很大的優勢。
FPGA 是短期內 AI 晶元市場上的重要增長點,FPGA 的最大優勢在於可編程帶來的配置靈活性,在當前技術與運用都在快速更迭的時期,FPGA 具有明顯的實用性。企業通過 FPGA 可以有效降低研發調試成本,提高市場響應能力,推出差異化產品。在專業晶元發展得足夠完善之前,FPGA 是最好的過渡產品,正因為如此,科技巨頭紛紛布局雲計算 FPGA 的平台。隨著 FPGA 的開發者生態逐漸豐富,適用的編程語言增加,FPGA 運用會更加廣泛。因此短期內,FPGA 作為兼顧效率和靈活性的硬體選擇仍將是熱點所在。
長期來看 GPU、FPGA 以及 ASIC 三大類技術路線將並存
GPU 主要方向是高級複雜演算法和通用型人工智慧平台。(1)高端複雜演算法實現方向。由於 GPU 本身就具備高性能計算優勢,同時對於指令的邏輯控制上可以做的更複雜,在面向複雜 AI 計算的應用方面具有較大優勢。(2)通用型的人工智慧平台方向。GPU 由於通用性強,性能較高,可以應用於大型人工智慧平台夠高效地完成不同種類的調用需求。
FPGA 未來在垂直行業有著較大的空間。由於在靈活性方面的優勢,FPGA 對於部分市場變化迅速的行業最為實用。同時,FPGA 的高端器件中也可以逐漸增加 DSP、ARM 核等高級模塊,以實現較為複雜的演算法。隨著 FPGA 應用生態的逐步成熟,FPGA 的優勢也會逐漸為更多用戶所認可,並得以廣泛應用。
ASIC 長遠來看非常適用於人工智慧,尤其是應對未來爆發的面嚮應用場景的定製化晶元需求。ASIC的潛力體現在,AI 演算法廠商有望通過演算法嵌入切入該領域,以進入如安防、智能駕駛等場景。由於其具備高性能低消耗的特點,可以基於多個人工智慧演算法進行定製,以應對不同的場景,未來在訓練和推理市場上都有較大空間。
4、國內外 AI 晶元市場需求將保持較快增長勢頭,雲端、邊緣均具備潛力
近年來,伴隨著全球 AI 產業的快速增長,AI 晶元需求大幅上升。按照 Gartner 最新數據,2018 年全球 AI 晶元市場規模達到 42.7 億美元。未來幾年,全球各大晶元企業、互聯網巨頭、初創企業都將在該市場上進行角逐,預計到 2023 年全球市場規模將達到 323 億美元。未來五年(2019-2023年)平均增速約為 50%,其中數據中心、個人終端、物聯網晶元均是增長的重點。
相比之下中金公司研究部公布的一組數據則更為樂觀,該數據顯示,2017年,整體AI晶元市場規模達到62.7億美元,其中雲端訓練AI晶元20.2億美元,雲端推理晶元3.4億美元,邊緣計算AI晶元39.1億美元;到2022年,整體AI晶元市場規模將會達到596.2億美元,CAGR57%,其中雲端訓練AI晶元172.1億美元,CAGR 53.5%,雲端推斷晶元71.9億美元,CAGR 84.1%,邊緣計算AI晶元352.2億美元,CAGR 55.2%。
國內人工智慧晶元行業發展仍處在起步階段。長期以來,我國在 CPU、GPU 和 DSP 設計上一直處於追趕狀態,絕大多數晶元依靠國外的 IP 核進行設計,自主創新能力不足。但我們也看到,國內人工智慧產業的快速發展,也為國內晶元產業實現換道超車創造了機會。由於國內外在晶元生態上並未形成壟斷,國內晶元設計廠商尤其是專用晶元設計廠商,同國外競爭對手還處在同一起跑線上。
目前國內人工智慧晶元市場呈現出百花齊放的態勢。AI 晶元的應用領域廣泛分布在金融證券、商品推薦、安防、消費機器人、智能駕駛、智能家居等眾多領域,催生了大量的人工智慧創業企業,如地平線、深鑒科技、寒武紀、雲知聲、雲天勵飛等。我們認為,未來隨著國內人工智慧市場的快速發展,生態建設的完善,國內 AI 晶元企業將有著更大的發展空間,未來 5 年的市場規模增速將超過全球平均水平。
二、 AI 晶元主要應用場景
1、數據中心(雲端)
數據中心是 AI 訓練晶元應用的最主要場景,主要涉及晶元是 GPU 和專用晶元(ASIC)。如前所述,GPU 在雲端訓練過程中得到廣泛應用。目前,全球主流的硬體平台都在使用英偉達的 GPU 進行加速,AMD 也在積极參与。亞馬遜網路服務 AWS EC2、Google Cloud Engine(GCE)、IBM Softlayer、Hetzner、Paperspace 、LeaderGPU、阿里雲、平安雲等計算平台都使用了英偉達的 GPU 產品提供深度學習演算法訓練服務。
在雲端推理市場上,由於晶元更加貼近應用,市場更多關注的是響應時間,需求也更加的細分。除了主流的 CPU GPU 異構之外,還可通過 CPU FPGA/ASIC 進行異構。目前英偉達在該市場依然保持著領軍位置。主要原因是:GPU強大的並行計算能力(相比CPU)、通用性以及成熟的開發環境。但是GPU也並非是完美無缺的解決方案,明顯的缺點如:高能耗以及高昂的價格。
相比之下,FPGA的低延遲、低功耗、可編程性優勢(適用於感測器數據預處理工作以及小型開發試錯升級迭代階段)和 ASIC 的特定優化和效能優勢(適用於在確定性執行模型)也正在凸顯,賽靈思、谷歌、Wave Computing、Groq、寒武紀、比特大陸等企業市場空間也在擴大。
來自IDC和Gartner的數據也顯示,全球AI伺服器及AI晶元市場規模自2016年到2020年都將保持持續的高速增長,而與此同時全球雲端AI晶元當中GPU的市場份額呈現出持續下滑的趨勢,預計到2022年雲端訓練GPU佔比將降至60%,雲端推理GPU佔比更是只有30%。
2、移動終端
智能手機在經歷了近10年的高速增長後,市場已趨於飽和,出貨增速趨近於0,行業逐漸轉為存量市場。近年來,一批國產廠商在產品質量上逐漸達到了第一梯隊的水平,進一步加劇了頭部市場的競爭。為實現差異化競爭,各廠商加大手機AI功能的開發,通過在手機SoC晶元中加入AI引擎,調配現有計算單元來實現AI計算,或者直接加入AI協處理器,實現在低功耗情況下AI功能的高效運行。
隨著未來競爭進一步加劇,以及產量上升所帶來的成本下降,預計AI晶元將會進一步滲透進入到中等機型市場,市場空間廣闊。移動端AI晶元市場不止於智能手機,潛在市場還包括:智能手環/手錶、VR/AR眼鏡等市場。AI晶元在圖像及語音方面的能力可能會帶來未來人機交互方式的改變並進一步提升顯示屏、攝像頭的能力,有可能在未來改變移動端產品。
以往通過雲數據中心做手機端AI推理任務面臨網路帶寬延遲瓶頸的問題,嚴重影響用戶使用體驗,而CPU適合邏輯運算,但並不適合AI並行運算任務,目前市場上流行在SoC中增加協處理器或專用加速單元來執行AI任務。以智能手機為代表的移動互聯網終端是一個多感測器融合的綜合數據處理平台,AI晶元需要具備通用性,能夠處理多類型任務能力。由於移動終端依靠電池驅動,而受制於電池倉大小和電池能量密度限制,晶元設計在追求算力的同時對功耗有著嚴格的限制,可以開發專用的ASIC晶元或者是使用功耗較低的DSP作為AI處理單元。
目前手機晶元市場存在以下情況:1)、AI應用場景、功能有限;2)、AI晶元廠商一般向SoC廠提供IP並收取授權費,需要AI-IP與整塊SoC進行良好的匹配,而創業公司缺少與SoC廠商合作經驗;3)、傳統手機SoC廠商和IP廠商都在開發自己的AI加速器,傳統IP巨頭可以採取IP打包銷售的方式推廣其AI-IP產品。相比之下新進廠商在成本、功能、產品線、匹配度等都不佔優的情況下很難在該領域存活。新進廠商應加強其軟體方面優勢,並加深與手機廠商合作共同進行手機AI功能開發。
3、自動駕駛
自動駕駛汽車裝備了大量的感測器、攝像頭、雷達、激光雷達等車輛自主運行需要的部件,每秒都會產生大量的數據,對晶元算力有很高的要求, 但受限於時延及可靠性,有關車輛控制的計算不能再依託雲端進行,高算力、快速響應的車輛端人工智慧推理晶元必不可少。
目前,自動駕駛所使用的晶元主要基於 GPU、FPGA 和 ASIC 三條技術路線。但由於自動駕駛演算法仍在快速更迭和進化,因此大多自動駕駛晶元使用 GPU FPGA 的解決方案。未來演算法穩定後,ASIC將成為主流。
根據美國汽車工程師協會(SAE)將自動駕駛按照車輛行駛對於系統依賴程度分為L0~L5六個級別,L0為車輛行駛完全依賴駕駛員操縱,L3級以上系統即可在特定情況下實現駕駛員脫手操作,而L5級則是在全場景下車輛行駛完全實現對系統的依賴。目前商業化乘用車車型中僅有Audi A8、Tesla、凱迪拉克等部分車型可實現L2、3級ADAS。預計在2020年左右,隨著感測器、車載處理器等產品的進一步完善,將會有更多的L3級車型出現。而L4、5級自動駕駛預計將會率先在封閉園區中的商用車平台上實現應用落地,更廣泛的乘用車平台高級別自動駕駛,需要伴隨著技術、政策、基礎設施建設的進一步完善,預計至少在2025年~2030年以後才會出現在一般道路上。
目前汽車電子控制系統是分散式ECU架構,不同的信息娛樂、車身、車輛運動和動力總成系統及其細分功能分別由不同獨立的ECU單元進行獨立控制,部分高檔車型上的ECU數量超過100個。未來隨著汽車進入L3級以上的高級別自動駕駛時代,隨著車載感測器數量及其所產生的數據量劇增,分散式電子系統難以滿足對大量、多元的感測器數據進行高效融合處理,並綜合所有感測器數據做出車輛控制決策等一系列操作需求。要滿足以上功能需求,汽車電子系統由需要向著域控制器(DCU)、多域控制器(MDC)等集中化方向發展,未來,汽車電子操控系統將會進一步向著集中化、軟硬體解耦及平台化方向發展,汽車將會由統一的超算平台對感測器數據進行處理、融合、決策最終實現高級別的自動駕駛功能。
伴隨人工智慧技術在視覺領域的應用,基於視覺技術的自動駕駛方案逐漸變為可能,這需要在傳統行車電腦平台上添加用於視覺演算法處理的AI晶元。自動駕駛汽車計算單元設計需要考慮算力、功耗體積等問題,出於硬體資源最優化應用,往往採取異構計算平台設計方案,及「CPU XPU」(XPU包括:DSP/GPU/FPGA/ASIC),其中可採取DSP用於圖像特徵提取任務、GPU/FPGA/ASIC等計算單元用於目標識別、追蹤任務等,而CPU則會用於定位、決策等邏輯運算任務。
目前最典型的產品如英偉達的DRIVE PX系列及後續的Xavier、Pegasus等。除硬體計算平台外,英偉達為客戶提供配套的軟體平台及開放的上層感測器布局和自定義模塊使得客戶能夠根據自身需要進行二次開發,其還為客戶提供感知、製圖以及行駛策略等解決方案。目前其產品已經被包括ZF、Bosch、Audi、Benz以及Tesla等Tier1s、OEMs廠商及諸多自動駕駛創業公司採用作為其處理器方案所使用。
在全部的邊緣計算場景中,用於自動駕駛的計算晶元設計難度最大,這主要體現在:1)算力要求高, L3級以上自動駕駛需要複數種類的感測器實現感測器冗餘,包括:6~12顆單目攝像頭、3~12台毫米波雷達、5台以內的激光雷達等(不同方案配置側重不同),因此產生的數據量極大( 估計L5級一天可產生數據量4000GB),在車輛高速行駛的情況下系統需要能夠快速對數據進行處理;2)汽車平台同樣是由電池供電,因此對於計算單元功耗有較高的要求,早期計算平台功耗大、產熱也較大,對於系統的續航及穩定性都有較大的印象;3)汽車電子需要滿足ASIL-D車規級電子產品設計標準,而使自動駕駛所需要的中央處理器達到ASIL-D級設計標準難度更大。
目前自動駕駛市場尚處於發展早期,市場環境不夠成熟,但以英偉達、Intel(Mobileye、Altera)等科技巨頭為代表的廠商已經投入巨資在該領域開發出了相關的硬體產品及配套軟體技術。人工智慧晶元創業公司應該加強與OEMs、Tier1或產業聯盟合作為其提供AI晶元 軟體工具鏈的全套解決方案。
AI 晶元用於自動駕駛之後,對傳統的汽車電子市場衝擊較大,傳統的汽車電子巨頭(恩智浦、英飛凌、意法半導體、瑞薩)雖然在自動駕駛晶元市場有所斬獲,但風頭遠不及英特爾、英偉達、高通甚至是特斯拉。國內初創企業如地平線、眼擎科技、寒武紀也都在積极參与。在自動駕駛晶元領域進展最快以及競爭力最強的是英特爾和英偉達,英特爾強在能耗,英偉達則在算力和演算法平台方面優勢明顯。
英特爾進入自動駕駛晶元市場雖然較晚,但通過一系列大手筆收購確立了其在自動駕駛市場上的龍頭地位。2016 年,公司出資 167 億美元收購了 FPGA 龍頭 Altera;2017 年 3 月以 153 億美元天價收購以色列 ADAS 公司 Mobileye,該公司憑藉著 EyeQ 系列晶元佔據了全球 ADAS 70%左右的市場,為英特爾切入自動駕駛市場創造了條件。收購完成之後,英特爾形成了完整的自動駕駛雲到端的算力方案——英特爾凌動/至強 Mobileye EyeQ Altera FPGA。英特爾收購 Mobileye 之後,後者也直接推出了 EyeQ5,支持 L4-L5 自動駕駛,預計在 2020 年量產。
英偉達在汽車AI晶元的競爭中不落下風。英偉達在2015年推出了世界首款車載超級計算機Drive PX,緊接著 2016 年推出 Drive PX2,2018 年推出新一代超級計算機 Drive Xavier,同年,基於雙 Drive Xavier 晶元針對自動駕駛計程車業務的 Drive PX Pegasu 計算平檯面世。2019 CES 上,英偉達推出了全球首款商用 L2 自動駕駛系統 NVIDIA DRIVE AutoPilot。DRIVE AutoPilot 的核心是 Xavier 系統級晶元。該晶元處理器算力高達每秒 30 萬億次,已經投產。
4、安防
安防市場是全球及國內 AI 最為確定以及最大的市場,尤其是 AI 中的圖像識別和視頻處理技術正在全面影響安防產業。其中,在安防產品中,攝像頭、交換機、IPC(網路攝像機)、硬碟刻錄機、各類伺服器等設備都需要晶元,這些晶元也決定了整個安防系統的整體功能、技術指標、能耗以及成本。在安防晶元中,最為關注的還是四類與監控相關的晶元(ISP 晶元、DVR SoC 晶元、IPC SoC晶元、NVR SoC 晶元)。
ISP 晶元(Image Signal Processing,圖像信號處理)主要負責對前端攝像頭所採集的原始圖像信號進行處理;DVR(DigitalVideoRecorder,數字硬碟錄像機)SoC 晶元主要用於模擬音視頻的數字化、編碼壓縮與存儲;IPC (IP Camera,IP 攝像機)SoC 晶元通常集成了嵌入式處理器(CPU)、圖像信號處理(ISP)模塊、視音頻編碼模塊、網路介面模塊等,具備入侵探測、人數統計、車輛逆行、丟包檢測等一些簡單的視頻分析功能;NVR (Network Video Recorder,網路硬碟錄像機) SoC 晶元主要用於視頻數據的分析與存儲,功能相對單一,但由於多與 IPC 聯合使用,市場增長也較快。
通常情況下,安防視頻監控模擬攝像機的核心部件包括一顆圖像感測器和一顆 ISP 晶元,安防視頻監控網路攝像機的核心部件包括一顆圖像感測器和一顆 IPC SoC 晶元。單從國內來看,未來國內視頻監控行業增速仍將保持 12%-15%左右的水平增長,其中網路監控設備增長更為迅速,相關晶元產品需求十分旺盛。
安防 AI 晶元市場上,除了傳統晶元以及安防廠商,還有大量的創業企業在湧入。國外晶元廠商主要有英偉達、英特爾、安霸、TI、索尼、特威、三星、谷歌等;國內廠商主要有海思(華為)、國科微、中星微、北京君正、富瀚微、景嘉微、寒武紀、深鑒科技、雲天勵飛、中科曙光等。英偉達、英特爾等企業憑藉著通用處理器以及物聯網解決方案的優勢,長期與安防巨頭如海康、大華、博世等保持緊密聯繫;國內寒武紀、地平線、雲天勵飛等企業,都有 AI 晶元產品面世,海思本身就有安防攝像機 SoC 晶元,在新加入 AI 模塊之後,競爭力進一步提升。
從安防行業發展的趨勢來看,隨著 5G 和物聯網的快速落地,「雲邊結合」將是行業最大的趨勢,雲端晶元國內企業預計很難有所突破,但是邊緣側尤其是視頻處理相關 AI 晶元還是有較大潛力,國產化替代將加速。但也看到,AI 晶元離在安防領域實現大規模快速落地仍有距離。除了功耗和算力約束外,工程化難度大也是困擾行業的重要因素,尤其是在安防這種產業鏈長而高度碎片化的產業,新技術落地需要長時間的積累與打磨,以及人力資源的不斷投入。
5、智能家居
智能家居近年來也成為人工智慧重要的落地場景。從技術應用上講,人類 90%的信息輸出是通過語音,80%的是通過視覺,智能家居領域應用最多的就是智能語音交互技術。近年來,正是看到語音交互技術與智能家居深度融合的潛力,谷歌、蘋果、微軟均將其作為進入智能家居領域的重要切入口,發布了多款軟硬體平台,如亞馬遜推出的智能音箱設備。國內智能語音龍頭企業科大訊飛較早就切入了該領域,聯合地產商推出了硬體平台魔飛(MORFEI)平台,電視、咖啡機、電燈、空調、熱水器等產品都能通過融入相關平台實現智能化。
當前,無論是智能音箱還是其他智能家居設備,智能功能都是在雲端來實現,但云端存在著語音交互時延的問題,對網路的需求限制了設備的使用空間,而且由此還帶來了數據與隱私危機。為了讓設備使用場景不受局限,用戶體驗更好,端側智能已成為一種趨勢,語音 AI 晶元也隨之切入端側市場。國內主要語音技術公司憑藉自身在語音識別、自然語言處理、語音交互設計等技術上的積累,開始轉型做 AI 語音晶元集成及提供語音交互解決方案,包括雲知聲、出門問問、思必馳以及 Rokid。
市場上主流的 AI 語音晶元,一般都內置了為語音識別而優化的深度神經網路加速方案,以實現語音離線識別。隨著演算法的精進,部分企業的語音識別能力得到了較快提升,尤其是在遠場識別、語音分析和語義理解等方面都取得了重要進展。雲知聲在 2018 年 5 月,推出語音 AI 晶元雨燕,並在研發多模態晶元,以適應物聯網場景,目前公司晶元產品已經廣泛用於智能家電如空調之中;出門問問也在 2018 年推出了 AI 語音晶元模組「問芯」MobvoiA1;Rokid 也發在 2018 年發布了 AI 語音晶元 KAMINO18;思必馳利用其聲紋識別等技術優勢,2019 年初推出基於雙 DSP 架構的語音處理專用晶元 TH1520,具有完整語音交互功能,能實現語音處理、語音識別、語音播報等功能。
由於語音晶元市場過於細碎,需要企業根據場景和商業模式需要設計出晶元產品,這對傳統的通用晶元企業的商業模式是一種顛覆,以致於在 2018 年以前都很少有晶元巨頭進入該領域,這也給了國內語音晶元企業較大的施展空間。而對演算法公司來說,通過進入晶元市場,進而通過解決方案直接面向客戶和應用場景,通過實戰數據來訓練和優化演算法。
6、機器人
機器人是人工智慧行業最早的落地形態,也是現在和將來重要的應用方向。機器人主要包括兩類——製造環境下的工業機器人和非製造環境下的服務機器人。工業機器人主要是面向工業領域的多關節機械手或多自由度機器人。服務機器人則是除工業機器人之外的、用於非製造業並服務於人類的各種先進機器人。
隨著雲物移大智等信息及智能化技術的發展,機器人在某些領域的工作效率高於人類,並在工業和服務場景中得到了大量應用。據國際機器人聯盟統計,2017 年,全球工業機器人產量達到 38.1 萬台,同比增長 30%,預計 2018-2021 年全球工業機器人產量將保持 10%以上增速增長,2021 年產量預計將達到 63.0 萬台。中國是全球最大的工業機器人生產國,2017 年產量達到 13.79 萬台,同比大幅增長 60%。服務機器人主要用於物流、防務、公共服務、醫療等領域,雖然規模不大,但是增長迅速。2017 年全球產量為 10.95 萬台,同比大幅增長 85%。預計 2018 年全球專業服務機器人產量將達到 16.53 萬台,同比增長 32%,2019-2021 年平均增速將保持在 21%左右。
機器人尤其是國內產業規模的快速擴大,將大幅帶動國內機器人相關智能晶元產業的發展。機器人由控制、感測、驅動和電源四大裝置構成,其中控制裝置是機器人的「大腦」,核心是 AI 晶元。機器人晶元需要具備強大的數據計算、自主判斷思考和執行能力,國外廠商如高通、英特爾、英偉達都在積極部署該領域,國內企業目前處於追趕狀態,相關企業包括瑞芯微、珠海全志、炬力等。
三、AI晶元行業產業鏈及商業模式
半導體行業產業鏈長,具有資本和技術壁壘雙高的行業特點
半導體行業產業鏈從上游到下游大體可分為:設計軟體(EDA)、設備、材料(晶圓及耗材)、IC設計、代工、封裝等。
Fabless與IDM廠商負責晶元設計工作,其中IDM廠商是指集成了設計、製造、封裝、銷售等全流程的廠商,一般是一些科技巨頭公司,Fabless廠商相比IDM規模更小,一般只負責晶元設計工作。
分工模式(Fabless-Foundry)的出現主要是由於晶元製程工藝的不斷發展,工藝研發費用及產線投資升級費用大幅上升導致一般晶元廠商難以覆蓋成本,而 Foundry廠商則是統一對Fabless和IDM的委外訂單進行流片,形成規模化生產優勢,保證盈利的同時不斷投資研發新的製程工藝,是摩爾定律的主要推動者。當前在半導體產業鏈中,我國在上游軟體、設備、高端原材料以及代工製造與全球一線廠商差距較大,而在封裝環節擁有長電、華天、通富微等行業前十企業,今年來在IC設計領域也逐漸湧現了以海思為代表的一批優秀企業。
半導體行業商業模式主要可分為:IP授權與流片生產模式
行業主要存在兩種商業模式IP授權和流片模式。其中在IP授權模式中,IP設計公司將自己設計的晶元功能單元,如:CPU、GPU、DSP、NPU等,授權給其他的IC設計公司,如華為海思麒麟970、980晶元獲得了寒武紀NPU的IP授權。被授權方將會向授權方支付一筆授權費來獲得IP,並在最終晶元產品銷售中,以晶元最終售價的1%~3%向授權方支付版稅。授權費用實現IP開發成本的覆蓋,而版稅作為IP設計公司的盈利。但正如手機晶元市場,優質的IP資源往往集中在科技巨頭手中,擁有單一或少量IP的創業公司往往因為自身IP競爭力不足、或是難以提供具有綜合競爭力的完整解決方案而最終落得被收購或退出市場的境地。
流片生產模式雖然前期投入較大,但一款成功的產品將會使公司獲得豐厚的利潤,一般晶元產品定價採取8:20原則,即硬體成本:最終產品售價=8:20。該比率可能會隨廠商對市場話語權不同而上下波動,因此一款成功的晶元銷售毛利應在60%以上。但公司是否能夠最終實現盈利,還需要在毛利中進一步扣除前期研發費用。
晶元設計需要廠商承擔昂貴的EDA費用及高昂的人力成本
晶元整體設計製造流程大體包括:1)IC設計公司進行晶元架構設計,2)將設計完成的晶元「圖紙」文件交由Foundry廠商進行流片,3)裸片將會交由OSAT廠商進行封裝,4)產品銷售。研發費用主要包括:研發團隊人力成本、EDA軟體及IP授權費用及其他場地租金、水電費用等。
其中,人力成本占研發成本主要部分,項目開發效率與資深工程師數量正相關,國內資深晶元設計工程師年薪一般在50~100萬元之間。EDA工具是晶元設計工具,是發展超大型集成電路的基石,EDA工具可有效提升產品良率。目前,該領域被海外廠商高度壟斷,CR3大於70%。EDA廠商主要是通過向IC設計公司進行軟體授權獲取盈利,根據調研,20人的研發團隊設計一款晶元所需要的EDA工具採購費用在100萬美元/年左右(包括EDA和LPDDR等IP購買成本)。英偉達開發Xavier,動用了2000個工程師,開發費用共計20以美金,Xlinix ACAP動用了1500個工程師,開發費用總共10億美金。
晶元設計技術積累 市場洞察力=晶元產品市場推廣成功與否
在IP授權和流片生產兩大類商業模式中,IP授權由於不涉及晶元製造,僅需要考慮研發費用,資金占用相對小、風險較低。流片除前期的研發投入以外,還需要向代工廠支付巨額的代工費用,對資金占用極大,需要晶元銷售達到一定量級才能分攤掉前期巨額投入實現盈利,若期間出現流片失敗(即流片未達設計期望性能指標)或者市場推廣失利等情況,晶元設計廠商需要承擔前期巨額的研發和製造投入、費用損失。晶元單位硬體成本主要包含掩膜、封裝、測試和晶圓成本,並受到製程工藝、產量、晶元面積等多因素的影響。
我們簡要測算16nm製程工藝下,不同產量不同面積的晶元單位成本,可以看出晶元單位硬體成本隨晶元面積、產量上升逐漸下降。因此,一款晶元能否獲得廣大的市場認可,並擁有較長的產品生命周期,實現晶元產品的規模銷售和生產顯著決定了企業的盈虧情況。
四、國內外AI晶元企業融資概況
從2012年開始,英偉達將其GPU產品應用於AI並行運算應用中,人們意識到了AI晶元的巨大潛力,傳統半導體行業巨頭、科技巨頭和眾多創業團隊紛紛加入到該領域的產品研發中來。國內創業公司多成立於15年以後,從2017年開始大量的AI計算晶元產品陸續發布,產品逐步開始實現落地。
傳統的半導體巨頭和科技巨頭也在布局AI晶元領域,除自主研發以外,基於資金優勢通過對外投資收購優質資產及創業團隊等手段加速自身的AI晶元業務發展,典型代表如Intel,大手筆收購了包括Altera、Nervana、Movidius以及Mobileye在內的多家AI晶元企業,阿里巴巴也通過先後投資、收購布局AI晶元的開發。
國內大量的AI晶元創業公司都是在2015-2017年成立,2018年新增企業數量減少。資本方面,受到宏觀經濟影響雖然行業內投融資事件相比2017年同比增長了32%,但行業整體投融資金額驟減,但頭部企業在2018年依然持續獲得投資人青睞,多家企業創造了估值新高。
五、國內外 AI 晶元廠商概覽
1、整體排名
近年來,各類勢力均在發力 AI 晶元,參與者包括傳統晶元設計、IT 廠商、技術公司、互聯網以及初創企業等,產品覆蓋了 CPU、GPU、FPGA 、ASIC 等。在市場調研機構 Compass Intelligence 2018年發布的 AI Chipset Index TOP24 榜單中,前十依然是歐美韓日企業,國內晶元企業如華為海思、聯發科、Imagination(2017 年被中國資本收購)、寒武紀、地平線機器人等企業進入該榜單,其中華為海思排 12 位,寒武紀排 23 位,地平線機器人排 24 位。
2、晶元企業
晶元設計企業依然是當前 AI 晶元市場的主要力量,包括英偉達、英特爾、AMD、高通、三星、恩智浦、博通、華為海思、聯發科、Marvell(美滿)、賽靈思等,另外,還包括不直接參与晶元設計,只做晶元 IP 授權的 ARM 公司。其中,英偉達、英特爾競爭力最為強勁。
英偉達:AI 晶元市場的領導者,計算加速平台廣泛用於數據中心、自動駕駛等場景
英偉達創立於 1993 年,最初的主業為顯卡和主板晶元組。其主板晶元組主要客戶以前是 AMD,但是在 AMD 收購 ATI 推出自研晶元組之後,英偉達在該領域的優勢就蕩然無存。於是,公司全面轉向到 GPU 技術研發,同時進入人工智慧領域。2012 年,公司神經網路技術在其 GPU 產品的支持下取得重大進展,並在計算機視覺、語音識別、自然語言處理等方面得到廣泛應用。
2016 年,全球人工智慧發展加速,英偉達迅速推出了第一個專為深度學習優化的 Pascal GPU。2017年,英偉達又推出了性能相比 Pascal 提升 5 倍的新 GPU 架構 Volta,同時推出神經網路推理加速器TensorRT 3。至此,英偉達完成了算力、AI 構建平台的部署,也理所當然成為這一波人工智慧熱潮的最大受益者和領導者。公司的戰略方向包括人工智慧和自動駕駛。
人工智慧方面,英偉達面向人工智慧的產品有兩類,Tesla 系列 GPU 晶元以及 DGX 訓練伺服器。
Tesla 系列是專門針對 AI 深度學習演算法加速設計 GPU 晶元,DGX 則主要是面向 AI 研究開發人員設計的工作站或者超算系統。2018 年,公司包含這兩款產品的數據中心業務收入大幅增長 52%,其中Tesla V100 的強勁銷售是其收入的主要來源。
自動駕駛方面。英偉達針對自動駕駛等場景,推出了 Tegra 處理器,並提供了自動駕駛相關的工具包。2018 年,基於 Tegra 處理器,英偉達推出了 NVIDIA DRIVE AutoPilot Level 2 ,並贏得了豐田、戴姆勒等車企的自動駕駛訂單。同時,2018 年,公司也正在積極推動 Xavier 自動駕駛晶元的量產。
值得關注的是,英偉達還正在通過投資和併購方式繼續加強在超算或者數據中心方面的業務能力。
2019 年 3 月,英偉達宣稱將斥資 69 億美元收購 Mellanox。Mellanox 是超算互聯技術的早期研發和參與者。通過與 Mellanox 的結合,英偉達將具備優化數據中心網路負載能力的能力,其 GPU 加速解決方案在超算或者數據中心領域的競爭力也將得到顯著提升。
英特爾加速向數字公司轉型,通過併購 生態優勢發力人工智慧
英特爾作為傳統的 CPU 設計製造企業,在傳統 PC、伺服器市場有著絕對的統治力。隨著互聯網時代的到來以及個人電腦市場的飽和,公司也在開始加快向數字公司轉型。尤其在人工智慧興起之後,英特爾憑藉著技術和生態優勢,打造算力平台,形成全棧式解決方案。
英特爾主要產品為 CPU、FPGA 以及相關的晶元模組。雖然 CPU 產品在訓練端的應用效率不及英偉達,但推理端優勢較為明顯。英特爾認為,未來 AI 工作周期中,推理的時長將是訓練時長的 5 倍甚至 10 倍,推理端的晶元需求也會放量。同時,即使是雲端訓練,GPU 也需要同 CPU 進行異構。
目前,英特爾在人工智慧晶元領域主要通過三條路徑:1)通過併購快速積累人工智慧晶元相關的技術和人才,並迅速完成整合。英特爾在收購了 Altera 後,還先後收購了 Nervana、Movidius 與 Mobileye等初創企業。在完成上述一系列併購之後,英特爾設立了 AI 事業群,整合了 Xeon、Xeon Phi、Nervana、Altera、Movidius 等業務和產品,同時將原有的自動駕駛業務板塊併入 Mobileye。2)建立多元的產品線。目前,英特爾正建構滿足高性能、低功耗、低延遲等差異化晶元解決方案,除了 Xeon 外,包括可支持雲端服務 Azure 的 Movidius VPU 與 FPGA。3)通過計算平台等產品,提供強大的整合能力,優化 AI 計算系統的負載,提供整體解決方案。
在英特爾收購的這些企業中,除了前面已經提到的 Altera、Mobileye 之外,Nervana 也非常值得關注。2016 年 8 月,英特爾斥資超過 3.5 億美元收購這家員工人數不超過 50 人的創業公司,但是經過不到三年的成長,這家公司已經成為英特爾 AI 事業部的主體。依託 Nervana,英特爾成功在 2017年 10 月推出了專門針對機器學習的神經網路系列晶元,目前該晶元已經升級至第二代,預計 2019年下半年將正式量產上市,該晶元在雲端上預計能和英偉達的 GPU 產品一較高下。
3、IT 及互聯網企業
AI 興起之後,互聯網及 IT 企業憑藉著在各大應用場景上技術和生態積累,也在積極拓展 AI 相關市場,其中 AI 晶元是部署重點之一。相較而言,互聯網企業憑藉著數據和場景先天優勢,在 AI 演算法和晶元領域優勢更為明顯,如美國谷歌、國內的 BAT。IT 企業如 IBM,在人工智慧領域較早開始研究,2018 年年中曾經推出專門針對深度學習演算法的原型晶元。
谷歌:TPU 晶元已經實現從雲到端,物聯網 TPU Edge 是當前布局重點
谷歌可謂是 AI 晶元行業的一匹黑馬,但是競爭力強勁。谷歌擁有大規模的數據中心,起初同其他廠商的數據中心一樣,都採用 CPU GPU 等異構架構進行計算加速,用來完成圖像識別、語音搜索等計算服務。但是,隨著業務量的快速增長,傳統的異構模式也很難支撐龐大的算力需求,需要探索新的高效計算架構。同時,谷歌也需要通過研發晶元來拓展 AI 平台 TensorFlow 的生態。因此,2016年,Google 正式發布了 TPU 晶元。
從谷歌 TPU 的本質來看,它是一款 ASIC(定製晶元),針對 TensorFlow 進行了特殊優化,因此該產品在其他平台上無法使用。第一代 Cloud TPU 僅用於自家雲端機房,且已對多種 Google 官方雲端服務帶來加速效果,例如 Google 街景圖服務的文字處理、Google 相簿的照片分析、甚至 Google搜尋引擎服務等。Cloud TPU 也在快速改版,2017 年推出第二代,2018 年推出第三代晶元 TPU 3.0。
同時,谷歌對 TPU 的態度也更為開放,之前主要是自用,目前也在對用戶開放租賃業務,但沒有提供給系統商。
除了雲端,谷歌針對邊緣端推理需求快速增長的趨勢,也在開發邊緣 TPU 晶元。2017 年 11 月,Google 推出輕量版的 TensorFlow Lite(某種程度取代此前的 TensorFlow Mobile),使得能耗有限的移動設備也能支持TensorFlow,2018年推出的Edge TPU晶元即是以執行TensorFlow Lite為主,而非 TensorFlow。Edge TPU 性能雖然遠不如 TPU,但功耗及體積大幅縮小,適合物聯網設備採用。
Edge TPU 可以自己運行計算,不需要與多台強大計算機相連,可在感測器或網關設備中與標準晶元或微控制器共同處理 AI 工作。
按照谷歌的規劃,Edge TPU 將提供給系統商,開放程度將進一步提升。如果 Edge TPU 推廣順利,支持的系統夥伴將進一步增多,谷歌將儘快推出下一代 Edge TPU 產品。即使推廣不順利,Google也可能自行推出 Edge 網關、Edge 設備等產品。
阿里巴巴:推出自研神經網路處理晶元,同時加速對 AI 企業投資布局
阿里巴巴作為國內 AI 領域的領軍企業,在底層算力、演算法技術以及應用平台方面都有較強積累。同Google 類似原因,阿里巴巴也在近年來開始開發 AI 晶元,同時加大對相關領域的投資布局。
2017 年,阿里巴巴成立阿里達摩院,研究領域之一就是 AI 晶元技術。2018 年 4 月,阿里達摩院對外宣布正研發一款 Ali-NPU 神經網路晶元,預計將在 2019 年下半年問世。這款晶元將主要應用於圖像視頻分析、機器學習等 AI 推理計算。
阿里巴巴在自研 AI 晶元之前,主要在通過投資的方式布局 AI 晶元領域。目前,寒武紀、深鑒科技、杭州中天微等都有阿里巴巴的入股,其中 2016 年 1 月份還成為了 AI 晶元設計企業杭州中天微的第一大股東。
百度:通過自研、合作以及投資等多種方式布局 AI 晶元
百度作為搜索企業,其對 AI 晶元的需求更為明確。早在 2011 年,百度就在 FPGA 和 GPU 進行了大規模部署,也開始在 FPGA 的基礎上研發 AI 加速器來滿足深度學習運算的需要。此後,百度就不斷通過合作、投資和自研的方式來推進該業務。
1)加強同晶元設計及 IP 企業合作。2017 年 3 月,百度發布了 DuerOS 智慧晶元,並與紫光展銳、ARM、上海漢楓達成戰略合作。這款晶元搭載了對話式人工智慧操作系統,可以賦予設備可對話的能力,能廣泛用於智能玩具、藍牙音箱、智能家居等多種設備。2017 年 8 月,百度又與賽思靈(Xilinx)發布了 XPU,這是一款 256 核、基於 FPGA 的雲計算加速晶元。同在 2017 年,百度同華為達成合作,推動終端 AI 晶元的落地。
2)參與 AI 晶元企業投資。2018 年 2 月 5 日,美國初創公司 Lightelligence 宣布獲得了 1000 萬美元種子輪融資,由百度風投和美國半導體高管財團領投。Lightelligence主要利用基於光學的新技術,來加速人工智慧的工作負載,通過光子電路的新興技術來加速信息處理。
3)自研晶元也正在加速部署。2018 年 7 月,百度正式發布了自研的 AI 晶元「崑崙」,這是當時國內第一款雲端全功能 AI 晶元,其中包含訓練晶元崑崙 818-300,推理晶元崑崙 818-100。崑崙 AI 晶元是基於百度 CPU、GPU、FPGA 的 AI 加速器研發,能夠在 100W 左右的功耗下,提供高達 260 萬億次/秒的運算速度,算力處於業界領先水平。
4、創業企業
寒武紀:同時發力終端和雲端晶元,技術綜合實力較強
寒武紀發源於中科院,是目前全球領先的智能晶元公司,由陳天石、陳雲霽兄弟聯合創辦,團隊成員主要人員構成也來自於中科院,其中還有部分參與龍芯項目的成員。2018 年 6 月公司,公司獲得數億美元投資,此輪融資之後,寒武紀科技估值從上年的 10 億美金大幅上升至 25 億美元。公司是目前國內為數不多的同時具備雲端和終端 AI 晶元設計能力的企業。
公司最早發力的是終端晶元,主要為 1A 系列,包括 1A、1H8 和 1H16,公司通過 IP 授權的模式賦能終端或者晶元設計企業,目前主要合作夥伴包括華為,其中麒麟 970 就採用其 1A 處理器。另外,公司還推出了面向低功耗場景視覺應用的寒武紀 1H8,高性能且擁有廣泛通用性的寒武紀 1H16,以及用於終端人工智慧產品的寒武紀 1M。2018 年 9 月,華為發布的麒麟 980 依然集成了優化版的寒武紀 1H 新一代智能處理器。
公司雲端晶元也取得較大突破。雲端晶元一直是英特爾、英偉達等公司的領地,國內企業很難進入。2018 年 5 月,寒武紀推出算力達到 128Tops 的 MLU 100 雲端智能晶元,可用於訓練和推理。MLU100相比傳統的 GPU 和 CPU 晶元,MLU 晶元擁有顯著的性能功耗比和性能價格比優勢,適用範圍覆蓋了圖像識別、安防監控、智能駕駛等多個重點應用領域。
2019年6月20日,寒武紀正式推出了第二代雲端AI晶元——思元270(MLU270)及板卡產品。思元270採用的是寒武紀自主研發的MLUv02指令集,可支持視覺、語音、自然語言處理以及傳統機器學習等高度多樣化的人工智慧應用,更為視覺應用集成了充裕的視頻和圖像編解碼硬體單元。具體性能指標方面,思元270晶元處理非稀疏深度學習模型的理論峰值性能提升至上一代MLU100的4倍,達到了128TOPS(INT8);同時在定點訓練領域取得關鍵性突破,兼容INT4和INT16運算,理論峰值分別達到256TOPS和64TOPS;支持浮點運算和混合精度運算。
綜合來看,公司在 AI 晶元方面競爭力較強。公司擁有自己的處理器架構和指令集,而且通過硬體神經元虛擬化、開發通用指令集、運用稀疏化處理器架構解決了 ASIC 用於深度學習時存在的雲端算力的挑戰、能效瓶頸、手機端和雲端超大規模計算場景應用問題。
地平線機器人:公司AI晶元和計算平台在嵌入式及智能駕駛領域具備優勢
地平線成立於 2015 年,主要從事邊緣人工智慧晶元和計算平台業務,場景聚焦於智能駕駛和 AIoT邊緣計算。2018 年起,公司逐漸實現產品化落地。2019 年 2 月,公司官方宣布已獲得 6 億美元 B輪融資,SK 中國、SK Hynix 以及數家中國一線汽車集團(與旗下基金)聯合領投。B 輪融資後,地平線估值達 30 億美元。
2017 年 12 月,地平線發布中國首款全球領先的嵌入式人工智慧視覺晶元征程(Journey)系列和旭日(Sunrise)系列。旭日 1.0 處理器面向智能攝像頭等應用場景,具備在前端實現大規模人臉檢測跟蹤、視頻結構化的處理能力,可廣泛用於智慧城市、智慧零售等場景。征程 1.0 處理器面向智能駕駛,具備同時對行人、機動車、非機動車、車道線、交通標誌牌、紅綠燈等多類目標進行精準的實時檢測與識別的處理能力,同時滿足車載嚴苛的環境要求以及不同環境下的視覺感知需求,可用於高性能 L2 級別的高級駕駛輔助系統 ADAS 。
2018 年 2 月,地平線自主研發的高清智能人臉識別網路攝像機,搭載地平線旭日人工智慧晶元,提供基於深度學習演算法的人臉抓拍、特徵抽取、人臉特徵值比對等功能。可以在攝像機端實現人臉庫最大規模為 5 萬的高性能人臉識別功能,適用於智慧城市、智慧零售等多種行業。
2018 年 4 月,公司發布地平線 Matrix1.0 自動駕駛計算平台。目前已經更新到性能更強的升級版本,地平線 Matrix 自動駕駛計算平台結合深度學習感知技術,具備強大的感知計算能力,能夠為 L3 和 L4 級別自動駕駛提供高性能的感知系統。地平線 Matrix 自動駕駛計算平台已向世界頂級Robotaxi 廠商大規模供貨,成功開創了中國自動駕駛晶元產品出海和商業化的先河。
比特大陸:區塊鏈礦機霸主進軍AI領域
比特大陸是全球領先的算力晶元設計企業,其致力於開發高性能、低功耗、全定製的算力晶元,是全球少數幾家掌握最先進7nm製程設計能力並可規模量產7nm晶元的公司之一。
目前,比特大陸的產品主要應用於區塊鏈和人工智慧兩個領域,區塊鏈礦機的市場份額高達74.5%。2017年,比特大陸正式發布了面向人工智慧領域的子品牌——「算豐」,並推出了針對深度學習推理的第一代雲端AI晶元BM1680。2018年3月,比特大陸快速推出了第二代雲端人工智慧晶元BM1682,2018年9月份推出了面向終端的AI晶元產品BM1880,並計劃於2019年推出其第三代雲端AI晶元BM1684。
此外,比特大陸基於其晶元,在雲端還研發了加速卡、伺服器等產品,在終端推出了計算棒、模組、開發板等產品,為不同行業的客戶提供適應多種應用場景的產品。
在項目落地方面,比特大陸基於雲端AI晶元的人臉閘機助力福建618展會與廈門98投洽會成功舉辦,累計通行超過30萬人次,通道表現穩定可靠,狀況良好。在第二屆數字中國峰會安保系統中,搭載比特大陸自研晶元的算豐人工智慧伺服器與海康威視人臉識別演算法相融合,全程應用於峰會安全保障工作,3D人臉軌跡系統為日均6萬餘人次、累計150餘萬張人臉圖片的海量分析提供算力支持。
在合作方面,比特大陸與福建當地企業合資成立福建省算域大數據科技有限公司,負責福州城市大腦的投資、建設與運營,為日後福州AI產業發展建設好基礎設施。比特大陸還作為首批企業加入海淀城市大腦科技產業聯盟,助力海淀「城市大腦」建設,後還與海淀區簽署了圍繞「智能處理晶元應用場景建設」的重大項目合作意向書,推動算力晶元應用落地。此外,公司還與東亞最大的遊戲雲平台優必達( Ubitus )合作,共同建設公司位於日本、台灣的機房,基於「算豐」晶元,公司協助Ubitus共同開發計算機視覺相關的AI功能。
嘉楠科技:轉型AI晶元廠商
作為僅次於比特大陸的全球第二大比特幣礦機廠商,近幾年以來,嘉楠科技也開始積極轉型AI晶元廠商,目前已掌握集AI晶元研發、AI演算法、結構、SoC集成及流程實現一體化等綜合技術,以AI晶元為核心建立AI生態鏈,以生態夥伴需求為依歸,為生態夥伴提供一攬子AI服務方案。
嘉楠科技於2013年發布了全球首款基於ASIC晶元的區塊鏈計算設備,引領行業進入ASIC時代。2015年,嘉楠科技獲清華長三角研究院投資,並作為重點項目被引進至科技重鎮杭州。同年,嘉楠科技成功實現28nm製程工藝晶元的量產,邁出了AI晶元量產的第一步。
嘉楠科技在2016年實現了16nm晶元量產,一舉通過國家高新技術企業認定。並於2017年被正式評定為杭州市高科技獨角獸企業。2018年,嘉楠科技連獲兩項全球重大技術突破,實現量產全球首個基於自研的7nm晶元,以及量產全球首款基於RISC-V 自研商用邊緣智能計算晶元。
2018年9月,嘉楠科技推出了第一代邊緣側AI晶元勘智K210,通過完全自主研發的神經網路加速器IP,同時具備機器視覺和語音識別能力,可以在超低功耗下進行高速卷積神經網路計算。隨後勘智K210很快在無感門禁、智能門鎖、病蟲害防治等領域得到應用。
在項目落地方面,嘉楠科技提供的無感門禁系統已經得到了軟通動力總部大樓(共有集團員工5萬人)的採用,目前已實現每個監控點日均2000次的識別數量。嘉楠科技提供的智能電錶解決方案也被亞洲最大的社區——貴陽南明花果園社區採用,實現了對社區10萬多個傳統電氣表的智能化升級改造,解決傳統人工入戶抄表模式的「高成本、低效率、難入戶」等問題。在治理林業病蟲害的業務場景中,嘉楠與百度、林業大學合作,將搭載8通道高性能麥克風陣列的音頻處理硬體插入樹中,以蟲子嗑咬樹植的聲音為音源,判斷害蟲的位置。同時,還可利用K210晶元的視覺能力,將晶元置入40mm見方的智能盒子,通過圖像分類和檢測的方法判斷視野內是否有害蟲存在。這種視聽綜合判斷的方法有效提升了判斷的效率與精度,在林業、農田都有廣泛的應用場景。同時,該智能盒子不需要外接供電設備,只需要電池供電即可,相比傳統的設備更為輕量化,使用成本更低廉。
在生態合作方面,2019年5月29日,嘉楠聯合百度大腦發布PaddlePi-K210。該產品作為一款AI開發板,尺寸僅為3 X3cm,相當於一個火柴盒大小,具有1Tops的澎湃算力,同時兼具300mw的極低功耗,即使加上攝像頭和屏幕也只有1w的功耗,充分適配邊緣側設備對於極低功耗的業務場景需求。同時,該產品打通PaddlePaddle模型設備端部署解決方案。開發者不需要硬體更改,使用公版模具就可以一直支持用戶做到產品小樣階段,對開發者十分友好。2018年9月21日,嘉楠科技還與天津市西青區人工智慧產業基地簽約AI項目。此次人工智慧產業集中籤約重點項目有平台類、晶元設計、軟體研發類、應用類。涉及智能網聯車、智慧醫療、智慧城市、智能製造多個人工智慧領域。
編輯:芯智訊-浪客劍
綜合自:平安證券、艾瑞諮詢等機構研報及相關網路資料
※紫光展銳攜手愛立信完成2.6GHz頻段上的5G上下行數據連通
※剛剛,富士康發聲明否認撤出大陸傳聞!
TAG:芯智訊 |