零基礎看懂全球 AI 晶元:詳解「xPU」
隨著 AI 概念火爆全球,做 AI 晶元的公司也層出不窮。為了讓市場和觀眾能記住自家的產品,各家在晶元命名方面都下了點功夫,既要獨特,又要和公司產品契合,還要朗朗上口,也要容易讓人記住。比較有意思的是,很多家都採用了「xPU」的命名方式。
本文就來盤點一下目前各種「xPU」命名 AI 晶元,以及晶元行業里的各種「xPU」縮寫,供吃瓜群眾消遣,也供後來者起名參考。此外,除了「xPU」命名方式,本文也擴展了一些「xxP」方式的以 Processor 命名的晶元或 IP。此外的此外,拍腦袋拍出了一些 xPU 命名備選方案,用下劃線標示,並歡迎讀者一起來開腦洞。
有心在 AI 晶元發力的公司,趕緊先搶個字母吧。
APU
Accelerated Processing Unit
。目前還沒有 AI 公司將自己的處理器命名為 APU,因為 AMD 早就用過 APU 這個名字了。APU 是 AMD 的一個處理器品牌。AMD 在一顆晶元上集成傳統 CPU 和圖形處理器 GPU,這樣主板上將不再需要北橋,任務可以靈活地在 CPU 和 GPU 間分配。AMD 將這種異構結構稱為加速處理單元,即 APU。Audio Processing Unit
。聲音處理器,顧名思義,處理聲音數據的專用處理器。不多說,生產 APU 的晶元商有好多家。音效卡里都有。BPU
Brain Processing Unit
。地平線機器人(Horizon Robotics)以 BPU 來命名自家的 AI 晶元。地平線是一家成立於 2015 年的 start-up,總部在北京,目標是「嵌入式人工智慧全球領導者」。地平線的晶元未來會直接應用於自己的主要產品中,包括:智能駕駛、智能生活和智能城市。地平線機器人的公司名容易讓人誤解,以為是做「機器人」的,其實不然。地平線做的不是「機器」的部分,是在做「人」的部分,是在做人工智慧的「大腦」,所以,其處理器命名為 BPU。相比於國內外其他 AI 晶元 start-up 公司,地平線的第一代 BPU 走的相對保守的 TSMC 的 40nm 工藝。BPU 已經被地平線申請了註冊商標,其他公司就別打 BPU 的主意了。
Biological Processing Unit
。一個口號「21 世紀是生物學的世紀」忽悠了無數的有志青年跳入了生物領域的大坑。其實,這句話需要這麼理解,生物學的進展會推動 21 世紀其他學科的發展。比如,對人腦神經系統的研究成果就會推動 AI 領域的發展,SNN 結構就是對人腦神經元的模擬。不管怎麼說,隨著時間的推移,坑總會被填平的。不知道生物處理器在什麼時間會有質的發展。Bio-Recognition Processing Unit
。生物特徵識別現在已經不是紙上談兵的事情了。指紋識別已經是近來智能手機的標配,電影里的黑科技虹膜識別也上了手機,聲紋識別可以支付了... 不過,除了指紋識別有專門的 ASIC 晶元外,其他生物識別還基本都是 sensor 加通用 cpu/dsp 的方案。不管怎樣,這些晶元都沒佔用 BPU 或 BRPU 這個寶貴位置。CPU
CPU 就不多說了,也不會有 AI 公司將自己的處理器命名為 CPU 的。不過,CPU 與 AI 處理器並不衝突。
首先,很多公司的 AI 處理器中還是會使用 CPU 做控制調度。比如,wave computing 用的是 Andes 的 CPU core;Mobileye 用了好幾個 MIPS 的 CPU core;國內的某些 AI 晶元公司用的 ARM 的 CPU core。
此外,在現有的移動市場的 AP 中,在 CPU 之外,再集成一兩個 AI 加速器 IP(例如針對視覺應用的 DSP,見 VPU 部分)也是一種趨勢。例如,華為近期就在為其集成了 AI 加速器的麒麟 970 做宣傳。
另外一種趨勢,做高性能計算 CPU 的公司也不甘錯過 AI 的浪潮。例如,
Adapteva
一家做多核 MIMD 結構處理器的公司。2016 年 tapeout 的 Epiphany V 集成有 1024 個核。相對以前的版本,針對 deep learning 和加密增加了特定指令。
kalrayinc
一家做多核並行處理器的公司,有針對數據中心和自動駕駛的解決方案。最近公布了第三代 MPPA 處理器「Coolidge」的計劃,並融資$26 Million。計劃採用 16nm FinFET 工藝,集成 80-160 個 kalray 64-bit core,以及 80-160 個用於機器視覺處理和深度學習計算的協處理器。
DPU
D 是 Deep Learning 的首字母,以 Deep Learning 開頭來命名 AI 晶元是一種很自然的思路。
Deep-Learning Processing Unit
。深度學習處理器。DPU 並不是哪家公司的專屬術語。在學術圈,Deep Learning Processing Unit(或 processor)被經常提及。例如 ISSCC 2017 新增的一個 session 的主題就是 Deep Learning Processor。以 DPU 為目標的公司如下。
Deephi Tech(深鑒)
深鑒是一家位於北京的 start-up,初創團隊有很深的清華背景。深鑒將其開發的基於 FPGA 的神經網路處理器稱為 DPU。到目前為止,深鑒公開發布了兩款 DPU:亞里士多德架構和笛卡爾架構,分別針對 CNN 以及 DNN/RNN。雖然深鑒號稱是做基於 FPGA 的處理器開發,但是從公開渠道可以看到的招聘信息以及非公開的業內交流來看,其做晶元已成事實。
TensTorrent
一家位於 Toronto 的 start-up,研發專為深度學習和智能硬體而設計的高性能處理器,技術人員來自 NVDIA 和 AMD。
Deep Learning Unit
。深度學習單元。Fujitsu(富士通)最近高調宣布了自家的 AI 晶元,命名為 DLU。名字雖然沒什麼創意,但是可以看到 DLU 已經被富士通標了「TM」,雖然 TM 也沒啥用。在其公布的信息里可以看到,DLU 的 ISA 是重新設計的,DLU 的架構中包含眾多小的 DPU(Deep Learning Processing Unit)和幾個大的 master core(控制多個 DPU 和 memory 訪問)。每個 DPU 中又包含了 16 個 DPE(Deep-Learning Processing Element),共 128 個執行單元來執行 SIMD 指令。富士通預計 2018 財年內推出 DLU。Deep Learning Accelerator
。深度學習加速器。NVIDA 宣布將這個 DLA 開源,給業界帶來了不小的波瀾。大家都在猜測開源 DLA 會給其他 AI 公司帶來什麼。參考這篇吧《
從 Nvidia 開源深度學習加速器說起
》
。Dataflow Processing Unit
。數據流處理器。創立於 2010 年的 wave computing 公司將其開發的深度學習加速處理器稱為 Dataflow Processing Unit(DPU),應用於數據中心。Wave 的 DPU 內集成 1024 個 cluster。每個 Cluster 對應一個獨立的全定製版圖,每個 Cluster 內包含 8 個算術單元和 16 個 PE。其中,PE 用非同步邏輯設計實現,沒有時鐘信號,由數據流驅動,這就是其稱為 Dataflow Processor 的緣由。使用 TSMC 16nm FinFET 工藝,DPU die 面積大概 400mm^2,內部單口 sram 至少 24MB,功耗約為 200W,等效頻率可達 10GHz,性能可達 181TOPS。前面寫過一篇他家 DPU 的分析,見傳輸門 AI 晶元|淺析 Yann LeCun 提到的兩款 Dataflow Chip。Digital Signal Processor
。數字信號處理器。晶元行業的人對 DSP 都不陌生,設計 DSP 的公司也很多,TI,Qualcomm,CEVA,Tensilica,ADI,Freescale 等等,都是大公司,此處不多做介紹。相比於 CPU,DSP 通過增加指令並行度來提高數字計算的性能,如 SIMD、VLIW、SuperScalar 等技術。面對 AI 領域新的計算方式(例如 CNN、DNN 等)的挑戰,DSP 公司也在馬不停蹄地改造自己的 DSP,推出支持神經網路計算的晶元系列。在後面 VPU 的部分,會介紹一下針對 Vision 應用的 DSP。和 CPU 一樣,DSP 的技術很長時間以來都掌握在外國公司手裡,國內也不乏兢兢業業在這方向努力的科研院所,如清華大學微電子所的 Lily DSP(VLIW 架構,有獨立的編譯器),以及國防科大的 YHFT-QDSP 和矩陣 2000。但是,也有臭名昭著的「漢芯」。EPU
Emotion Processing Unit
。Emoshape 並不是這兩年才推出 EPU 的,號稱是全球首款情緒合成(emotion synthesis)引擎,可以讓機器人具有情緒。但是,從官方渠道消息看,EPU 本身並不複雜,也不需要做任務量巨大的神經網路計算,是基於 MCU 的晶元。結合應用 API 以及雲端的增強學習演算法,EPU 可以讓機器能夠在情緒上了解它們所讀或所看的內容。結合自然語言生成 (NLG) 及 WaveNet 技術,可以讓機器個性化的表達各種情緒。例如,一部能夠朗讀的 Kindle,其語音將根據所讀的內容充滿不同的情緒狀態。FPU
先說一個最常用的 FPU 縮寫:Floating Point Unit。浮點單元,不多做解釋了。現在高性能的 CPU、DSP、GPU 內都集成了 FPU 做浮點運算。
Force Processing Unit
。原力處理器,助你成為絕地武士。酷!GPU
Graphics Processing Unit
。圖形處理器。GPU 原來最大的需求來自 PC 市場上各類遊戲對圖形處理的需求。但是隨著移動設備的升級,在移動端也逐漸發展起來。
NVIDIA
說起 GPU,毫無疑問現在的老大是 NVIDIA。這家成立於 1993 年的晶元公司一直致力於設計各種 GPU:針對個人和遊戲玩家的 GeForce 系列,針對專業工作站的 Quadro 系列,以及針對伺服器和高性能運算的 Tesla 系列。隨著 AI 的發展,NVIDIA 在 AI 應用方面不斷發力,推出了針對自動駕駛的 DRIVE 系列,以及專為 AI 打造的 VOLTA 架構。特別提一下 VOLTA,今年 5 月份,NVIDIA 發布的 Tesla V100 採用 TSMC 12nm 工藝,面積竟然 815mm^2,號稱相關研發費用高達 30 億美元。得益於在 AI 領域的一家獨大,NVIFIA 的股價在過去一年的時間裡狂漲了 300%。最後,也別忘了 NVIDIA 家還有集成了 GeForce GPU 的 Tegra 系列移動處理器。
AMD
這幾年 NVIDIA 的火爆,都快讓大家忘了 AMD 的存在了。AMD 是晶元行業中非常古老的一家晶元公司,成立於 1969 年,比 NVIDIA 要早很多年。AMD 最出名的 GPU 品牌 Radeon 來自於其 2006 年以 54 億美元收購的 ATI 公司(暴露年齡地說,本人的第一台 PC 的顯卡就是 ATI 的)。本文第一個詞條 APU 就是 AMD 家的產品。AMD 新出的 MI 系列 GPU 將目標對準 AI。
在移動端市場,GPU 被三家公司瓜分,但是也阻止不了新的競爭者殺入。
ARM 家的 Mali
Mali 不是 ARM 的自創 GPU 品牌,來自於 ARM 於 2006 年收購的 Falanx 公司。Falanx 最初的 GPU 是面向 PC 市場的,但是根本就無法參與到 NVIDIA 和 ATI 的競爭中去,於是轉向移動市場;並且 Falanx 最初的 GPU 的名字也不是 Mali,而是 Maliak,為了好記,改為 Mali,來自羅馬尼亞文,意思是 small,而不是我們熟悉的吃蘑菇救公主的超級瑪麗(SuperMALI)。
Imagination 的 PowerVR
主要客戶是蘋果,所以主要精力都在支持蘋果,對其他客戶的支持不足。但是,蘋果突然宣布放棄 PVR 轉為自研,對 Imagination 打擊不小,股價大跌六成。Imagination 現在正在尋求整體出售,土財快追,但是,美國未必批。
Qualcomm 的 Adreno
技術來自於 AMD 收購 ATI 後出售的移動 GPU 品牌 Imageon。有意思的是,名字改自於 ATI 的知名 GPU 品牌 Radeon;
VeriSilicon 的 Vivante
Vivante(圖芯)是一家成立於 2004 年的以做嵌入式 GPU 為主的晶元公司,於 2015 年被 VSI 收購。Vivante 的市場佔有率較低。這裡多加一段小八卦,Vivante 的創始人叫戴偉進,VSI 的創始人叫戴偉民,一句話對這次收購進行總結就是,戴家老大收購了戴家老二。哦,對了,戴家還有一個三妹戴偉立,創立的公司名號更響亮:Marvell。
Samsung 的。。。哦,三星沒有自己的 GPU。作為一個 IDM 巨頭,對於沒有自家的 GPU,三星一直耿耿於懷。三星也宣布要研發自家的移動端 GPU 晶元,不過要等到 2020 年了。
再簡單補充國內的兩家開發 GPU 的公司:
上海兆芯
兆芯是 VIA(威盛)分離出來的。兆芯於 2016 年針對移動端出了一款 GPU 晶元 ZX-2000,名字有點簡單直接。主要技術來源於威盛授權,GPU 核心技術來自收購的美國 S3 Graphics。
長沙景嘉微電子
於 2014 年推出一款 GPU 晶元 JM5400。這是一家有國防科大背景的公司,與龍芯為合作夥伴,晶元主要應用在軍用飛機和神舟飛船上。
Graph Streaming Processor
。圖形流處理器。這是 ThinCI(取意 think-eye)提出的縮寫。ThinCI 是一家致力於打造 deep learning 和 computer vision 晶元的 start-up,由 4 名 Intel 前員工創立於 2010 年,總部在 Sacramento,在印度也有研發人員。ThinCI 的視覺晶元瞄準了自動駕駛應用,投資方有世界頂級汽車零部件供應商公司日本電裝 DENSO。在剛結束的 hotchip 會議上,ThinCI 介紹了他們的 GSP(於是本文作者將 ThinCI 從 VPU 部分移到了這裡),使用了多種結構性技術來實現任務級、線程級、數據級和指令級的並行。GSP 使用 TSMC 28nm HPC+工藝,功耗預計 2.5W。HPU
Holographic Processing Unit
。全息處理器。Microsoft 專為自家 Hololens 應用開發的。第一代 HPU 採用 28nm HPC 工藝,使用了 24 個 Tensilica DSP 並進行了定製化擴展。HPU 支持 5 路 cameras、1 路深度感測器(Depth sensor)和 1 路動作感測器(Motion Sensor)。Microsoft 在最近的 CVPR 2017 上宣布了 HPU2 的一些信息。HPU2 將搭載一顆支持 DNN 的協處理器,專門用於在本地運行各種深度學習。指的一提的是,HPU 是一款為特定應用所打造的晶元,這個做產品的思路可以學習。據說 Microsoft 評測過 Movidius(見 VPU 部分)的晶元,但是覺得無法滿足演算法對性能、功耗和延遲的要求,所有才有了 HPU。IPU
Intelligence Processing Unit
。智能處理器。以 IPU 命名晶元的有兩家公司。
Graphcore
Graphcore 公司的 IPU 是專門針對 graph 的計算而打造的。稍微說說 Graph,Graphcore 認為 Graph 是知識模型及相應演算法的非常自然的表示,所以將 Graph 作為機器智能的基礎表示方法,既適用於神經網路,也適用於貝葉斯網路和馬爾科夫場,以及未來可能出現的新的模型和演算法。Graphcore 的 IPU 一直比較神秘,直到近期才有一些細節的信息發布。比如:16nm,同構多核(>1000)架構,同時支持 training 和 inference,使用大量片上 sram,性能優於 Volta GPU 和 TPU2,預計 2017 年底會有產品發布,等等。多八卦一點,Graphcore 的 CEO 和 CTO 以前創立的做無線通信晶元的公司 Icera 於 2011 年被 Nvidia 收購併於 2015 年關閉。關於 IPU 更細節的描述,可以看唐博士的微信公號的一篇文章,傳輸門:解密又一個 xPU:Graphcore 的 IPU
。
Mythic
另外一家剛融了$9.3 million 的 start-up 公司 Mythic 也提到了 IPU:「Mythic"s intelligence processing unit (IPU) adds best-in-class intelligence to any device」。和現在流行的數字電路平台方案相比,Mythic 號稱可以將功耗降到 1/50。之所以這麼有信心,是因為他們使用的「processing in memory」結構。關於 Processing in Memory,又可以大寫一篇了,這裡就不擴展了。有興趣的,可以 google 一下「UCSB 謝源」,從他的研究開始了解。
Image Cognition Processor
。圖像認知處理器 ICP,加拿大公司 CogniVue 開發的用於視覺處理和圖像認知的 IP。跑個題,CogniVue 一開始是 Freescale 的 IP 供應商,後來於 2015 年被 Freescale 收購以進一步加強 ADAS 晶元的整合開發;隨後,Freescale 又被 NXP 118 億美元拿下;還沒完,高通近 400 億美元吞併了 NXP。現在 NXP 家的 ADAS SOC 晶元 S32V 系列中,就用到了兩個 ICP IP。Image Processing Unit
。圖像處理器。一些 SOC 晶元中將處理靜態圖像的模塊稱為 IPU。但是,IPU 不是一個常用的縮寫,更常見的處理圖像信號的處理器的縮寫為下面的 ISP。Image Signal Processor
。圖像信號處理器。這個話題也不是一個小話題。ISP 的功能,簡單的來說就是處理 camera 等攝像設備的輸出信號,實現降噪、Demosaicing、HDR、色彩管理等功能。以前是各種數碼相機、單反相機中的標配。Canon、Nikon、Sony 等等,你能想到的出數碼相機的公司幾乎都有自己的 ISP。進入手機攝影時代,人們對攝影攝像的要求也越來越高,ISP 必不可少。說回 AI 領域,camera 採集圖像數據,也要先經過 ISP 進行處理之後,再由視覺演算法(運行在 CPU、GPU 或 ASIC 加速器上的)進行分析、識別、分類、追蹤等進一步處理。也許,隨著 AI 技術發展,ISP 的一些操作會直接被 end-2-end 的視覺演算法統一。JPU
請原諒鄙人的辭彙量,沒什麼新奇的想法。。。。
KPU
Knowledge Processing Unit
。嘉楠耘智(canaan)號稱 2017 年將發布自己的 AI 晶元 KPU。嘉楠耘智要在 KPU 單一晶元中集成人工神經網路和高性能處理器,主要提供異構、實時、離線的人工智慧應用服務。這又是一家向 AI 領域擴張的不差錢的礦機公司。作為一家做礦機晶元(自稱是區塊鏈專用晶元)和礦機的公司,嘉楠耘智累計獲得近 3 億元融資,估值近 33 億人民幣。據說嘉楠耘智近期將啟動股改並推進 IPO。另:Knowledge Processing Unit 這個詞並不是嘉楠耘智第一個提出來的,早在 10 年前就已經有論文和書籍講到這個辭彙了。只是,現在嘉楠耘智將 KPU 申請了註冊商標。
LPU
誰給我點靈感?
MPU
Micro Processing Unit
。微處理器。MPU,CPU,MCU,這三個概念差不多,知道就行了。Mind Processing Unit
。意念處理器,聽起來不錯。「解讀腦電波」,「意念交流」,永恆的科幻話題。如果採集大量人類「思考」的腦電波數據,通過深度學習,再加上強大的意念處理器 MPU,不知道能否成為 mind-reader。如果道德倫理上無法接受,先了解一下家裡寵物貓寵物狗的「想法」也是可以的嗎。再進一步,從 mind-reader 發展為 mind-writer,持續升級之後,是不是就可以成為冰與火中的 Skinchanger?Mobile Processing Unit
。移動處理器,似乎沒什麼意思。Motion Processing Unit
。運動處理器。解析人類、動物的肌肉運動?題外話:並不是所有的 xPU 都是處理器,比如有個 MPU,是 Memory Protection Unit 的縮寫,是內存保護單元,是 ARM 核中配備的具有內存區域保護功能的模塊。
NPU
Neural-Network Processing Unit
。與 GPU 類似,神經網路處理器 NPU 已經成為了一個通用名詞,而非某家公司的專用縮寫。由於神經網路計算的類型和計算量與傳統計算的區別,導致在進行 NN 計算的時候,傳統 CPU、DSP 甚至 GPU 都有算力、性能、能效等方面的不足,所以激發了專為 NN 計算而設計 NPU 的需求。這裡羅列幾個以 NPU 名義發布過產品的公司,以及幾個學術圈的神經網路加速器。
中星微電子(Vimicro)
的星光智能一號。中星微於 2016 年搶先發布了「星光智能一號」NPU。但是,這不是一個專為加速 Neural Network 而開發的處理器。業內都知道其內部集成了多個 DSP 核(其稱為 NPU core),通過 SIMD 指令的調度來實現對 CNN、DNN 的支持。以這個邏輯,似乎很多晶元都可以叫 NPU,其他以 DSP 為計算核心的 SOC 晶元的命名和宣傳都相對保守了。
Kneron
這是一家位於 San Diego 的 start-up 公司,針對 IOT 應用領域做 deep learning IP 開發。Kneron 開發的 NPU 實現了 39 層 CNN,28nm 下的功耗為 0.3W,能效 200GFLOPs/W。其主頁上給出的另一個能效數據是 600GOPs/W。此外,Kneron 同時也在 FPGA 開發雲端的硬體 IP。據可靠消息,Kneron 也要在中國大陸建立研發部門了,地點涉及北京、上海、深圳。
VeriSilicon(芯原
)的 VIP8000
。VSI 創立於 2001 年。VSI 於今年 5 月以神經網路處理器 IP 的名義發布了這款代號 VIP8000 的 IP。從其公布的消息「VeriSilicon』s Vivante VIP8000 Neural Network Processor IP Delivers Over 3 Tera MACs Per Second」來看,這款晶元使用的並不是其 DSP core,而是內置了其 2015 年收購的 Vivante 的 GPU core。按照 VSI 的說法,VIP8000 在 16nm FinFET 工藝下的計算力超過 3 TMAC/s,能效高於 1.5 GMAC/s/mW。
DNPU
。Deep Neural-Network Processing Unit。DNPU 來自於 KAIST 在 ISSCC2017 上發表的一篇文章。我把 DNPU 當做是 NPU 的一種別名,畢竟現在業內做的支持神經網路計算的晶元沒有隻支持「非深度」神經網路的。關於 DNPU 可以參考「從 ISSCC Deep Learning 處理器論文到人臉識別產品」。
Eyeriss
。MIT 的神經網路項目,針對 CNN 的進行高能效的計算加速設計。
Thinker
。清華微電子所設計的一款可重構多模態神經計算晶元,可以平衡 CNN 和 RNN 在計算和帶寬之間的資源衝突。
Neural/Neuromorphic Processing Unit
。神經/神經形態處理器。這和上面的神經網路處理器還有所不同。而且,一般也不以「處理器」的名字出現,更多的時候被稱為「神經形態晶元(Neuromorphic Chip)」或者是「類腦晶元(Brain-Inspired Chip)」。這類 AI 晶元不是用 CNN、DNN 等網路形式來做計算,而是以更類似於腦神經組成結構的 SNN(Spiking Neural Network)的形式來進行計算。隨便列幾個,都不是「xPU」的命名方式。
Qualcomm 的 Zeroth
。高通幾年前將 Zeroth 定義為一款 NPU,配合以軟體,可以方便的實現 SNN 的計算。但是,NPU 似乎不見了蹤影,現在只剩下了同名的機器學習引擎 Zeroth SDK。
IBM 的 TrueNorth
。IBM2014 年公布的 TrueNorth。在一顆晶元上集成了 4096 個並行的 core,每個 core 包含了 256 個可編程的神經元 neurons,一共 1 百萬個神經元。每個神經元有 256 個突觸 synapses,共 256 Mlillion。TrueNorth 使用了三星的 28nm 的工藝,共 5.4 billion 個晶體管。
BrainChip 的 SNAP(Spiking Neuron Adaptive Processor)
。已經有了賭場的應用。
GeneralVision 的 CM1K、NM500 chip,以及 NeuroMem IP。
這家公司的 CM1K 晶元有 1k 個神經元,每個神經元對應 256Byte 存儲。雖然無法和強大的 TrueNorth 相提並論,但是已有客戶應用。並且,提供 BrainCard,上面有 FPGA,並且可以直接和 Arduino 以及 Raspberry Pi 連接。
Knowm
這家 start-up 在憶阻器(memristor)技術基礎上做「processing in memory」的 AI 晶元研發。不過,與前面提到的 Mythic(IPU 部分)不同的是,Known 做的是類腦晶元。Knowm 所用的關鍵技術是一種稱為熱力學內存 (kT-RAM) 的 memory,是根據 AHaH 理論 (Anti-Hebbian and Hebbian) 發展而來。
Koniku
成立於 2014 年的 start-up,要利用生物神經元來做計算,"Biological neurons on a chip"。主頁在倒計時,可能要有重要進展公布,期待。
OPU
Optical-Flow Processing Unit
。光流處理器。有需要用專門的晶元來實現光流演算法嗎?不知道,但是,用 ASIC IP 來做加速應該是要的。PPU
Physical Processing Unit
。物理處理器。要先解釋一下物理運算,就知道物理處理器是做什麼的了。物理計算,就是模擬一個物體在真實世界中應該符合的物理定律。具體的說,可以使虛擬世界中的物體運動符合真實世界的物理定律,可以使遊戲中的物體行為更加真實,例如布料模擬、毛髮模擬、碰撞偵測、流體力學模擬等。開發物理計算引擎的公司有那麼幾家,使用 CPU 來完成物理計算,支持多種平台。但是,Ageia 應該是唯一一個使用專用晶元來加速物理計算的公司。Ageia 於 2006 年發布了 PPU 晶元 PhysX,還發布了基於 PPU 的物理加速卡,同時提供 SDK 給遊戲開發者。2008 年被 NVIDIA 收購後,PhysX 加速卡產品被逐漸取消,現在物理計算的加速功能由 NVIDIA 的 GPU 實現,PhysX SDK 被 NVIDIA 重新打造。QPU
Quantum Processing Unit
。量子處理器。量子計算機也是近幾年比較火的研究方向。作者承認在這方面所知甚少。可以關注這家成立於 1999 年的公司 D-Wave System。DWave 大概每兩年可以將其 QPU 上的量子位個數翻倍一次。RPU
Resistive Processing Unit
。阻抗處理單元 RPU。這是 IBM Watson Research Center 的研究人員提出的概念,真的是個處理單元,而不是處理器。RPU 可以同時實現存儲和計算。利用 RPU 陣列,IBM 研究人員可以實現 80TOPS/s/W 的性能。Ray-tracing Processing Unit
。光線追蹤處理器。Ray tracing 是計算機圖形學中的一種渲染演算法,RPU 是為加速其中的數據計算而開發的加速器。現在這些計算都是 GPU 的事情了。SPU
Streaming Processing Unit
。流處理器。流處理器的概念比較早了,是用於處理視頻數據流的單元,一開始出現在顯卡晶元的結構里。可以說,GPU 就是一種流處理器。甚至,還曾經存在過一家名字為「Streaming Processor Inc」的公司,2004 年創立,2009 年,隨著創始人兼董事長被挖去 NVIDIA 當首席科學家,SPI 關閉。Speech-Recognition Processing Unit
。語音識別處理器,SPU 或 SRPU。這個縮寫還沒有公司拿來使用。現在的語音識別和語義理解主要是在雲端實現的,比如科大訊飛。科大訊飛最近推出了一個翻譯機,可以將語音傳回雲端,做實時翻譯,內部硬體沒有去專門了解。和語音識別相關的晶元如下。
啟英泰倫(chipintelli)
於 2015 年 11 月在成都成立。該公司的 CI1006 是一款集成了神經網路加速硬體來做語音識別的晶元,可實現單晶元本地離線大辭彙量識別。
MIT 項目
。今年年初媒體爆過 MIT 的一款黑科技晶元,其實就是 MIT 在 ISSCC2017 上發表的 paper 里的晶元,也是可以實現單晶元離線識別上 k 個單詞。可以參考閱讀「分析一下 MIT 的智能語音識別晶元」
。
雲知聲(UniSound)
。雲知聲是一家專攻智能語音識別技術的公司,成立於 2012 年 6 月,總部在北京。雲知聲剛剛獲得 3 億人民幣戰略投資,其中一部分將用來研發其稍早公布的 AI 晶元計劃,命名「UniOne」。據官方透漏,UniOne 將內置 DNN 處理單元,兼容多麥克風、多操作系統。並且,晶元將以模組的形式提供給客戶,讓客戶直接擁有一整套雲端芯的服務。
Smart Processing Unit
。聰明的處理器,聽起來很 Q。Space Processing Unit
。空間處理器,高大上,有沒有。全景攝像,全息成像,這些還都是處理我們的生活空間。當面對廣闊的太陽系、銀河系這些宇宙空間,是不是需要新的更強大的專用處理器呢?飛向 M31 仙女座星系,對抗黑暗武士,只靠 x86 估計是不行的。TPU
Tensor Processing Unit
。Google 的張量處理器。2016 年 AlphaGo 打敗李世石,2017 年 AlphaGo 打敗柯潔,兩次人工智慧催化事件給晶元行業帶來的衝擊無疑就是 TPU 的出現和解密。Google 在 2017 年 5 月的開發者 I/O 大會上正式公布了 TPU2,又稱 Cloud TPU。相比於 TPU1,TPU2 既可以用於 training,又可以用於 inference。TPU1 使用了脈動陣列的流處理結構,具體的細節可以參考如下的文章「Google TPU 揭密」
。UPU
Universe Processing Unit
。宇宙處理器。和 Space Processing Unit 相比,你更喜歡哪個?VPU
Vision Processing Unit
。視覺處理器 VPU 也有希望成為通用名詞。作為現今最火熱的 AI 應用領域,計算機視覺的發展的確能給用戶帶來前所未有的體驗。為了處理計算機視覺應用中遇到的超大計算量,多家公司正在為此設計專門的 VPU。
Movidius(已被 Intel 收購)
。Movidius 成立於 2006 年,總部位於矽谷的 San Mateo,創始人是兩個愛爾蘭人,所以在愛爾蘭有分部。Movidius 早期做的是將舊電影轉為 3D 電影的業務,後期開始研發應用於 3D 渲染的晶元,並開始應用於計算機視覺應用領域(這說明:1,晶元行業才是高技術含量、高門檻、高價值的行業;2,初創公司要隨著發展調整自己的戰略)。Movidius 開發的 Myriad 系列 VPU 專門為計算機視覺進行優化,可以用於 3D 掃描建模、室內導航、360°全景視頻等更前沿的計算機視覺用途。例如,2014 年,谷歌的 Project Tango 項目用 Myriad 1 幫助打造室內三維地圖;2016 年,大疆的「精靈 4」和「御」都採用了 Movidius 的 Myriad 2 晶元。採用 TSMC 28nm 工藝的 Myriad2 中集成了 12 個向量處理器 SHAVE (Streaming Hybrid Architecture Vector Engine)。按照 Movidius 的說法,SHAVE 是一種混合型流處理器,集成了 GPU、 DSP 和 RISC 的優點,支持 8/16/32 bit 定點和 16/32 bit 浮點計算,而且硬體上支持稀疏數據結構。此外,Myriad2 中有兩個 RISC 核以及 video 硬體加速器。據稱,Myriad2 可以同時處理多個視頻流。
Inuitive
一家以色列公司,提供 3D 圖像和視覺處理方案,用於 AR/VR、無人機等應用場景。Inuitive 的下一代視覺處理器 NU4000 採用 28nm 工藝,選擇使用 CEVA 的 XM4 DSP,並集成了深度學習處理器(自己開發?或者購買 IP?)和深度處理引擎等硬體加速器。
DeepVision
一家總部位於 Palo Alto 的 start-up,為嵌入式設備設計和開發低功耗 VPU,以支持深度學習、CNN 以及傳統的視覺演算法,同時提供實時處理軟體。
Visual Processing Unit
。這裡是 visual,不是 vision。ATI 一開始稱自家顯卡上的晶元為 VPU,後來見賢思齊,都改叫 GPU 了。Video Processing Unit
。視頻處理器。處理動態視頻而不是圖像,例如進行實時編解碼。Vector Processing Unit
。向量處理器。標量處理器、向量處理器、張量處理器,這是以處理器處理的數據類型進行的劃分。現在的 CPU 已經不再是單純的標量處理器,很多 CPU 都集成了向量指令,最典型的就是 SIMD。向量處理器在超級計算機和高性能計算中,扮演著重要角色。基於向量處理器研發 AI 領域的專用晶元,也是很多公司的選項。例如,前面剛提到 Movidius 的 Myriad2 中,就包含了 12 個向量處理器。Vision DSP
。針對 AI 中的計算機視覺應用,各家 DSP 公司都發布了 DSP 的 Vision 系列 IP。簡單羅列如下。
CEVA 的 XM4,最新的 XM6 DSP
。除了可以連接支持自家的硬體加速器 HWA(CEVA Deep Neural Network Hardware Accelerator ),也可以支持第三方開發的 HWA。前面提到的 Inuitive 使用了 XM4。可以參考「處理器 IP 廠商的機器學習方案 - CEVA」
。
Tensilica(2013 年被 Cadence 以 3.8 億美元收購)的 P5、P6,以及最新的 C5 DSP
。一個最大的特色就是可以用 TIE 語言來定製指令。前面微軟的 HPU 中使用他家的 DSP。可以參考「神經網路 DSP 核的一桌麻將終於湊齊了」
。
Synopsys 的 EV5x 和 EV6x 系列 DSP
。可以參考「處理器 IP 廠商的機器學習方案 - Synopsys」
。
Videantis 的 v-MP4 系列
。Videantis 成立於 1997 年,總部位於德國漢諾頓。v-MP4 雖然能做很多機器視覺的任務,但還是傳統 DSP 增強設計,並沒有針對神經網路做特殊設計。
WPU
Wearable Processing Unit
。一家印度公司 Ineda Systems 在 2014 年大肆宣傳了一下他們針對 IOT 市場推出的 WPU 概念,獲得了高通和三星的注資。Ineda Systems 研發的這款「Dhanush WPU」分為四個級別,可適應普通級別到高端級別的可穿戴設備的運算需求,可以讓可穿戴設備的電池達到 30 天的持續續航、減少 10x 倍的能耗。但是,一切似乎在 2015 年戛然而止,沒有了任何消息。只在主頁的最下端有文字顯示,Ineda 將 WPU 申請了註冊商標。有關 WPU 的信息只有大概結構,哦,對了,還有一個美國專利。Wisdom Processing Unit
。智慧處理器。這個 WPU 聽起來比較高大上,拿去用,不謝。不過,有點「腦白金」的味道。XPU
不如乾脆就叫 XPU,X 可以表示未知,一切皆有可能,類似 X Man,X File,SpaceX。
就在這篇快收尾的時候,獲悉在今年的 hotchip 會議上,Baidu 公開了其 FPGA Accelerator 的名字,就叫 XPU。還沒有具體細節可說,拭目以待吧。
YPU
Y?沒想法,需要求助各位讀者了。
ZPU
Zylin CPU
。挪威公司 Zylin 的 CPU 的名字。為了在資源有限的 FPGA 上能擁有一個靈活的微處理器,Zylin 開發了 ZPU。ZPU 是一種 stack machine(堆棧結構機器),指令沒有操作數,代碼量很小,並有 GCC 工具鏈支持,被稱為「The worlds smallest 32 bit CPU with GCC toolchain」。Zylin 在 2008 年將 ZPU 在 opencores 上開源。有組織還將 Arduino 的開發環境進行了修改給 ZPU 用。其他非 xPU 的 AI 晶元
寒武紀科技(Cambricon)
中科院背景的寒武紀並沒有用 xPU 的方式命名自家的處理器。媒體的文章既有稱之為深度學習處理器 DPU 的,也有稱之為神經網路處理器 NPU 的。陳氏兄弟的 DianNao 系列晶元架構連續幾年在各大頂級會議上刷了好幾篇 best paper,為其公司的成立奠定了技術基礎。寒武紀 Cambricon-X 指令集是其一大特色。目前其晶元 IP 已擴大範圍授權集成到手機、安防、可穿戴設備等終端晶元中。據流傳,2016 年就已拿到一億元訂單。在一些特殊領域,寒武紀的晶元將在國內具有絕對的佔有率。最新報道顯示,寒武紀又融了 1 億美元。Intel
Intel 在智能手機晶元市場的失利,讓其痛定思痛,一改當年的猶豫,在 AI 領域的幾個應用方向上接連發了狠招。什麼狠招呢,就是三個字:買,買,買。在數據中心/雲計算方面,167 億美金收購的 Altera,4 億美金收購 Nervana;在移動端的無人機、安防監控等方面,收購 Movidius(未公布收購金額);在 ADAS 方面,153 億美金收購 Mobileye。Movidius 在前面 VPU 部分進行了介紹,這裡補充一下 Nervana 和 Mobileye(基於視覺技術做 ADAS 方案,不是單純的視覺處理器,所以沒寫在 VPU 部分)。Nervana Nervana
成立於 2014 年,總部在 SanDiego,以提供 AI 全棧軟體平台 Nervana Cloud 為主要業務。和硬體扯上關係的是,Nervana Cloud 除了支持 CPU、GPU 甚至 Xeon Phi 等後台硬體外,還提供有自家定製的 Nervana Engine 硬體架構。根據 The Next Platform 的報道「Deep Learning Chip Upstart Takes GPUs to Task」,Nervana Engine 使用 TSMC 28nm 工藝,算力 55 TOPS。報道發布不到 24 小時,就被 Intel 收購了,全部 48 位員工併入 Intel。Intel 以 Nervana Engine 為核心打造了 Crest Family 系列晶元。項目代碼為「Lake Crest」的晶元是第一代 Nervana Engine,「Knights Crest」為第二代。哦,對了,Nervana 的 CEO 在創立 Nervana 之前,在高通負責一個神經形態計算的研究項目,就是上面提到的 Zeroth。Mobileye
一家基於計算機視覺做 ADAS 的以色列公司,成立於 1999 年,總部在耶路撒冷。Mobileye 為自家的 ADAS 系統開發了專用的晶元——EyeQ 系列。2015 年,Tesla 宣布正在使用 Mobileye 的晶元(EyeQ3)和方案。但是,2016 年 7 月,Tesla 和 Mobileye 宣布將終止合作。隨後,Mobile 於 2017 年被 Intel 以$153 億收入囊中,現在是 Intel 的子公司。Mobileye 的 EyeQ4 使用了 28nm SOI 工藝,其中用了 4 個 MIPS 的大 CPU core 做主控和演算法調度以及一個 MIPS 的小 CPU core 做外設控制,集成了 10 個向量處理器(稱為 VMP,Vector Microcode Processor)來做數據運算(有點眼熟,回去看看 Movidius 部分)。Mobileye 的下一代 EyeQ5 將使用 7nm FinFET 工藝,集成 18 個視覺處理器,並且為了達到自動駕駛的 level 5 增加了硬體安全模塊。比特大陸 Bitmain
比特大陸設計的全定製礦機晶元性能優越,讓其大賺特賺。在賣礦機晶元之餘,比特大陸自己也挖挖礦。總之,晶元設計能力非凡、土豪有錢的比特大陸對標 NVIDIA 的高端 GPU 晶元,任性地用 16nm 的工藝開啟了自家的 AI 晶元之路。晶元測試已有月余,據傳功耗 60W 左右,同步在招攬產品、市場人員。最近的推文爆出了這款 AI 晶元的名字:「智子(Sophon)」,來自著名的《三體》,可見野心不小,相信不就即將正式發布。華為&海思
市場期待華為的麒麟 970 已經很長時間了,內置 AI 加速器已成公開的秘密,據傳用了寒武紀的 IP,就等秋季發布會了。還是據傳,海思的 HI3559 中用了自己研發的深度學習加速器。蘋果
蘋果正在研發一款 AI 晶元,內部稱為「蘋果神經引擎」(Apple Neural Engine)。這個消息大家並不驚訝,大家想知道的就是,這個 ANE 會在哪款 iphone 中用上。高通
高通除了維護其基於 Zeroth 的軟體平台,在硬體上也動作不斷。收購 NXP 的同時,據傳高通也一直在和 Yann LeCun 以及 Facebook 的 AI 團隊保持合作,共同開發用於實時推理的新型晶元。還有一些諸如 Leapmind、REM 這樣的 start-up,就不一一列舉。
結束語
AI 晶元,百家爭鳴,機遇伴隨挑戰,今天你爭我奪,明天就可能併購。隨著這些「xPU」的不斷推陳出新,26 個字母使用殆盡。但是,換個角度,其實也沒關係,索性起個獨特的名字。或者,搶先布局「processing in memory」路線,先佔個「xxxRAM」或「xxxMem」名字。
更多詳細內容,請點擊閱讀原文去往知乎專欄閱讀。
※蘋果正式發出邀請函:9 月 12 日召開新品發布會;聚美優品回應股東質疑:投資電視劇和街電是突圍之舉 | 極客早知道
※一年之內,無人機送快速可能會像共享單車一樣常見
※肯德基開了家能刷臉吃飯的餐廳,這背後還有哪些秘密?
※肯德基開了家靠刷臉的餐廳,這背後還有哪些秘密?
TAG:極客公園 |