「了不起的晶元2」盤點40+公司的深度學習處理器
新智元編譯
Nvidia
GPU
英偉達最新的 GPU NVIDIA TESLA V100 單精度浮點性能達到15 TFlops,在新的 Tensor core 架構達到 120 TFlops,是FP16乘法或FP32累加,或適應ML。
英偉達將8個board包裝在他們的 DGX-1 for 960 Tensor TFlops
Nvidia Volta - 架構看點這篇文章對 Volta 架構做了一些分析
SoC
英偉達提供 NVIDIA DRIVE?PX,這是用於自動駕駛汽車的AI車載計算機和JETSON TX1 / TX2模塊,一個「自動駕駛應用的嵌入式平台」
英偉達的開源DLA
英偉達在GTC2017上宣布 XAVIER DLA 開源。雖然我們現在仍沒有看到有早期的可訪問版本,希望如期在9月份發布。從Nvidia開源深度學習加速器說起這篇文章有更多分析。
AMD
GPU
即將推出的 AMD Radeon Instinct MI25 宣稱 SP16 達到12.3 TFlop,或 FP16 達到 16.6 TFlops。如果你的計算適用Nvidia 的 Tensors,那麼 AMD 可能無法與之抗衡。與 AMD 的 484 GB/s相比,Nvidia的帶寬為900GB/s。
Intel
Nervana
英特爾收購的 Nervana Systems 除了 Nervana Engine ASIC 外還開發 GPU/software 方法。可比性能現在還不清楚。英特爾也計劃通過 Knights Crest 項目整合到Phi平台。NextPlatform 的一篇文章指出Nervana 2017年在28nm上的目標可能是55 TOPS/s。英特爾計劃在12月有一個NervanaCon,所以到時也許會公布第一批成果。
Mobileye EyeQ
Mobileye 目前正在開發第五代SoCEyeQ?5,作為視覺中央計算機執行完全自動駕駛(Level 5)車輛的感測器,將在2020年上路。為了滿足功耗和性能目標,EyeQ?SoC的設計是最先進的VLSI處理技術,第5代降低到7nm FinFET。
Movidius
Movidius VPU 是一個向量處理器陣列。
FPGA
Intel FPGA OpenCL 以及解決方案。
Google TPU
谷歌的TPU在性能上領先GPU,是驅動DeepMind的AlphaGo在圍棋比賽中贏了人類冠軍的硬體。原來的700MHz TPU具有用於8位計算的95 TFlop或16位計算的23TFlop,而僅需40W。這比GPU快得多,但現在比英偉達的V100慢,但不是以每W為基礎比較。新的TPU2被宣稱具有四晶元的TPU,並且可以實現約180 TFlop。每個晶元的性能都翻了一番,達到16位的45 TFlops。你可以看到英偉達的V100正在縮小這一差距。TPU或TPU2都不是開放出售。谷歌正在使其在雲端可用,TPU pod包含64個設備,最高可達11.5 PetaFlop的性能。
其他參考文章:
Xilinx
Xilinx提供「從邊緣到雲」的機器學習推理解決方案,並在他們的白皮書中聲稱自己的FPGA最適用於INT8。
雖然FPGA的性能令人印象深刻,但是供應商的較大晶元長期以來價格較高。找到價格和性能之間的平衡是FPGA的主要挑戰。
微軟FPGA
微軟將賭注放在FPGA,可以看這篇文章:「Microsoft Goes All in for FPGAs to Build Out AI Cloud」。
關於微軟FPGA,《連線》發了一篇很好的特寫:「Microsoft Bets Its Future on a Reprogrammable Computer Chip」
關於 FPGA in cloud,有另一篇挺好的參考文章:Inside the Microsoft FPGA-based configurable cloud
Qualcomm
高通公司圍繞ML已經有一段時間,發布了Zeroth SDK和Snapdragon神經處理引擎。高通在Hexagon DSP使用NPE是非常合理的。
Apple
彭博社的報道稱蘋果要做專用晶元,但沒有透露更多細節。不管晶元是不是被蘋果作為一個重要領域,這有助於蘋果與高通競爭。
Core ML是蘋果目前的機器學習應用程序。
ARM
DynamIQ是ARM給予AI時代的答案,雖然它可能不是革命性的設計,但確實是重要的。
ARM還提供了一個開源的Compute Library,其中包含為Arm Cortex-A系列CPU處理器和Arm Mali系列GPU實現軟體函數的綜合集成。
IBM TrueNorth
TrueNorth 是與 DARPA SyNAPSE 程序一起開發的 IBM 的 Neuromorphic CMOS ASIC。
HiSilicon(華為海思)
華為CEO余承東最近在2017年中國互聯網大會上宣布,華為正在開發AI晶元。
麒麟 for 智能手機
麒麟970可能具有一個嵌入式深度學習加速器。
Mobile Camera SoC
根據 Hi3559A V100ESultra-HD Mobile Camera SoC的簡要數據表,它具有雙核CNN@700 MHz神經網路加速引擎
Cambricon(寒武紀)
寒武紀致力於IP License,晶元服務,Smart Card和智能平台。
Horizon Robotics(地平線機器人)
地平線機器人已公布一個嵌入式人工智慧處理器架構 Brain Processing Unit(BPU)。
Deephi(深鑒科技)
DeePhi Tech在deep compression,編譯工具鏈,深度學習處理單元(DPU)設計,FPGA開發和系統級的優化等方面擁有前沿技術。
Bitmain(比特大陸)
比特大陸正在為AI開發處理器。
Wave Computing
Wave Computing 的Compute Appliance可以在3RU設備上以2.9 PetaOPS/秒的速度運行TensorFlow。
Graphcore
Graphcore在去年年底獲得3000萬美元投資,以支持他們的智能處理單單元(Intelligence Processing Unit,IPU)。
PEZY Computing K.K.
Pezy-SC 和 Pezy-SC2 分別是 Pezy 開發的1024核和2048核處理器。
KnuEdge』s KnuPath
自2006年6月以來,該公司的產品頁面消失了。不知道他們投入1億美元的MIMD架構現在如何。當時該架構被描述為每個ASIC具有256個小型DSP或tDSP核,以及適用於35W envelope 的稀疏矩陣處理的ARM控制器。
更多:Tenstorrent、Cerebras、Thinci、Koniku、Adapteva、Knowm、Mythic、Kalray、Brainchip、Groq、Aimotive、Deep Vision、Deep Scale、REM、Leepmind、Krtkl、TeraDeep、KAIST DNPU、Synopsys Embedded Vision、CEVA XM6、VeriSilicon VIP8000、Cadence P5/P6/C5……
以及所有參考文章鏈接,請參看原文GitHub:https://basicmi.github.io/Deep-Learning-Processor-List/
點擊閱讀原文可查看職位詳情,期待你的加入~
※關於AI,傳統行業CEO必須知道這5件事
※「打怪升級」這是一份為數據科學初學者準備的Kaggle競賽指南
※「從頭開始GAN」Goodfellow開山之作到DCGAN等變體
※「值得收藏的深度學習思維導圖」全面梳理基本概念與11大模型關係
※「IJCAI 2017」最佳學生論文屬華人,領域主席歐美中三分天下
TAG:新智元 |
※最了不起的 10 家設計公司
※2018年最值得關注的11家區塊鏈公司
※融資622億,涉及百餘家公司,風口上的AI晶元今年要起飛?|深度
※膩害了!小米2017狂擲20億元,買了42家公司
※他和雞睡了20年!8000元干起,30年後公司市值超2000億,利潤秒殺500強!
※這家車貸公司賺嗨了!2017年凈利潤26億,不良率0.08%
※到底是什麼樣的公司,可以在10年里虧到1000億美元
※2017年公司管理的十個總結
※低調的它被公認為2018年最值得併購的半導體公司!
※樂視可能是最衰的公司了!虧損高達116.1億元!
※220億!十家樣本拍賣公司去年業績總量增長超10%,耕耘學術、深挖市場是關鍵
※2017年票房500萬以下電影241部!300家外行公司的無效投資
※2018一季度數字營銷公司融資盤點
※2017年VR/AR公司融資額將近20億美元
※8000元的5K屏蘋果一體機體驗分享:公司辦公神器,性價比爆棚!
※YC 2018冬季批次最值得關注的10家公司
※甩掉捷信,這個持牌系消費金融公司2017年凈利潤11.8億元
※全球最賺錢的公司:現金儲備超1630億美元,凈利潤200億美元
※竟是中國公司發行?Steam年度排第13,累計超2.3億美元!
※2017年第四季度蘋果公司賣出800萬塊Apple Watch,可能贏了整個瑞士鐘錶業