柯潔不是輸給了機器人，而是輸給了AI雲工作站

科技 11-04

相信你一定還記得擊敗了李世石和柯潔的谷歌「阿爾法狗」（Alpha Go），那你知道驅動Alpha Go的是什麼嗎？

如果你覺得Alpha Go和人相似，只不過是把人腦換成了晶元，那麼你就大錯特錯了。擊敗李世石的Alpha Go裝有48個谷歌的AI晶元，而這48個晶元不是安裝在Alpha Go身體里，而是在雲端。所以，真正驅動Alpha Go的裝置，看上去是這樣的...

圖片來自網路，版權屬於作者

因此李世石和柯潔不是輸給了「機器人」，而是輸給了裝有AI晶元的雲工作站。

然而近幾年，AI技術的應用場景開始向移動設備轉移，比如汽車上的自動駕駛、手機上的人臉識別等。產業的需求促成了技術的進步，而AI晶元作為產業的根基，必須達到更強的性能、更高的效率、更小的體積，才能完成AI技術從雲端到終端的轉移。

目前，AI晶元的研發方向主要分兩種：一是基於傳統馮·諾依曼架構的FPGA（現場可編程門陣列）和ASIC（專用集成電路）晶元，二是模仿人腦神經元結構設計的類腦晶元。其中FPGA和ASIC晶元不管是研發還是應用，都已經形成一定規模；而類腦晶元雖然還處於研發初期，但具備很大潛力，可能在未來成為行業內的主流。

這兩條發展路線的主要區別在於，前者沿用馮·諾依曼架構，後者採用類腦架構。你看到的每一台電腦，採用的都是馮·諾依曼架構。它的核心思路就是處理器和存儲器要分開，所以才有了CPU（中央處理器）和內存。而類腦架構，顧名思義，模仿人腦神經元結構，因此CPU、內存和通信部件都集成在一起。

接下來小探將為讀者分別介紹兩種架構的簡要發展史、技術特點和代表性產品。

從GPU到FPGA和ASIC晶元

2007年以前，受限於當時演算法和數據等因素，AI對晶元還沒有特彆強烈的需求，通用的CPU晶元即可提供足夠的計算能力。比如現在在讀這篇文章的你，手機或電腦里就有CPU晶元。

之後由於高清視頻和遊戲產業的快速發展，GPU （圖形處理器）晶元取得迅速的發展。因為 GPU 有更多的邏輯運算單元用於處理數據，屬於高並行結構，在處理圖形數據和複雜演算法方面比 CPU 更有優勢，又因為AI深度學習的模型參數多、數據規模大、計算量大，此後一段時間內 GPU 代替了 CPU，成為當時 AI 晶元的主流。

GPU 比 CPU 有更多的邏輯運算單元（ALU）

圖片來自網路，版權屬於作者

然而 GPU 畢竟只是圖形處理器，不是專門用於 AI 深度學習的晶元，自然存在不足，比如在執行AI 應用時，其並行結構的性能無法充分發揮，導致能耗高。

與此同時，AI技術的應用日益增長，在教育、醫療、無人駕駛等領域都能看到 AI 的身影。然而GPU 晶元過高的能耗無法滿足產業的需求，因此取而代之的是 FPGA 晶元，和 ASIC 晶元。

那麼這兩種晶元的技術特點分別是什麼呢？又有什麼代表性的產品呢？

「萬能晶元」 FPGA

FPGA（FIELD-PROGRAMMABLE GATE ARRAY），即「現場可編程門陣列」，是在 PAL、GAL、CPLD 等可編程器件的基礎上進一步發展的產物。

FPGA 可以被理解為「萬能晶元」。用戶通過燒入 FPGA 配置文件，來定義這些門電路以及存儲器之間的連線，用硬體描述語言（HDL）對 FPGA 的硬體電路進行設計。每完成一次燒錄，FPGA內部的硬體電路就有了確定的連接方式，具有了一定的功能，輸入的數據只需要依次經過各個門電路，就可以得到輸出結果。

用大白話說，「萬能晶元」就是你需要它有哪些功能、它就能有哪些功能的晶元。

儘管叫「萬能晶元」，FPGA也不是沒有缺陷。正因為 FPGA 的結構具有較高靈活性，量產中單塊晶元的成本也比 ASIC 晶元高，並且在性能上，FPGA 晶元的速度和能耗相比 ASIC 晶元也做出了妥協。

也就是說，「萬能晶元」雖然是個「多面手」，但它的性能比不上 ASIC 晶元，價格也比 ASIC 晶元更高。

但是在晶元需求還未成規模、深度學習演算法需要不斷迭代改進的情況下，具備可重構特性的FPGA晶元適應性更強。因此用FPGA來實現半定製人工智慧晶元，毫無疑問是保險的選擇。

目前，FPGA 晶元市場被美國廠商 Xilinx 和 Altera 瓜分。據國外媒體 Marketwatch 的統計，前者佔全球市場份額 50%、後者占 35%左右，兩家廠商霸佔了 85% 的市場份額，專利達到 6000 多項，毫無疑問是行業里的兩座大山。

Xilinx 的 FPGA 晶元從低端到高端，分為四個系列，分別是 Spartan、Artix、Kintex、Vertex，晶元工藝也從 45 到 16 納米不等。晶元工藝水平越高，晶元越小。其中 Spartan 和 Artix 主要針對民用市場，應用包括無人駕駛、智能家居等；Kintex 和 Vertex 主要針對軍用市場，應用包括國防、航空航天等。

Xilinx 的 Spartan 系列 FPGA 晶元

圖片來自網路，版權屬於作者

我們再說說 Xilinx 的老對手 Altera。Altera 的主流 FPGA 晶元分為兩大類，一種側重低成本應用，容量中等，性能可以滿足一般的應用需求，如 Cyclone 和 MAX 系列；還有一種側重於高性能應用，容量大，性能能滿足各類高端應用，如Startix和Arria系列。Altera的FPGA晶元主要應用在消費電子、無線通信、軍事航空等領域。

專用集成電路 ASIC

在 AI 產業應用大規模興起之前，使用 FPGA 這類適合併行計算的通用晶元來實現加速，可以避免研發 ASIC 這種定製晶元的高投入和風險。

但就像我們剛才說到的，由於通用晶元的設計初衷並非專門針對深度學習，因此 FPGA 難免存在性能、功耗等方面的瓶頸。隨著人工智慧應用規模的擴大，這類問題將日益突出。換句話說，我們對人工智慧所有的美好設想，都需要晶元追上人工智慧迅速發展的步伐。如果晶元跟不上，就會成為人工智慧發展的瓶頸。

所以，隨著近幾年人工智慧演算法和應用領域的快速發展，以及研發上的成果和工藝上的逐漸成熟，ASIC 晶元正在成為人工智慧計算晶元發展的主流。

ASIC晶元是針對特定需求而定製的專用晶元。雖然犧牲了通用性，但 ASIC 無論是在性能、功耗還是體積上，都比 FPGA 和 GPU 晶元有優勢，特別是在需要晶元同時具備高性能、低功耗、小體積的移動端設備上，比如我們手上的手機。

但是，因為其通用性低，ASIC 晶元的高研發成本也可能會帶來高風險。然而如果考慮市場因素，ASIC晶元其實是行業的發展大趨勢。

為什麼這麼說呢？因為從伺服器、計算機到無人駕駛汽車、無人機，再到智能家居的各類家電，海量的設備需要引入人工智慧計算能力和感知交互能力。出於對實時性的要求，以及訓練數據隱私等考慮，這些能力不可能完全依賴雲端，必須要有本地的軟硬體基礎平台支撐。而 ASIC 晶元高性能、低功耗、小體積的特點恰好能滿足這些需求。

ASIC 晶元市場百家爭鳴

2016 年，英偉達發布了專門用於加速 AI 計算的 Tesla P100 晶元，並且在 2017 年升級為 Tesla V100。在訓練超大型神經網路模型時，Tesla V100 可以為深度學習相關的模型訓練和推斷應用提供高達 125 萬億次每秒的張量計算（張量計算是AI深度學習中最經常用到的計算）。然而在最高性能模式下，Tesla V100的功耗達到了300W，雖然性能強勁，但也毫無疑問是顆「核彈」，因為太費電了。

英偉達 Tesla V100 晶元

圖片來自網路，版權屬於作者

同樣在 2016 年，谷歌發布了加速深度學習的 TPU（Tensor Processing Unit）晶元，並且之後升級為 TPU 2.0 和 TPU 3.0。與英偉達的晶元不同，谷歌的 TPU 晶元設置在雲端，就像文章在Alpha Go 的例子中說的一樣，並且「只租不賣「，服務按小時收費。不過谷歌 TPU 的性能也十分強大，算力達到 180 萬億次每秒，並且功耗只有200w。

谷歌 TPU 晶元

圖片來自網路，版權屬於作者

關於各自 AI 晶元的性能，谷歌 CEO Sundar Pichai 和英偉達CEO 黃仁勛之前還在網上產生過爭論。別看兩位大佬為自家產品撐腰，爭得不可開交，實際上不少網友指出，這兩款產品沒必要「硬做比較」，因為一個是在雲端，一個是在終端。

除了大公司，初創企業也在激烈競爭 ASIC 晶元市場。那麼初創企業在行業中該如何生存呢？對此，AI 晶元初創企業Novumind 的中國區 CEO 周斌告訴小探：創新是初創企業的核心競爭力。

2017 年，NovuMind 推出了第一款自主設計的AI晶元：NovuTensor。這款晶元使用原生張量處理器（Native Tensor Processor）作為內核構架，這種內核架構由 NovuMind 自主研發，並在短短一年內獲得美國專利。除此之外，NovuTensor 晶元採用不同的異構計算模式來應對不同 AI 應用領域的三維張量計算。2018年下半年，Novumind 剛推出了新一代 NovuTensor 晶元，這款晶元在做到 15 萬億次計算每秒的同時，全晶元功耗控制在 15W 左右，效率極高。

Novumind 的 NovuTensor 晶元

儘管 NovuTensor 晶元的紙面算力不如英偉達的晶元，但是其計算延遲和功耗卻低得多，因此適合邊緣端 AI計算，也就是服務於物聯網。雖然大家都在追求高算力，但實際上不是所有晶元都需要高算力的。比如用在手機、智能眼鏡上的晶元，雖然也對算力有一定要求，但更需要的是低能耗，否則你的手機、智能眼鏡等產品，用幾下就沒電了，也是很麻煩的一件事情。並且據 EE Times 的報道，在運行 ResNet-18、ResNet-34、ResNet70、VGG16等業界標準神經網路推理時，NovuTensor 晶元的吞吐量和延遲都要優於英偉達的另一款高端晶元 Xavier。

結合Novumind現階段的成功，我們不難看出：在雲端市場目前被英偉達、谷歌等巨頭公司霸佔，終端應用晶元群雄逐鹿的情形下，專註技術創新，在關鍵指標上大幅領先所有競爭對手，或許是AI晶元初創企業的生存之道

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 科技無處不在 的精彩文章:

※傳東芝內存開始準備IPO事宜最快2年內上市
※專為設計師而生 ThinkPad超大尺寸X1筆記本正式發布

TAG:科技無處不在 |