中國如何在 AI 晶元實現彎道超車？

知識 07-23

中國如何在 AI 晶元實現彎道超車？

作者 | 元宵大師

責編 | 胡巍巍

出品 | CSDN（ID：CSDNnews）

經過長期的發展和探索，在近幾年人工智慧不斷取得突破性的進展，無論是人臉識別、語音識別、機器翻譯、視頻監控，還是交通規劃、無人駕駛、智能陪伴、輿情監控、智慧農業等，人工智慧似乎涵蓋了人類生產生活的方方面面。未來是人工智慧的時代，作為實現人工智慧技術的重要基石，AI智能晶元擁有巨大的產業價值和戰略地位。

AI智能晶元其實是屬於高端晶元的一類，近兩年在中美貿易爭端的背景下，我國的晶元產業被頻頻「點穴」，這也讓我們開始重視晶元的發展。別看一塊小小的晶元，內部集成數以億計的電路，廣泛用於電腦、手機、家電、汽車、高鐵、電網、醫療儀器、機器人、工業控制等各種電子產品和系統，它是各國競相角逐的「國之重器」,也是一個國家高端製造能力的綜合體現。如果沒有晶元，中國的許多高端行業的發展均會收到限制，這也是美國要「圍堵」我們的重要原因。

縱觀晶元的歷史，雖然我國長期處於追趕態勢，但與發達國家差距仍然非常大。晶元到底是什麼？又是如何一步一步發展到AI智能晶元的程度的？本文以晶元到AI智能晶元的發展歷史為軌跡，來了解下AI智能晶元的「前世今生」。

中國如何在 AI 晶元實現彎道超車？

概述晶元的起源史

我們看到的小小晶元，卻演繹著這個世界尖端的科技，它遍布了消費電子、汽車電子、工業自動化、金融系統、國防軍工等各個領域，為各行各業實現信息化、智能化奠定了基礎，晶元的發展正在改變著這個世界。

關於晶元的發展可以追溯到晶體管的誕生。在1947年，科學家威廉·肖克利、約翰·巴頓和沃特·布拉頓三人在美國貝爾實驗室發明了全球第一個晶體管，他們也因此共同榮獲了1956年諾貝爾物理學獎。在這之前人類已經發明了電子管，在1942使用了17468隻電子管、7200隻電阻、10000隻電容、50萬條線，耗電量150千瓦製造了第一台計算機，這是一個佔地150平方米、重達30噸的龐然大物。如果可以把這些分立器件和線路集中製作在一塊介質基片上，可以大大縮小體積，提高可靠性，這就是初期集成電路的構想。晶體管的出現使這種想法成為了可能，它替代了真空管的功能，很快為電子計算機所用，它把電子管做的計算機縮小為幾個機櫃。

1958年，在德州儀器（Texas Instruments，TI）就職的傑克·基爾比以鍺（Ge）襯底，將幾個晶體管、電阻、電容連接在一起，成功研製出世界上第一塊集成電路。雖然看起來並不美觀，但事實證明，其工作效能要比使用離散的部件要高得多。時隔42年之後傑克·基爾比也因此榮獲諾貝爾物理學獎。在傑克·基爾發明基於鍺的集成電路後的幾個月，羅伯特·諾伊斯相繼發明了基於硅（Si）的集成電路，當今半導體大多數應用的就是基於硅的集成電路。

集成電路的產生使得所有元件在結構上已組成一個整體，使電子元件向著微小型化、低功耗、智能化和高可靠性方面邁進了一大步。晶元即是將集成電路製作在一小塊半導體晶片上，然後封裝在一個管殼內，成為具有所需電路功能的微型結構。

如今隨著工藝的不斷發展，晶元的集成度越來越高，按照戈登·摩爾1965年提出的摩爾定律的發展趨勢——一個晶元上的晶體管數量大約每18-24個月翻一倍，製程從0.5微米、0.35微米、0.25微米、0.18微米、0.15微米、0.13微米、90納米、65納米、45納米、32納米、28納米、22納米、14納米，一直發展到現在的10納米、7納米、5納米……近幾年，業界開始面臨著摩爾定律失效的問題，因為隨著矽片上線路密度的增加，其複雜性和差錯率也將呈指數增長，科學家們正在思考從其他途徑來維持摩爾定律的發展趨勢。

中國如何在 AI 晶元實現彎道超車？

處理器晶元的發展史

形形色色晶元種類繁多，但不外乎模擬晶元和數字晶元。模擬晶元用於測量模擬世界的一切感知，比如圖像、聲音、觸感、溫度、濕度等都可以歸到其中。數字晶元則包含處理器（CPU、GPU、MCU、DSP等）、存儲器（DRAM、NAND Flash、NOR Flash）和邏輯IC（手機基帶、乙太網晶元）等等。

在電子信息技術快速發展的今天，我們的身邊離不開PC、手機、平板、數碼相機、汽車電子、家用電器，這些電子產品之所以能夠與人交互，是因為它們的內部都使用到了一種晶元——處理器。在不同的應用場景下誕生了各種類型的處理器，它們有不同的運算速度、不一樣的成本、不一樣的架構、不一樣的功能。讓我們打開時間長廊了解當前最熱門的幾類處理器的發展歷史。

CPU（Central Processing Unit）是大家最不陌生的，我們現在所認識的CPU是一塊超大規模的集成電路，在對計算性能要求較高的PC和伺服器中廣泛應用。但是CPU的發展並不是一觸而就的，簡單來說可以映射為Intel公司的發展歷史。

1968年7月，羅伯特·諾伊斯和戈登·摩爾從Fairchild Semiconductor（仙童半導體/飛兆半導體）公司辭職，在矽谷創辦了Intel（英特爾）公司，Intel為源自Integrated Electronics（集成電子）的縮寫，分別選取了Integrated的「Int」以及Electronics中的「el」。當時戈登·摩爾是Fairchild的研發負責人，也正是著名的摩爾定律奠定者，而羅伯特·諾伊斯更是領袖級的人物，被視為「矽谷之父」。從此偉大的Intel開啟了PC市場的輝煌，在這50年的處理器發展史上，Intel啟到了至關重要的推動作用。

Intel的第一款處理器是於1971年開發的4位微處理器4004，它片內只集成了2250個晶體管，晶體管之間的距離是10微米，只能執行4位運算，組頻只有0.74MHz。當時是一家日本計算器公司找Intel定製設計微處理器系統用於公司的列印式計算器產品上，Intel把4004作為CPU，組合RAM晶元4001、ROM晶元4002以及寄存器晶元4003，推出了MCS-4世界上首個商用微處理器系統。由於Intel交付延期的原因，退還了該公司部分費用，但是達成了可以在計算器之外的市場自由出售4004晶元的協議，這是具有劃時代的意義的，自此Intel正式進軍處理器市場，從4004開始不斷壯大。

1972年推出8008，處理能力是4004的兩倍，可處理8位數據、組頻2MHz，集成晶體管的數量達到3500個。

1974年推出8080，不但具備更複雜的指令集，還採用了40針封裝，兩項革新極大的改變了微處理器行業。

1978年推出8086，可處理16位數據、組頻5MHz，這就是首顆x86晶元。IBM在自己首台PC中採用了8086的精簡版8088，而這台PC被尊為PC之父。

之後相繼推出了80286、80386、80486，直到1993年推出Pentium處理器，從此Intel不再以數字命名處理器。Pentium是x86系列一大革新，它採用了0.60微米製造工藝技術，晶體管數大幅提高到320萬個，增強了浮點運算功能、並把十年未變的工作電壓降至3.3V，性能達到了工作站處理器的水平。

隨後十年里，Intel又推出了很多代的Pentium處理器，到現在大家普遍使用的CPU已經發展為core系列i3i5i7，Intel在不斷地技術創新中推動著處理器的革新升級，從微米到納米製程、從4位到64位處理、從幾千個晶體管到幾億個、從幾百K到幾G的組頻……為世界各地的用戶帶來更加精彩的體驗。

如同每台PC都有一個作為大腦的CPU在指揮一樣，在工業控制器、醫療儀器、家用電器、攜帶型設備中也都有一個「大腦」在擔負著控制、運算、信號轉換及處理、通信等工作。在PC中僅僅一個CPU是不夠的，還需要內存、硬碟等外設的協作，這使得PC的體積很大。其中的原因是一個晶元單位面積的門電路數量是有限的，為了滿足高性能只能把晶元內所有的晶體管都設計為CPU。當我們為了追求更小體積而允許犧牲性能時，就可以將CPU、存儲器、I/O……集成在一個晶元上，這樣減小了系統的尺寸，降低設備的成本，這類處理器就發展成了MCU（Microcontroller Unit）。MCU正適合在消費電子、工業控制、汽車電子、消費電子等領域廣泛應用。

MCU經過不斷地研究和發展，歷經了從4位、8位、16位到現在32位的發展歷史。不過早期的MCU發展仍然是以Intel設計的4位、8位、16位微處理器為軌跡，直到ARM處理器的橫空出現。

1978年，由奧地利籍物理學博士赫爾曼·豪澤（Hermann Hauser）和他的一個朋友，名叫Chris Curry的工程師，在英國劍橋創辦了CPU公司（Cambridge Processing Unit），主要業務是在當地市場設計和製造電子設備，他們的第一代產品Acorn System 1居然是做賭博機的微控制器系統。

隨著公司經營逐漸步入正軌後，在1979年，CPU公司改名為Acorn Computer Ltd（Acorn計算機公司）。Acorn公司的機遇來自於1981年的一個項目，當時英國政府與英國廣播公司BBC展開了一個計劃，他們計劃在整個英國播放一套提高電腦普及水平的節目，並且政府會出資一半費用為英國的每一間教室購置一台電腦，他們希望Acorn公司能生產一款與之相配套的電腦。

這對Acorn公司是一個難得的機遇，同時也是一個巨大的挑戰，因為他們在選擇CPU時陷入了困境。當時，CPU的發展潮流正在從8位變成16位，起先Acorn公司打算使用美國國家半導體或者摩托羅拉公司的16位晶元，但是評估後發現晶元執行速度太慢，售價也太貴。於是轉而向Intel尋求合作，希望對方提供關於80286處理器的設計資料和一些樣品，但是遭到了Intel的拒絕，備受打擊的Acorn公司決定自主研發晶元。

當時來自劍橋大學的計算機科學家Sophie Wilson和Steve Furber晶元研發負責人，前者主攻指令集開發，後者負責晶元設計。他們採用了美國加州大學伯克利分校的David Patterson教授在1979年提出了RISC指令集架構，這恰好可以滿足他們的需求。

RISC（reduced instruction set computer）簡化的指令集是相對於Intel在內的處理器所採用的CISC（complex instruction set computer）複雜指令集的一個概念。隨著CISC指令集的發展，有越來越多的指令加入其中，但實際上整個程序的80％只使用了約20％的指令，剩餘20％的程序卻使用了80％的指令。David Patterson教授主張硬體應該專心加速常用的指令，較為複雜的指令則利用常用的指令去組合。這樣一來RISC精簡了CISC指令種類和格式，簡化定址方式，達到省電高效的效果。

在1985年Acorn推出了他們自己的第一代32位、6MHz的處理器ARM1（Acorn RISC Machine），對標的是Intel的80286處理器，不過就在同一年，Intel發布了80386使得ARM1完全處於劣勢地位。由於ARM採用了RISC精簡指令集，所以功耗小、價格便宜，特別合適移動設備，正好可以選擇與Intel不同的設計路線——Intel持續邁向x86高效能設計，ARM則專註於低成本、低功耗的研發方向。

之後Acorn陸續推出了ARM2、ARM3等幾個系列。由於適合於移動設備，因此在1990年，Acorn與蘋果一起成立了一家ARM（Advanced RISC Machines）公司，蘋果投了150萬英鎊，晶元廠商VLSI投了25萬英鎊，Acorn本身以150萬英鎊的知識產權和12名工程師入股。此時ARM做出了一個改變產品策略的決定——不再生產晶元，而以授權的方式，將晶元設計方案轉讓給其他公司，收取一次性技術授權費用和版稅提成。正是這種模式，開創了屬於ARM的全新時代，形成了一個以ARM為核心的生態圈。

1991年，ARM將產品授權給英國GEC Plessey半導體公司。1993年，ARM將產品授權給Cirrus Logic和德州儀器（Texas Instruments，TI）。此後，包括三星、夏普等公司都參與到了這種授權模式中，與ARM建立了合作關係，到目前為止ARM合作社區包含了1200多位夥伴。

ARM的真正爆發還是得益於移動手機的爆發，特別是Iphone的熱銷，於是全球移動應用都徹底綁定在ARM指令集上，除了蘋果應用外，谷歌推出了Android系統，也是基於ARM指令集，就連intel的聯盟微軟公司，也宣布Windows8平台將支持ARM架構，這使ARM在移動設備市場的份額超過90%。

當前ARM處理器家族成員以Cortex命名，分別為Cortex-A、Cortex-R、Cortex-M，它們在特性上針對於不同的應用場景。Cortex-A針對智能手機、平板電腦這類消費娛樂產品，Cortex-R面向如汽車制動系統、動力傳動這類解決方案，Cortex-M系列面向針對成本和功耗敏感的微控制器領域應用。

可見ARM和是Intel截然相反的戰略路線，Intel一直以來堅持全產業鏈商業模式，而ARM是開放的合作共贏模式，無論如何他們都是當今處理器領域的巨人。

從CPU發展出來處理器除了MCU之外，另外比較熱門有DSP（Digital Signal Processing/Processor）數字信號處理和FPGA（Field－Programmable Gate Array）現場可編程門陣列。

DSP主要應用於數字信號處理這門新興的學科技術。在DSP出現之前數字信號處理是依靠微處理器來完成的，隨著越來越龐大信息量，微處理器無法滿足快速傅立葉變換、數字濾波、矩陣運算等需要大量乘加法運算參與的高速信號處理，於是迫切的需要一類快速處理數字信號的處理器晶元。

1979年美國Intel公司發布的商用可編程器件2920是DSP晶元的一個主要里程碑，不過內部並沒有現代DSP晶元所必須有的單周期乘法器。在1980年，日本NEC公司推出的mPD7720是第一個具有硬體乘法器的商用DSP晶元，從而被認為是第一塊單片DSP。

隨著大規模集成電路技術和半導體技術的發展，DSP朝著高速度、低功耗、功能強大等方向快速提高，推動著數字信號處理技術在各個研究領域中廣泛的應用。美國德州儀器公司（Texas Instruments，TI）在1982年推出TMS32010及其系列產品，運算速度已經比微處理器快了幾十倍，到目前無論是運算速度、存儲容量，還是系統集成度都已經有了質的飛躍，不僅在通信、計算機領域大顯身手，而且逐漸滲透到人們的日常生活領域。

FPGA主要針對於定製專用集成電路（ASIC）的應用。早期設計師希望ASIC的設計周期儘可能短，最好是在實驗室里設計出合適的晶元，並且立即投入實際應用之中，於是出現了現場可編程邏輯器件(FPLD)。FPGA則是在PAL、GAL、CPLD等可編程器件的基礎上進一步發展的產物。

1985年，Xilinx公司推出的全球第一款FPGA產品XC2064，採樣用2μm工藝，包含64個邏輯模塊和85000個晶體管，門數量不超過1000個。到了2007年，FPGA業界雙雄Xilinx和Altera公司推出了採用最新65nm工藝的FPGA產品，其門數量已經達到千萬級，晶體管個數更是超過10億個。隨後的工藝從150nm 、130nm、90nm、65nm……FPGA也在不斷地緊跟並推動著半導體工藝的進步。

FPGA相比於CPU、MCU來說，它利用門電路直接並行運算，速度非常快，同時可以通過編程語言自由定義門電路和存儲器之間的布線，定製晶元方案，目前是AI晶元非常合適的方案之一。

中國如何在 AI 晶元實現彎道超車？

AI智能晶元的崛起史

對於AI晶元可以理解為面向 AI應用的處理器晶元，它屬於AI和處理器晶元兩大領域的結合。當前隨著人工智慧的蓬勃發展，AI晶元已經成為了最炙手可熱的投資領域，除了Intel、Nvidia、ARM這些老牌的晶元廠商外，Google、Facebook、微軟這樣的互聯網公司也進軍AI晶元市場。

AI應用中通常包括基於深度神經網路的各類演算法，以及圖像識別、視頻檢索、語音識別、聲紋檢測、搜索引擎優化、自動駕駛等任務，其中最關鍵的能力是「訓練」和「推理」，而「訓練」是從海量的數據中完成特徵的學習，這需要極高的計算性能和較高的精度。為了支持AI的計算性能和精度，理想的AI晶元需要具備高度並行的處理能力，支持各種數據類型的浮點計算，以及用於存儲海量數據的存儲器帶寬。

目前適合AI的處理器有GPU（graphics processing unit）、FPGA（field-programmable gate array）、DSP（digital signal processing）和ASIC（application specific integrated circuits）等，業界各大廠商他們結合自身的特點推出了不同的方案，目前主要有兩種設計思路：利用已有的GPU、FPGA、DSP、多核處理器等晶元實現；設計專用的ASIC晶元實現。這也成為了爭論的焦點——哪個AI晶元方案是最佳的選擇？

GPU是圖形處理器，它的核數遠超過CPU，由多核組成的大規模並行計算架構專用於同時處理多重任務。深度神經網路的訓練過程中計算量極大，而且數據和運算是高度並行的，GPU具備進行海量數據並行運算的能力並且為浮點矢量運算配備了大量計算資源，與深度學習的需求不謀而合，因此最先被引入運行深度學習演算法，成為高性能計算領域的主力晶元之一。Intel雖然也有GPU，但主要為集成顯卡使用。Nvidia一直在獨立顯卡領域具有絕對優勢，因此Nvidia的GPU是目前應用最廣的通用AI硬體計算平台，在人工智慧領域無疑已佔據足夠的優勢。

Nvidia依靠自己在AI領域建立的優勢，開發出CUDA平台，提供了cuDNN、NCCL、cuBLAS等諸多SDK為合作夥伴提供開發工具，逐步讓眾多合作夥伴熟悉這種生態，進一步鞏固它在AI領域的領導地位。Nvidia的晶元應用十分普遍，現在所有的AI軟體庫都支持使用CUDA加速，包括谷歌的Tensorflow，Facebook的Caffe，亞馬遜的MXNet等。當然Nvidia的GPU在複雜程序邏輯控制上仍然存在劣勢，需要使用高性能CPU配合來構成完整的AI系統。為了彌補自己在CPU方面的弱勢，在2019年宣布其用於超級計算機的加速平台將對ARM架構CPU支持，計劃利用其晶元與使用ARM架構的CPU協作打造應用人工智慧的超級計算機。

ASIC是一種為專用目的而定製設計的晶元，在大規模量產的情況下相比於FPGA性能更強、體積更小、功耗更低、成本更低、可靠性更髙等優點。近年來越來越多的公司開始採用ASIC晶元進行深度學習演算法加速，其中最為突出的是 Google為機器學習定製的專用處理器晶元TPU（Tensor Processor Unit），它支持256×256個矩陣乘法單元、非線性神經元計算單元等模塊，專為Google的深度學習框架TensorFlow而設計。

TPU受到業界的關注是從Google的AlphaGo大顯神威後開始，最新一代 AlphaGo Zero已經將CPU結合GPU搭建方案升級為了TPU。在2018年Google I/O開發者大會上正式發布了TPU3.0，其性能宣稱比去年的TUP2.0提升8倍之多，達到每秒1000萬億次浮點計算，比同時期的GPU或CPU平均提速15~30倍，能效比提升30~80倍。

FPGA其實也是一種定製晶元，在靈活度方面，它介於CPU、GPU等通用處理器和專用集成電路ASIC之間，它不像專用集成電路ASIC那樣由晶元廠商固化編程，而是在硬體固定的前提下，允許設計者靈活使用軟體進行編程，因此它的開發周期比ASIC短，不過相對於批量出貨ASIC，單個FPGA的成本會更高。在性能方面，FPGA與 GPU相比，具備更強的計算能力和更低的功耗。以FPGA方案為代表的廠商主要有Intel和Xilinx。

Intel已經錯失了移動設備的崛起，不想再錯過對AI晶元領域的布局。為了增強在AI晶元領域的競爭力,2015年12月Intel斥資167億美元收購了Altera公司，這是Intel有史以來金額最大的一次收購，意味著Intel希望實現CPU和FPGA深層次結合來布局AI晶元市場。2017年Intel又收購Mobileye，希望通過整合AI演算法以獲得關鍵的優勢。2018年，Intel宣布收購晶元製造商eASIC，提高FPGA速度，降低FPGA成本和能耗需求。Intel通過霸氣的購買將自己提升到AI晶元「玩家」的前列。當前Intel有兩套FPGA的戰略：打造CPU+FPGA混合器件，讓FPGA與處理器協同工作；基於Arria FPGA或Stratix FPGA打造可編程加速卡。微軟在2018年的Build大會上公布的Project Brainwave深度學習加速平台，就是基於Intel Arria FPGA和Stratix FPGA晶元所打造的。

Xilinx是FPGA晶元技術的開創者，從2011年起，Xilinx提出全編程的理念，作為FPGA行業長期的霸主，Xilinx擁有超過2萬家下遊客戶，其中亞馬遜AWS、以及中國的BAT雲服務巨頭都推出了專門的雲端 FPGA 實例來支持 AI 應用。2018年Xilinx重磅推出全新一代AI晶元架構ACAP，重磅推出全新一代AI晶元架構ACAP，以及採用ACAP架構的首款代號為Everest的AI晶元，將正面「宣戰」Intel和Nvidia。同年Xilinx收購國內三大AI晶元獨角獸之一的北京深鑒科技有限公司，該公司主攻終端人工智慧，所採用基於FPGA來設計深度學習的加速器架構，可以靈活擴展用於伺服器端和嵌入式端。

另外DSP晶元主要用於處理視覺系統如圖像、視頻等方面的任務，在自動駕駛、安防監控、無人機和移動終端等領域最為常見。眾核處理器採用將多個處理核心整合在一起的處理器架構，主要面向高性能計算領域，作為CPU的協處理器存在，比如IBM CELL、Kalray MPPA和Intel Xeon Phi都是典型的眾核處理器。

中國如何在 AI 晶元實現彎道超車？

總結

AI智能晶元未來的發展勢不可擋，從晶元的歷史來看，目前AI智能晶元仍然處於初期階段，未來在架構和設計理念上仍然有巨大的突破空間，這也提供給了我國「彎道超車」的機會，在國家「2025中國智造」的指引下，國內的科技巨頭阿里巴巴、騰訊、百度和華為都參與進來，在全力發展自己AI智能晶元以突破「重圍」，讓我們一起拭目以待。

作者介紹：元宵大師，Python高級工程師，致力於推動人工智慧、大數據分析在金融量化交易領域中的應用。歡迎大家關注我的個人公眾號《元宵大師帶你用Python量化交易》。

中國如何在 AI 晶元實現彎道超車？

【END】

中國如何在 AI 晶元實現彎道超車？

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 CSDN 的精彩文章:

※漫畫：如何給女朋友解釋什麼是適配器模式？
※5G商用牌照近期發放；蘋果、亞馬遜、Google遭調查 | 極客頭條

TAG:CSDN |