「AI晶元爭奪戰」谷歌TPU率隊,顛覆3350億美元的半導體行業
1 新智元報道
人工智慧技術尤其是深度學習的興起,讓各大公司都注意到必須要填補的計算力鴻溝。越來越多的研究人員開始重新思考計算的本質,從人類大腦處理信息的方式獲得靈感,打造新的硬體體系結構。
經過多年的發展停滯,計算機再一次開始演化,而其結果必將更加深遠——加速人工智慧,讓機器也能像人類一樣感知周圍的世界,能聽會說,能看會寫,甚至更多。這是很多科學家多年的夢想,如今正以現實的模樣向我們走來。
就在上周,《紐約時報》發表長文,以《計算機正從人類大腦獲取設計線索》為題,展現了當前AI晶元業界,重點寫了谷歌、微軟等並非傳統晶元公司在專用晶元上的動向。這種朝向專用晶元和新計算架構的發展趨勢可能帶來人工智慧的「寒武紀大爆炸」。
斯坦福大學前任校長、計算機體系結構宗師John Hennessy以谷歌母公司Alpahbet現任董事會成員的身份接受了NYT記者的採訪。Hennessy表示:「現有方法已經不夠用了,大家在嘗試重新設計系統架構。」
更新更複雜的系統,更小更專用的晶元,更低的能耗,更快的速度……將計算量擴展到大量微小的低功耗晶元上,像人腦一樣運行,新的技術正在不斷推進計算機半導體的邊疆,正向Hennessy說的那樣:「這將是一個巨大的變化」。
谷歌:意外黑馬,率TPU殺入戰場
谷歌浩瀚的數據中心無疑是業界的風向標,這裡發生的變化也預示著業內其他行業的發展趨勢。在谷歌眾多的伺服器中,仍然有一個中央處理器,但同時,也有大量的定製晶元一起參與工作,驅動語音識別、圖像分類等人工智慧應用。
2011年的時候,谷歌做了一筆計算,如果每位用戶每天使用3分鐘他們提供的基於深度學習語音識別模型的語音搜索服務,他們就必須把現有的數據中心擴大兩倍。
「我們需要另外一個谷歌。」Jeff Dean告訴谷歌基礎設施副總裁Urs H?lzle。
他們需要更強大、更高效的處理晶元。GPU是理想的深度學習晶元,谷歌也使用英偉達的GPU,但這還不夠,他們想要更快的速度,更高效的晶元。單個GPU耗能不會很大,但如果谷歌數百萬台伺服器日夜不停運行,那麼耗能會變成一個嚴重問題。
Jeff Dean是最早意識到谷歌需要自己的專用人工智慧晶元的人之一。右邊是谷歌自己研發的專用晶元TPU。來源:Ryan Young/NYT
谷歌在去年I/O大會上推出了自己的AI晶元——張量處理器TPU(第一代)。谷歌表示,儘管在一些應用上利用率很低,初代TPU平均比那時候的GPU或CPU快15~30倍,性能功耗比(TOPS/Watt)高出約30~80倍。
今年5月I/O大會上,谷歌發布了第二代TPU,峰值性能達到180TFLOPS/s。第一代TPU只加速推理,但第二代TPU新增了訓練的功能。不僅如此,谷歌的用戶還能通過專門的網路,在雲端利用TPU構建機器學習的超級計算機。
在第二代TPU里,每個TPU都包含了一個定製的高速網路,構成了一個谷歌稱之為「TPU艙室」(TPU POD)的機器學習超級計算機。一個TPU艙室包含64個第二代TPU,最高可提供多達11.5千萬億次浮點運算,內存400萬兆位元組,4倍快於當時市面上最好的32台GPU。
Cloud TPU 帶來的最大好處,則是谷歌的開源機器學習框架 TensorFlow。TensorFlow 現在已經是 Github 最受歡迎的深度學習開源項目,Cloud TPU 出現以後,開發人員和研究者使用高級 API 編程這些 TPU,這樣就可以更輕鬆地在CPU、GPU 或 Cloud TPU 上訓練機器學習模型,而且只需很少的代碼更改。
英偉達:GPU的計算時代
自上市以來的17年中,英偉達的股價一直在35美元間徘徊,其推出的Tegra系列處理器在智能手機領域也不溫不火。但從2015年開始,英偉達股價飆漲,一掃移動處理器市場的陰霾,歷史性的突破100美元(對應市值600億美元左右),這得益於其在汽車和深度學習領域的深刻布局。
在自動駕駛領域,英偉達在Tegra處理器的基礎上相繼推出了DRIVE PX和DRIVE PX2自動駕駛汽車計算平台,並開始與特斯拉、奧迪、博世等車企合作開發無人駕駛技術,在2017年CES上推出了搭載DRVIE PX2的英偉達BB8無人駕駛原型車。
圖像處理是GPU誕生的舞台,英偉達的 GPU 是支持深度學習演算法加速的處理器中當仁不讓的佼佼者。英偉達在2008年推出了基於ARM和Geforce的移動處理器Tegra,隨後由於這一處理器系列在圖像處理方面的巨大優勢,迅速佔領了對圖像處理要求較高的遊戲機和平板市場,並在隨後幾年中不斷更新升級。
卡耐基梅隆大學的lan Lane教授曾表示:"藉助 GPU,預先錄製的語音或多媒體內容的轉錄速度能夠大幅提升。與CPU軟體相比,我們執行識別任務的速度超級高可提升33倍。"在機器學習領域,使用GPU提供的強大並行運算能力去處理海量的學習數據,再用CPU完成其他的邏輯。Tegra系列處理器的優質特性讓英偉達成為眾多機器學習系統的首選。
微軟:教會計算機視聽
2010年,微軟剛剛開始使用機器學習演算法來改進Bing,通過分析人們使用該服務的方式來改善搜索結果。雖然這些演算法要比後來重新設計神經網路要求更低,但是仍在晶元環節遇到了困難:構建像在Intel CPU上運行Windows一樣的軟體,軟體無法重新編程晶元,因為它只有連線才能執行某些任務。
聖誕節期間,微軟研究院工程師道格·伯格(Doug Burger)與微軟的其他晶元研究人員合作,希望從硬體層面嘗試加速搜索引擎Bing。Burger和他的團隊探索了幾個選擇,但最終採用了現場可編程門陣列FPGA:一種可以重新編程新工作的晶元,他們將這個項目稱之為Project Catapult。
使用FPGA,微軟可以改變晶元的工作方式。它可以對晶元進行編程,以便執行特定的機器學習演算法。然後,它可以重新編程晶元真正的運行邏輯,在其計算機網路上發送數百萬和數百萬個數據包。它們基於同一個晶元,但行為方式可以不同。
2015年,微軟開始大量安裝FPGA晶元。現在,載入到Microsoft數據中心的每個新伺服器都包含其中一個可編程晶元。他們幫助用戶在搜索Bing時選擇結果,幫助Azure,以及雲計算服務,跨越其底層機器網路的信息。
在2016年秋天,微軟研究人員構建出一個神經網路,幫助機器能夠比一般人類更準確地識別口頭詞,由微軟的首位華人「全球技術院士」、首席語音科學家黃學東黃學東領導這個團隊。在近期的產業標準Switchboard語音識別基準測試中,微軟實現詞錯率(WER)低至6.3%的這一技術突破,這比IBM達到的6.6%WER下降了0.3%,達到目前語音識別領域錯誤率最低的水平。
在加利福尼亞帕洛阿爾托上空,他與老朋友黃仁勛一起吃飯慶祝。因為這背後的功臣來自於Nvidia提供的大量專業晶元培訓語音識別服務,而不是普通的英特爾晶元。如果沒有做出這樣的改變,他們的突破是不可能的。
黃學東曾說道:「如果我們沒有晶元的武器,這一進展至少要延遲五年。」
微軟的黃學東(左)和Doug Burger是在公司內容開發專用晶元的領軍力量。來源:Ian C. Bates/NYT
在計算能力方面,Ignite 2016 大會上,Burger與微軟CEO Satya Nadella 演示了FPGA加速機器翻譯示例。他們的總計算能力達到103萬Tops,相當於10萬塊頂級GPU計算卡;功耗大約30W,僅增加了整個伺服器功耗的十分之一。
今年8月,微軟將FPGA與雲計算服務結合,推出 Project Brainwave低延遲深度學習雲平台。該平台以英特爾(Intel)提供的Stratix 10現場可編程門陣列(FPGA)為基礎,除了內建深度神經網路(DNN)加速引擎外,在軟體堆棧方面,還可支持Google的Tensorflow、微軟自家的Cognitive Toolkit等深度學習框架。
根據微軟官方測評顯示,當使用英特爾的 Stratix 10 FPGA,Brainwave不需要任何batching就能在大型 GRU (gated recurrent unit)達到 39.5 Teraflops的性能。該系統為實時AI而設計,以極低的延遲在接收數據後立刻處理請求。
該系統為實時 AI 而設計,它能以極低的延遲在接收數據後立刻處理請求。由於雲基礎設施需要處理實時數據流,不管是搜索請求、視頻、感測器數據流還是用戶交互,實時 AI 正在變得越來越重要。
繁盛的AI晶元市場,百家爭鳴
通用晶元並不能很好地適應深度學習演算法的要求,效率低,功耗大,成本高。各種神經網路演算法需要專用晶元來保證其運行效率。人工智慧的浪潮,催生了 AI 專用晶元的大爆發。
無論是雲端的運算還是移動端的運算,都需要專門針對 AI 演算法設計的晶元,但這二者對 AI 專用晶元的要求不同。雲端要求 AI 晶元適應多種神經網路架構,同時能進行高精度浮點運算,峰值性能至少要達到Tflops(每秒執行10^12次浮點數運算)級別,對功耗沒有嚴苛要求;支持陣列式結構以進一步提高性能。
移動端 AI 晶元對設計的要求截然不同。一個根本的要求是控制功耗,這就需要使用一些辦法(如網路壓縮)來提升計算能效,同時儘可能少地降低計算性能和計算精度的損失。
各個廠商紛紛在這兩個方向上發力 AI 晶元的研發,當然雲端和移動端也無法截然分開。比如寒武紀,此前研發的寒武紀深度學習處理器是面向大規模神經網路和多種機器學習演算法的,而 2016 年推出的寒武紀1A處理器(Cambricon-1A)則是面向智能手機、安防監控、可穿戴設備、無人機和智能駕駛等各類終端設備的。
在雲端,除了上文的英偉達,英特爾在收購 Altera 之後推出了基於FPGA的專用深度學習加速卡,更收購了Nervana,瞄準為深度學習專門定做和優化的 ASIC 晶元;收購了Movidius,其高性能視覺處理晶元將補足英特爾在移動端 AI 晶元的缺失。另外還有IBM的類腦晶元 TrueNorth。當然還有本文開頭講到的谷歌TPU。日前,百度又正式推出了 XPU,它是基於百度FPGA 的新一代 AI 處理架構,擁有GPU的通用性和FPGA的高效率和低能耗,對百度的深度學習平台PaddlePaddle做了高度的優化和加速。
在移動端,谷歌、蘋果和三星等都在用專門的 AI 晶元構建手機。微軟正在為增強現實耳機專門設計這樣的晶元。同時從科技巨頭谷歌到傳統車廠豐田,所有人都在進行自動駕駛汽車的研發,正需要能夠在移動端良好運行的 AI 晶元。
比如擅長底層架構改進的蘋果,其最新發布的 Apple X 採用了定製的晶元來處理人工智慧工作負載。這是一個雙核的「A11 生物神經網路引擎」(A11 bionic neural engine)晶元,每秒運算次數最高可達6000億次。該晶元賦能的最重要的事情就是使 Face ID 身份認證功能能夠快速識別人臉,從而解鎖 iPhone X 或進行購物。
晶元走向定製化,以滿足AI軟體的需求,在行業中已經變成一股新的大趨勢。谷歌已經設計了兩代晶元來處理數據中心的AI計算工作負載。 微軟也為未來版本的 HoloLens 混合現實頭盔開發了一款AI晶元。在iPhone上安裝新的專用晶元意味著主晶元的工作量將會減少,從而提高電池壽命。 否則,例如,通過手機攝像頭進行物體識別同時進行視頻錄製時,可能會迅速地將電池消耗完。此外,在不久的將來, iPhone以外的更多移動設備都可能包含針對AI的處理器。
又如華為。在德國IFA 2017舉辦期間,華為正式發布全球首款人工智慧移動計算平台麒麟970。華為方面表示,這一帶有強大AI計算力的手機端移動計算平台,是業界首顆帶有獨立NPU(Neural Network Processing Unit)專用硬體處理單元的手機晶元。 創新性集成NPU專用硬體處理單元,創新設計了HiAI移動計算架構,其AI性能密度大幅優於CPU和GPU。相較於四個Cortex-A73核心,處理相同AI任務,新的異構計算架構擁有約 50 倍能效和 25 倍性能優勢,圖像識別速度可達到約2000張/分鐘。麒麟970高性能8核CPU,對比上一代能效提高20%。率先商用 Mali G72 12-Core GPU,與上一代相比,圖形處理性能提升20%,能效提升50%,可以更長時間支持3D大型遊戲的流暢運行。
此外,中國也有幾家公司在進行 AI 晶元的研發。此前騰訊發布的 AI 產業報告指出,AI 晶元作為產業核心,也是技術要求和附加值最高的環節,產業價值和戰略地位遠遠大於應用層創新。而在這一點上,中國和美國的差距還很大。報告顯示,從基礎層的晶元企業數量來看,中國擁有14家,美國33家,中國僅為美國的42%。
國內在 AI 晶元研發表現突出的企業,除上文介紹的寒武紀外,還有推出具備深度學習人工智慧的嵌入式視頻採集壓縮編碼系統級晶元「星光智能一號」的中星微電子,致力於軟硬體一體化解決方案的地平線機器人,以及打造了「深度學習處理單元」(Deep Processing Unit,DPU)的深鑒科技。深鑒科技的目標是以 ASIC 級別的功耗,達到優於 GPU 的性能,目前第一批產品基於FPGA平台。
美國國防部研究部門 Darpa 的項目經理吉爾·普拉特(Gill Pratt)表示,這種向專業晶元和新的計算機架構轉型的趨勢可能導致人工智慧晶元的「寒武紀爆炸」。正如他所看到的那樣,將計算量擴展到大量微小的低功耗晶元,以使機器可以像人類的大腦一樣運行,這樣就有效地利用了能量。
每台設備都將擁有自己的大腦
所有這些向專用晶元的遷移都可能削弱晶元設計與製造巨頭英特爾的力量,並從根本上改變每年規模3350億美元的半導體產業市場。
今年7月,英特爾AIPG首席技術官Amir Khosrowshahi接受新智元專訪,表示接下來英特爾將有一系列針對AI的晶元產品推出。Amir表示,以谷歌TPU為代表的AI專用晶元「優勢只是暫時的」,英特爾正在開發比TPU第二代更好的晶元。同時,Amir強調,晶元或者說處理器只是構建成功機器學習解決方案很小的一方面,從生產到製造到銷售一整套流程,要配合才能成功。
不論如何,當前晶元界正在掀起一股革命,雖然目前這種轉變主要還發生在支撐互聯網的龐大的數據中心,但其影響在更廣泛的行業內滲透只是時間上的問題。
未來,新的移動晶元可以幫助設備自己在本地處理更多和更複雜的任務,從語音識別語,到人臉識別再到家庭機器人、無人駕駛汽車識別環境,響應命令。
每台設備或許都將擁有自己的大腦。
點擊閱讀原文可查看職位詳情,期待你的加入~
※「專家痛陳AI醫學影像三大難點」數據規模小、標註質量差、懂演算法的不懂醫療
※「深度学习框架大PK」褚晓文教授:五大深度学习框架三类神经网络全面测评(23PPT)
※一張圖看瘋狂的NIPS 2017:十年數據盤點今年NIPS多項「歷史之最」
※薦書:生命3.0——生活在AI時代的我們該如何做人
TAG:新智元 |