「TPU和GPU,誰將一統AI晶元」摩爾定律之後一萬倍,10萬+熱文引爆激辯
? 新智元推薦
正當AlphaGo 與柯潔等一眾中國頂尖圍棋高手在烏鎮激戰正酣之際,計算機體系結構專家王逵在新智元專欄的文章(點擊閱讀《CPU和GPU雙低效,摩爾定律之後一萬倍 ——寫於TPU版AlphaGo重出江湖之際》)在專家社群和文章評論區內中引發了熱烈的討論。
楊靜:關於TPU,這篇閱讀最高,沒有之一。
包雲崗:這是我看過的TPU相關文章中寫得最好的一篇了,目前沒有「之一」
方昊:在一堆抄來抄去alphago文章中難得一見的一股清流。
Kuhasu:小夥子寫的非常清晰!我們對沖基金從8年前就開始使用ASIC進行高頻交易,而ASIC在交易領域的實際應用,可以追溯到上世紀九十年代後期。
艾婭軒:體系結構和AI領域的玩家們,不能錯過的原創,非AI硬體技術細節稿卻深入剖析技術內涵。
ljf:一篇文章看懂一個領域
但對於文章認為TPU代表了未來發展方向這一觀點,很多讀者提出了自己的看法。為此,新智元也採訪了原作者王逵博士。
TPU的生態問題
唐杉:我們在一個晶元項目中各個任務需要的投入(cost),其中最大的部分是Software,Verification和Validation。而Architecture設計只佔其中的很小一部分。這個比例和目前大多數晶元廠商的人員配置也是基本相符的。形成這種趨勢,是因為現在的晶元往往只是一個複雜系統中的一部分。晶元設計廠商(或者方案商)提供給客戶的已經遠遠不止晶元本身,而是一套完整的軟硬體解決方案。Nvidia在Deep learning上的巨大成功,是歸功於它的晶元底層硬體架構,還是它完善的軟硬體生態呢?當然是後者。Google之所以敢於和能夠自己設計TPU晶元,是和Tensorflow布局和以及data center方面的經驗分不開的。絕大多數deep learning用戶看到的是Tensorflow(或者其它訓練框架)和CUDA,而不是底層硬體(只要硬體別太昂貴)。
孫治平:對於一個AI晶元項目來說,考慮整個軟硬體生態,要比底層硬體架構的設計重要得多,最終給用戶提供一個好用的解決方案,才是王道。
朱晶:做AI ASIC 拿架構說是競爭力的可能還是有不小風險,這玩意兒還得看完整生態。
王逵:我非常同意唐杉博士的觀點,生態才是王道。任何一次晶元架構的革命,都和軟體分不開。當年各種RISC架構如同雨後春筍般湧現,很重要的推動力就是Unix操作系統和C語言編譯器的成熟,有了它們,操作系統和應用程序才能非常低成本地移植到新CPU上。如今各種深度學習的框架就如同Unix,XLA這樣的中間層表示就如同C語言。它們有了開源的成熟方案之後,專用晶元的生態問題會得到極大的緩解。
通用和專用的問題
陳怡然:(這篇文章)觀點還是很獨特的。不過我覺得TPU本質上其實就是ASIC,和以前的DSP專用晶元剛開始的出發點類似。如果說不同,可能面臨的商業應用更廣闊。但最後一定會在通用性和性能之間再次平衡。問題的關鍵不在技術本身,在於找到最佳平衡點。
蔣純 :這個ASIC更準確應該叫DSA吧
周楓:寫得淺顯易懂,對技術介紹得不錯。但是ASIC最靠譜的結論不同意,更有可能是ASIC是跑車,滿足特殊需求,GPU才是支持產業的乘用小車,量最大,通用性最好。規模Volume這個東西是決定性的,而優勢都在GPU這邊。看今明年Intel出招吧。
Yubo :ASIC快於通用處理器是自然的,代價就是應用太過於局限,就通用和性能之間的平衡還是GPU做得比較到位。
Qianlong :大家一致叫好,我來說點不一樣的。ASIC不是誰想玩就能玩的,Google敢玩是受夠了公司後又挖包括Patterson等牛人,有大量資金做支撐。另一個原因是投入產出比,對他們來講可以保證自己做完自己用。但是如果給第三方企業用,迭代成本是企業的命脈。買gpu和買asic做AI投入產出比到底誰更好?AI發展這麼快,鬼知道演算法會不會半年後就淘汰?專用的一定比通用的快是一定的,但發展前景不好說,體系結構領域很多款拋棄歷史包袱的CPU都失敗了已經說明了這一點。有企業有勇氣做拓路人值得肯定,真心希望能成功!
AHE :神經網路的進化速度非常快,除了TensorFlow還有其它的框架都在進化。相信TensorFlow不久就會有新的演算法升級。專用的ASIC TPU能兼容嗎?
王逵:專用晶元到底能出多大的量?這個量能不能攤平流片的巨大成本?這是最核心的兩個問題。
首先,我內心裡不認為TPU是ASIC,更合適的詞是DSA(Domain-Specific-Architecture),前者加速某一項功能,後者加速某一類功能。上篇文章篇幅所限,沒有引入DSA的概念。為了能上到足夠大的量,設計DSA必須要避免「半年後就淘汰」,這就是考驗設計功力的地方。
其次,TPU的確只能在DeepLearning這個市場搶GPU的飯碗,但未來這個市場會非常龐大,甚至超過Graphic。當年Google用MapReduce引爆大數據,並沒有為此做晶元,後來學術圈也出了不少加速大數據分析的DSA,Google完全無視;這次AI火爆,它火速做了DSA,為什麼?就是看到了量。
最後, 做晶元的成本沒有大家想的那麼大,晶元設計的方法學始終在進步。
有一位朋友講他十幾年前在矽谷初創公司的經歷,做世界第一款萬兆網交換晶元,每次ASIC spin,代價都是幾百萬美金,燒了5億美金產品才最終成熟穩定。如今因為EDA工具的發展和設計流程的進化,絕大多數成熟的IC設計企業都可以做到一次成功。加上28/22nm工藝還在持續減價中。其實如今做晶元的門檻在逐步降低。
TPU的技術細節
ep running :CPU和GPU「低效」的癥結並不是什麼新聞,為了「通用」「權衡」不得已而為之,專用晶元比CPU高效也人盡皆知,google做了一款人工智慧方面的專用加速晶元和博通一直在推出的專用交換晶元沒有什麼本質區別,為啥會感概?通用核心與存儲介面之間的效率問題還是沒有看到被根本解決呀?除了是一款人工智慧晶元外,google真正的突破和革命在哪裡?。
jiakai :並沒有解釋出tpu相對gpu有什麼優勢。後者面臨的計算訪存瓶頸問題前者同樣面臨
王逵:其實文中已經提到了怎麼解決訪存瓶頸問題。因為「Tensor的流動非常規整且可預期;計算密度很高,即每個數據都會歷經非常多次的計算」,所以「不對其上運行的數十萬個小程序做限制」是低效的。至於說怎麼做才是高效的,有很多論文都在講,科普小文就不展開了。
TPU和FPGA
劉丹丹 :FPGA註定淪為炮灰,CPU,GPU壟斷地位搖搖欲墜,是不是很多程序員和fpga工程師工作限制越來越大了……
張佺:優化是市場需求,革新才是發展王道! 感覺現在國內好多人都在折騰FPGA,希望大家能有所覺醒吧!
曉冬:反而覺得FPGA的時代早晚會來臨。比如無人駕駛,用GPU的話能接受那種功耗嗎?起碼低碳環保主義者不會買單。無人車不是手機,不會用兩年就換代,從功能升級的角度來看ASIC又遠不如FPGA。如果TPU能夠滿足較低的功耗與較高的靈活性,那恐怕不止Nvidia、Intel、Qualcomm,Xilinx也會慌吧。
王逵:只要有足夠的量,FPGA就不如DSA&ASIC。引用我的一位老師的話:FPGA確實頻率低、功耗高。量大ASIC,量小FPGA,不著急ASIC,快速部署FPGA,硬體不變ASIC,硬體重構FPGA。而今已經是,有錢ASIC,沒錢FPGA。
但FPGA的價值不能被否定,做FPGA非常有前途,例如上文提到的,大數據分析的加速。
熱議:體系結構與工藝設計的關係
謝源:CPU和GPU都是通用架構,而TPU則是針對神經網路的專用架構,不具有通用性。對於工藝進步(technology scaling)與體系架構(computer architecture)對通用處理器發展歷史上所做的貢獻誰更大的分析,詳細可參斯坦福大學Mark Horowitz教授團隊的文章「CPU DB: Recording Microprocessor History」 文章鏈接http://queue.acm.org/detail.cfm?id=2181798
在過去幾十年歷史上,工藝的進步和體系結構的貢獻是基本相同的。所以前面有人提「體系結構的性能提升很有限,你可以通過工藝改進輕輕鬆鬆獲得一倍以上的性能提升」,是不對的。而且工藝進步和架構創新是相互影響相互作用的。TPU架構的設計者,Norm Jouppi,早在1991年就明確在一篇經典文章「Computer Technology and Architecture: An Evolving Interaction」 中指出了這兩者的關係。(文章鏈接http://dl.acm.org/citation.cfm?id=125812 ) 。而體系結構的創新也和新應用相互作用相互影響。比如這一波AI的熱潮,很重要的一個因素是CPU/GPU的計算能力的極大提升。同時AI的應用,也推動了針對神經網路的專用架構的研究,包括TPU這樣的新架構。所以,新工藝,新應用,和新的體系結構,是相互作用相互影響的。兩周前我在ChinaSys的一個keynote, 「Technology-Drive and Application-Driven Architecture Innovation」,就詳細解釋了這樣一個觀點。(鏈接:http://www.ece.ucsb.edu/~yuanxie/ChinaSys2017.pdf)
陳天石:沒有合適的結構和軟硬體間合理的映射,堆再多mac也是空的,效率上不去。這就類似於說,蓋出新的舉世無雙的建築,到底是設計師圖紙重要還是磚塊重要。其實兩者是不能割裂的。沒有這些大師和研發人員,通用處理器根本做不出來。這些漂亮的工作,都是體系結構的貢獻。我不認為有了磚就一定有好的結構。建築為例,不同的設計師做的東西就是不同的。在體系結構領域,通用和專用的討論每隔一段時間就會交替地熱起來,類似正弦曲線。如果摩爾定理接近終結,正弦曲線可能在專用這塊拉到頂了。所謂應用驅動,並不改變體系結構學科的重要性,改變的僅僅是重視通用還是重視專用。這都是體系結構學科內部細分方向的事情。宏觀看,體系結構在每個時刻都非常重要。
CETC趙華龍HUST PhD:我不太同意文章中的部分觀點,並非摩爾定律的終結帶來的體系結構的盛宴,當下體系結構的盛宴是由於新的計算業務形式的大規模流行導致的,是新的ML計算業務模式的風靡才出現了你方唱罷我登場的體系結構大討論。這與摩爾定律的延續沒有明顯因果關係。
如果不考慮計算業務的實際需求,大可以在單位面積內全部集成計算部件,那樣的理論計算能力更會指數級增長,可是那樣的」倚天長劍"沒有辦法在實際應用里發揮效力,甚至都無法有效運輸數據給計算部件。所以才會是通用處理器諾大一個cpu,一大堆晶體管邏輯都圍著一個alu轉,都為它服務拚命想把它餵飽的現實情況。其實體系結構本身取決於我們實際需要的計算業務模式,神經網路這類新型計算業務要求的流行與普及才催生了這樣的體系結構出現或新生,如果人類還未曾發現這樣的計算業務對我們有大益處,那也不會有這樣的體系結構,或者說我們不知道構建出這樣的計算能力組織形式有什麼用,那麼度量它的計算能力完成了多少GFLOPS就更沒意義了。而現在有了需求——神經網路類計算,那這種體系結構及其帶來的GFLOPS計算能力就有了實際意義,就開始出現了所謂類似「一萬倍的增長」,但這種計算能力的所謂增長並非我們在原先的環境下新的發現而出現的增長,而是新的需求使我們的環境發生了變化,才使這樣組織和計量出來的計算能力有了意義。總之,摩爾定律是否延續不與本次盛宴構成因果關係,摩爾定律本身只能算盛宴的基礎,而且目前來看還遠未被終結。
王逵:我個人的看法是,應用需求總是會不斷湧現的,沒有AI,還會有別的,誰知道是啥,但總會有的。就像比爾蓋茨說的,永遠不要低估軟體的力量。人類的創造力對算力的需求,是不會隨著摩爾定律而停息的。當摩爾定律還適用的時候,對於架構,軟體是懶惰的,不想適應新的架構,因為有工藝的免費午餐。但摩爾定律結束了,軟體就不得不考慮適應新的架構,走軟硬結合的路子,才能繼續滿足創造力對算力的需求。
※百度王海峰獲全國創新爭先獎;谷歌 TPU 之後,蘋果也研發 AI 專用晶元;福布斯評6大AI思想家
※官方確認!AlphaGo正式退役,將公開50局自我對弈棋譜
※「柯潔烏鎮終敗」全盤迴顧人類最後希望與圍棋上帝終極PK
TAG:新智元 |
※阿里宣布自研AI晶元,稱性價比超傳統CPU、GPU 四十倍
※IBM全新AI晶元設計登上Nature:算力是GPU的100倍
※對話若琪CEO Misa:AI晶元已拿下數百萬訂單 AR眼鏡年底量產
※繼CPU與GPU之後,PC主板上將出現AI晶元
※慧能泰半導體重磅推出USB PD晶元HUSB338及E-Marker晶元HUSB330
※聲稱AI訓練性能超GPU1000倍的AI晶元初創公司竟要收購矽谷「老前輩」MIPS
※英集芯IP6528首創單晶元雙USB-C口輸出,支持USB PD3.0 PPS
※三星對EUV工藝太激進了,2020年使用EUV工藝生產1Ynm DRAM晶元
※每秒下載1.4萬部電影!英偉達發布最大GPU,聯手ARM打造數十億AI晶元
※英特爾收購晶元公司eASIC,加速FPGA,降低CPU依賴
※搭載AI智能晶元和更強大的拍照系統,OPPO R15定檔3月31日
※英特爾推出B365晶元組:原生USB 3.1沒了,PCIe通道多了
※谷歌推出AI專用晶元TPU 3.0
※「超GPU 100倍」IBM新型AI晶元發Nature,英特爾、微軟出大招
※GTC2018八大熱點:發布多項黑科技,聯合晶元巨頭ARM打造AI晶元專用IP
※特斯拉開發自動駕駛晶元,性能是NVIDIA GPU的10倍
※魅族價格崩盤:OLED屏+10納米晶元+128G+流暢UI,暴降近兩千元
※三星宣布基於EUV的7nm LPP晶元已經量產:驍龍5G基帶將用
※AMD或自己設計X570晶元組:功耗翻倍,PCIe 4.0是關鍵
※發布新GPU股價下跌7%,英偉達的AI晶元要涼了?