當前位置:
首頁 > 新聞 > 谷歌TPU 3.0到底厲害在哪裡?

谷歌TPU 3.0到底厲害在哪裡?

谷歌TPU 3.0到底厲害在哪裡?



新智元推薦

來源:StarryHeavensAbove

作者:唐杉

【新智元導讀】Google在I/O大會上發布了TPU3,雖然目前詳細信息不多,但下面幾點還是值得討論:8倍性能;快速迭代;雲服務和Benchmark。TPU3到底哪裡厲害?

谷歌TPU 3.0到底厲害在哪裡?


8倍性能

今天的新聞中我們都可以看到如下描述「Google CEO Sundar Pichai said the new TPU is eight times more powerful than last year per pod, with up to 100 petaflops in performance.」也就是說一個TPU3 pod的總處理能力100 PFLOPS是TPU2 pod的8倍。

從下圖我們可以看一下TPU3 pod和TPU2 pod的對比。

谷歌TPU 3.0到底厲害在哪裡?

TPU2的一個pod包括4個rack,兩個CPU rack(左右兩邊),兩個TPU rack(中間兩個)。每個rack有32個computing unit (板卡),每個TPU板卡有4顆TPU晶元。因此一個pod總共有64 x 4顆TPU2晶元。每顆TPU2晶元的處理能力是45TFLOPS,因此一個pod總的處理能力是45 x 4 x 64 = 11.5 PFLOPS.

谷歌TPU 3.0到底厲害在哪裡?

谷歌TPU 3.0到底厲害在哪裡?

對比來看,TPU3的板卡仍然包括4顆晶元。但目測TPU3 pod的rack數量和板卡的密度(這個看的不是很清楚)和TPU2相比都增加了一倍。因此,一個pod中的TPU3晶元的數量應該是之前4倍。如果pod的總處理能力是TPU2的8倍,那麼TPU3單晶元的處理能力則為TPU2的2倍。

根據Google的說法,這次他們第一次在Data center採用水冷的散熱方式,這可能和晶元功耗以及板卡密度增加有關係。


Google also said this is the first time the company has had to include liquidcooling in its data centers, CEO Sundar Pichai said.

谷歌TPU 3.0到底厲害在哪裡?

總得來說,如上圖所描述(來自Google I/O大會的talk:Effective Machine Learning with Google TPU,可以在YouTube上搜索Google io 18 stage 8觀看),TPU3實現的超過100 PFLOPS的處理能力是來自「新的晶元架構和大規模系統」。

快速迭代

從去年I/O大會發布TPU2到今天不過一年時間,Google的晶元迭代速度還是非常驚人的。「為什麼Google能夠實現這樣的快速迭代?」這也是一個非常值得探討的話題。

我先簡單談幾點個人看法:

第一,TPU是一個Domain-specific Architecture(參考當我們設計一個專用處理器的時候我們在幹什麼?(上)),定位準確,架構簡單,容易擴展。相比之下,傳統的通用處理器必須考慮靈活性和兼容性,有太重的包袱。當然,TPU這種特點也決定它只能用於有限的應用場景,可能只有Google的體量以及雲服務能夠所提供的應用需求才能充分利用TPU這種專用晶元,這一點是得天獨厚的。這也是目前幾乎所有科技巨頭都開始自研晶元的一個基本考量。而傳統的晶元廠商在這一點上就有些尷尬了。

第二,Google的軟體和系統能力超強,TPU以Cloud service出現,提高給客戶的是整體服務。晶元硬體可做的tradeoff空間比較大,晶元本身的弱點可以在系統層面彌補。從目前得到的信息分析的,TPU3的處理能力是TPU2的8倍,其中晶元換代的貢獻只有2倍,大部分改進在系統層面。另一方面,目前晶元開發離不開相關軟體工具,Google的軟體能力和生態也是其能夠實現晶元快速迭代的一個重要因素。

第三,錢很重要。Google不差錢,在晶元實現上可以通過花錢換取時間。

總得來說,Google TPU的意義可能遠遠超過晶元本身。它背後的晶元設計邏輯,實現方法,應用模式和生態環境,相較傳統晶元開發有很大區別,也許會成為趨勢。


雲服務和Benchmark

Google在發布TPU3的時候同時提到了新的雲服務,在之前的Cloud TPU基礎上,今年晚些時候還會發布Cloud TPU pod(不知道誰能用的起?),可以看出TPU對於Goolge的雲端戰略的重要意義。

谷歌TPU 3.0到底厲害在哪裡?

有意思的是,在Google的talk中強調了cost的問題,每個例子都給出了相應的training cost,畫風是這樣的。

谷歌TPU 3.0到底厲害在哪裡?

這裡頗有廣告的感覺,不禁讓人想起黃教主的」The more GPUs you buy, The more money you save「。結合最近Microsoft對Brainwave項目的宣傳,感覺雲端機器學習的價格戰馬上就要開始了。

另外,Google也強調了Benchmark的重要性,還專門展示了他們最近力推的MLPerf。

谷歌TPU 3.0到底厲害在哪裡?

最近不同平台之間的對比很多,有比性能的,也有拼成本的。相信隨著越來越多的廠商加入,刷榜應該會非常熱鬧。



【加入社群】

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號: aiera2015_3 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

Ian Goodfellow:我的失敗是用無監督解決計算機視覺監督學習問題
Ian Goodfellow:我最大的失敗是用無監督解決計算機視覺的監督學習問題

TAG:新智元 |