Google TPU3 看點
Google在I/O大會上發布了TPU3,雖然目前詳細信息不多,但下面幾點還是值得討論:8倍性能;快速迭代;雲服務和Benchmark。
???
8倍性能
今天的新聞中我們都可以看到如下描述「Google CEO Sundar Pichai said the new TPU is eight times more powerful than last year per pod, with up to 100 petaflops in performance.」也就是說一個TPU3 pod的總處理能力100 PFLOPS是TPU2 pod的8倍。
從下圖我們可以看一下TPU3 pod和TPU2 pod的對比。
TPU2的一個pod包括4個rack,兩個CPU rack(左右兩邊),兩個TPU rack(中間兩個)。每個rack有32個computing unit (板卡),每個TPU板卡有4顆TPU晶元。因此一個pod總共有64 x 4顆TPU2晶元。每顆TPU2晶元的處理能力是45TFLOPS,因此一個pod總的處理能力是45 x 4 x 64 = 11.5 PFLOPS.
對比來看,TPU3的板卡仍然包括4顆晶元。但目測TPU3 pod的rack數量和板卡的密度(這個看的不是很清楚)和TPU2相比都增加了一倍。因此,一個pod中的TPU3晶元的數量應該是之前4倍。如果pod的總處理能力是TPU2的8倍,那麼TPU3單晶元的處理能力則為TPU2的2倍。
根據Google的說法,這次他們第一次在Data center採用水冷的散熱方式,這可能和晶元功耗以及板卡密度增加有關係。
Google also said this is the first time the company has had to include liquid cooling in its data centers, CEO Sundar Pichai said.
總得來說,如上圖所描述(來自Google I/O大會的talk:Effective Machine Learning with Google TPU,可以在YouTube上搜索Google io 18 stage 8觀看),TPU3實現的超過100 PFLOPS的處理能力是來自「新的晶元架構和大規模系統」。
???
快速迭代
從去年I/O大會發布TPU2到今天不過一年時間,Google的晶元迭代速度還是非常驚人的。「為什麼Google能夠實現這樣的快速迭代?」這也是一個非常值得探討的話題。
我先簡單談幾點個人看法:
第一,TPU是一個Domain-specific Architecture(參考當我們設計一個專用處理器的時候我們在幹什麼?(上)),定位準確,架構簡單,容易擴展。相比之下,傳統的通用處理器必須考慮靈活性和兼容性,有太重的包袱。當然,TPU這種特點也決定它只能用於有限的應用場景,可能只有Google的體量以及雲服務能夠所提供的應用需求才能充分利用TPU這種專用晶元,這一點是得天獨厚的。這也是目前幾乎所有科技巨頭都開始自研晶元的一個基本考量。而傳統的晶元廠商在這一點上就有些尷尬了。
第二,Google的軟體和系統能力超強,TPU以Cloud service出現,提高給客戶的是整體服務。晶元硬體可做的tradeoff空間比較大,晶元本身的弱點可以在系統層面彌補。從目前得到的信息分析的,TPU3的處理能力是TPU2的8倍,其中晶元換代的貢獻只有2倍,大部分改進在系統層面。另一方面,目前晶元開發離不開相關軟體工具,Google的軟體能力和生態也是其能夠實現晶元快速迭代的一個重要因素。
第三,錢很重要。Google不差錢,在晶元實現上可以通過花錢換取時間。
總得來說,Google TPU的意義可能遠遠超過晶元本身。它背後的晶元設計邏輯,實現方法,應用模式和生態環境,相較傳統晶元開發有很大區別,也許會成為趨勢。
???
雲服務和Benchmark
Google在發布TPU3的時候同時提到了新的雲服務,在之前的Cloud TPU基礎上,今年晚些時候還會發布Cloud TPU pod(不知道誰能用的起?),可以看出TPU對於Goolge的雲端戰略的重要意義。
有意思的是,在Google的talk中強調了cost的問題,每個例子都給出了相應的training cost,畫風是這樣的。
這裡頗有廣告的感覺,不禁讓人想起黃教主的」The more GPUs you buy, The more money you save「。結合最近Microsoft對Brainwave項目的宣傳,感覺雲端機器學習的價格戰馬上就要開始了。
另外,Google也強調了Benchmark的重要性,還專門展示了他們最近力推的MLPerf。
最近不同平台之間的對比很多,有比性能的,也有拼成本的。相信隨著越來越多的廠商加入,刷榜應該會非常熱鬧。
- END-
題圖來自網路,版權歸原作者所有
本文為個人興趣之作,僅代表本人觀點,與就職單位無關
※如何在ARM下進行高效的C編程?
※ARM Cortex系列那麼多處理器,該怎麼區分?
TAG:嵌入式資訊精選 |