谷歌TPU 3.0到底厲害在哪裡？

新聞 05-11

谷歌TPU 3.0到底厲害在哪裡？

新智元推薦

來源：StarryHeavensAbove

作者：唐杉

【新智元導讀】Google在I/O大會上發布了TPU3，雖然目前詳細信息不多，但下面幾點還是值得討論：8倍性能；快速迭代；雲服務和Benchmark。TPU3到底哪裡厲害？

谷歌TPU 3.0到底厲害在哪裡？

8倍性能

今天的新聞中我們都可以看到如下描述「Google CEO Sundar Pichai said the new TPU is eight times more powerful than last year per pod, with up to 100 petaflops in performance.」也就是說一個TPU3 pod的總處理能力100 PFLOPS是TPU2 pod的8倍。

從下圖我們可以看一下TPU3 pod和TPU2 pod的對比。

谷歌TPU 3.0到底厲害在哪裡？

TPU2的一個pod包括4個rack，兩個CPU rack（左右兩邊），兩個TPU rack（中間兩個）。每個rack有32個computing unit (板卡），每個TPU板卡有4顆TPU晶元。因此一個pod總共有64 x 4顆TPU2晶元。每顆TPU2晶元的處理能力是45TFLOPS，因此一個pod總的處理能力是45 x 4 x 64 = 11.5 PFLOPS.

谷歌TPU 3.0到底厲害在哪裡？

對比來看，TPU3的板卡仍然包括4顆晶元。但目測TPU3 pod的rack數量和板卡的密度（這個看的不是很清楚）和TPU2相比都增加了一倍。因此，一個pod中的TPU3晶元的數量應該是之前4倍。如果pod的總處理能力是TPU2的8倍，那麼TPU3單晶元的處理能力則為TPU2的2倍。

根據Google的說法，這次他們第一次在Data center採用水冷的散熱方式，這可能和晶元功耗以及板卡密度增加有關係。

Google also said this is the first time the company has had to include liquidcooling in its data centers, CEO Sundar Pichai said.

谷歌TPU 3.0到底厲害在哪裡？

總得來說，如上圖所描述（來自Google I/O大會的talk：Effective Machine Learning with Google TPU，可以在YouTube上搜索Google io 18 stage 8觀看），TPU3實現的超過100 PFLOPS的處理能力是來自「新的晶元架構和大規模系統」。

快速迭代

從去年I/O大會發布TPU2到今天不過一年時間，Google的晶元迭代速度還是非常驚人的。「為什麼Google能夠實現這樣的快速迭代？」這也是一個非常值得探討的話題。

我先簡單談幾點個人看法：

第一，TPU是一個Domain-specific Architecture（參考當我們設計一個專用處理器的時候我們在幹什麼？（上）），定位準確，架構簡單，容易擴展。相比之下，傳統的通用處理器必須考慮靈活性和兼容性，有太重的包袱。當然，TPU這種特點也決定它只能用於有限的應用場景，可能只有Google的體量以及雲服務能夠所提供的應用需求才能充分利用TPU這種專用晶元，這一點是得天獨厚的。這也是目前幾乎所有科技巨頭都開始自研晶元的一個基本考量。而傳統的晶元廠商在這一點上就有些尷尬了。

第二，Google的軟體和系統能力超強，TPU以Cloud service出現，提高給客戶的是整體服務。晶元硬體可做的tradeoff空間比較大，晶元本身的弱點可以在系統層面彌補。從目前得到的信息分析的，TPU3的處理能力是TPU2的8倍，其中晶元換代的貢獻只有2倍，大部分改進在系統層面。另一方面，目前晶元開發離不開相關軟體工具，Google的軟體能力和生態也是其能夠實現晶元快速迭代的一個重要因素。

第三，錢很重要。Google不差錢，在晶元實現上可以通過花錢換取時間。

總得來說，Google TPU的意義可能遠遠超過晶元本身。它背後的晶元設計邏輯，實現方法，應用模式和生態環境，相較傳統晶元開發有很大區別，也許會成為趨勢。