谷歌的人工智慧TPU發展迅速，影響力到底有多大？

天下 08-16

谷歌推出張量處理單元（TPU）已經一年有餘，前段時間又發布了內部人工智慧晶元的詳細性能和功耗指標。該晶元在許多方面令人印象深刻，可以理解，谷歌並不打算將其出售給競爭對手，因此該晶元對行業會產生什麼影響還無法定論。那麼，究竟誰會從人工智慧的這款忍者晶元中真正受益呢？誰又需要面對其增量風險呢？我認為答案是，每個人都會從中受益，沒有人需要承擔風險。下面我就來告訴大家原因。

什麼是TPU，它如何堆疊？

谷歌幾年前面臨的挑戰是，它預見到其計算需求必須急劇轉變，才能支持機器學習工作負載。這些應用程序屬於計算極度密集型，持續使用（英特爾）CPU的成本過高，不能滿足數百萬用戶同步查詢的快速響應時間要求。谷歌使用 NVIDIA GPU來訓練底層神經網路，允許機器識別數據中的模式，並使用x86 CPU在神經網路中執行查詢，這一步稱為推理。訓練用的大型GPU相當昂貴，這些推理機的工作量非常大。因此，谷歌決定開發一種成本更低、性能更高、功耗更小的晶元來處理這個工作。

谷歌的TPU固定在PCIe卡上，適用於標準的磁碟驅動器托架。每個伺服器可以有多個TPU。（來源：谷歌）

谷歌前一段時間發布了詳細的內部結構和性能數據，展示其勞動成果。可以理解，它將TPU與當時它還在用的NVIDIA和Intel晶元進行了比較，英特爾的Haswell已經是3代前的產品了，NVIDIA Kepler是2009年架構的，之後過了很久，才有人開始使用GPU進行機器學習。現在，NVIDIA公司CEO黃仁勛提供了基於NVIDIA PASCAL的NVIDIA最新一代晶元數據，讓谷歌用於更新比較數據。與以前的比較結果相比，對目前這一代晶元進行比較後結果產生了極大的差異，NVIDIA原來的性能只有TPU的1/13，而現在的優勢卻是TPU的2倍，不過，NVIDIA的功耗是TPU的3倍。

NVIDIA GPU與谷歌TPU的性能和功耗比較。（來源：NVIDIA）

這兩種比較的結果非常不同。P40具有很強的浮點，在訓練中很有用處，內存帶寬很大。TPU每秒處理90萬億次操作，幾乎是GPU的2倍，但功耗卻只佔GPU的1/3 。請記住，參與測量的GPU只是PASCAL架構的一個示例； NVIDIA能夠生產單一架構，以解決包括遊戲、機器學習（機器學習訓練和推理）、汽車和超級計算等許多不同市場的問題。GPU是可編程設備，本身就是通用加速器。另一方面，TPU的設計目的就是為了很好地完成一個任務：多張張量（整數矩陣）並行，代表用於人工智慧機器學習中使用的（深層）神經網路。

但這兩款晶元的相對表現並不是真的那麼重要。我認為更重要的是谷歌證明了一個事實：要想在人工智慧方面取得突破，就要求不管是通過GPU、FPGA，ASIC還是多核CPU都能達到真正的提速，如果要讓人們負擔得起人工智慧，人工智慧也能迅速對要求做出回應，就需要比傳統的伺服器CPU（英特爾 Xeon）快至少2個數量級。另外一點也很重要，處理機器學習的任務對於谷歌來說工作量非常大，它正在投資製造自己的定製晶元，來優化機器學習數據中心。我並不贊同許多博客上發表的觀點，我認為這不是谷歌的一次性活動。

贏家和輸家

那麼誰能從TPU中受益，誰又會受到傷害呢？因為越來越多的服務將在TPU基礎上運行，谷歌的機器學習服務用戶將直接受益; 谷歌已將某些精選服務的價格降低了6倍，而TPU的使用也節省了開支。因此，谷歌勝在為雲機器學習服務提供了更具競爭力的平台，並節省了龐大數據中心的資本支出和功耗。

TPU是否會對英特爾和NVIDIA等晶元廠商構成風險？我認為不會，至少不會立刻構成直接的風險。首先，今天的大多數推理工作都是由Intel Xeon CPU和 ARM CPU完成的，它們部署的規模比較適中。而谷歌仍在使用NVIDIA GPU來訓練其神經網路，所以TPU並沒有從NVIDIA的業務中抽走一大塊。英特爾本來就沒有提供谷歌所需的性能，所以這也不會對Intel產生什麼影響。

其次，TPU只適用於谷歌的內部數據科學家和人工智慧雲服務用戶。谷歌雲平台仍然遠遠落後於亞馬遜AWS和微軟的Azure，居第三的地位，而亞馬遜和微軟都在其雲服務中為機器學習應用程序提供NVIDIA GPU。展望未來，在某種程度上，谷歌會開發訓練晶元，為其日益增長的人工智慧產品組合進一步節省成本，對此我並不感到驚訝。同樣，這隻會影響谷歌用於自身目的的購買行動，而不會對全球另外6家最大的數據中心（亞馬遜、阿里巴巴、百度、Facebook、微軟和騰訊）的購買產生影響。當然，在更好的選擇出現之前，這些數據中心將繼續購買GPU和FPGA，用於自己的加速工作。

鑒於市場快速增長和對更高性能的渴求，我認為晶元廠商一定會推出專為機器學習設計的晶元。例如，英特爾正在完善去年8月份收購的Nervana引擎技術，很可能用於訓練和推理目的。而且，我知道至少有四家創業公司，包括Wave Computing、NuCore、GraphCore和Cerebras，可能正在開發用於加速機器學習的定製晶元和系統。當然，這個領域競爭激烈，不斷推陳出新，有利於市場上的每個人。

對於市場領導者NVIDIA來說，不太可能陷入困境。NVIDIA也可以在其專門用於機器學習的硬體中集成新技術，繼續優化軟體生態系統，與其它競爭者並駕齊驅。就在去年，NVIDIA為16位浮點數和8位整數值設置了精簡矩陣運算的新標準，分別用於訓練和推理。除了賽靈思之外，其他晶元廠商，在採用這種方法方面至少落後NVIDIA一年，這種方法可以把性能提高2-4倍，功耗降低2-4倍。

最後，NVIDIA的NVLINK互連仍然是支持超強可擴展的協同處理器的唯一可行的競爭對手。（IBM的OpenCAPI是唯一的替代選擇，連IBM都同時支持這兩款產品。）

結論

在互聯網搜索操作和雲服務產品中開發和使用機器學習演算法和硬體方面，谷歌處於世界領先地位。從支持100多種語言的谷歌翻譯到Google Now，再到構建在圍棋比賽中擊敗世界冠軍的人工智慧，到處都有谷歌的身影。因此，理所當然它想投資可以讓其軟體發揮最佳性能的定製硬體。前段時間公布的性能參數和內部架構細節表明，它在設計加速機器學習的ASIC方面實力超群，TPU很可能預示著還會出現進一步挑戰現狀的其他設計。我確信其它大型互聯網數據中心將會評估自己的類似努力到底有多少投資回報率，但是我懷疑他們目前的規模可能不足以支持一年1億美元的開發投資。不過可以確定的是，機器學習和人工智慧市場目前還處於起步階段，未來幾年硬體和軟體方面將出現很多創新。