谷歌的TPU 將會怎樣影響人工智慧發展和安全性

科技 07-20

谷歌的 AlphaGo 由它自己定製的 ASIC （專用集成電路）晶元驅動，也叫 TPU （tensor processing unit）。谷歌的這一做法是出於更高計算能力的考慮嗎？TPU的出現對通用人工智慧（AGI）會有什麼影響？

前段時間，谷歌宣布了一件出乎所有人意料的新聞，AlphaGo 並非由 GPU 驅動，而用的是谷歌自己定製的 ASIC（專用集成電路）晶元，他們稱之為「張量處理單元（TPU: tensor processing unit）」。

這種晶元已經在我們的數據中心運行了一年多，我們發現用它驅動的機器學習，在平均每瓦耗電量下的性能會提高一個數量級。

……………….

TPU 是為機器學習定製的，它對計算精確度的要求沒那麼高，因此完成每次運算需要的晶體管更少。

那麼這對通用人工智慧（AGI ）的發展時間線意味著什麼？TPU 的存在對 AGI 的最終實現又會有什麼影響？

TPU 的發展加快了 AGI 發展的腳步。顯而易見，更強的計算能力讓研究者們得以進行更多試驗，而且使得能突破過去的計算能力極限的演算法也成為了可能。

如果你是根據去年取得的那些跨越式進展來預估與人類相當的智能或超智能 AGI 的出現時間，那麼 AGI 可能會比你預期的晚些到來，因為有些成果只是不可複製的曇花一現。而如果你根據摩爾定律的外延或是除去年之外的進展來推斷，則 AGI 可能會比你預期的更早到來。

有些人把 AGI 的發展比作能力與控制之間的競賽，而且想讓我們在創造出 AGI 之前就能知道如何控制它們。在一種差別技術發展（Differential technological development**）的模式下，如果 TPU 的出現對人工智慧能力的提升比對其安全性的提升更大，可能就不是件好事。我對於把差別技術發展模式用在 AGI 上抱著矛盾的心情；儘管人工智慧安全性或可控性研究還有很長的路要走，但人類也面臨著很多 AGI 能夠幫助解決的難題。在這種特定情況下，我認為差別技術發展模式不能算正確。

讓我們回顧一下幾年前的情況，在谷歌投入 ASIC 研發之前。把 GPU 替換成更專門化處理器看起來是不可避免的趨勢，問題只是什麼時候會發生，而不是它會不會發生。無論轉變何時到來，都會引起智能水平的躍變；谷歌在聲明中稱它「大概能推動科技發展向前快進 7 年」。這句話略微誇張了，但如果僅從字面意義上來看，它提出了一個有趣的問題：你想要快進的是哪 7 年？

假設這個轉變拖延了很久，直到與人類智力相當甚至超越人類智力的 AGI 差不多要出現的時候。如果真到那時候，再去引入專用處理器會比現在冒險的多。因為計算能力的躍變可能意味著我們將錯失研究 AGI 的最佳時機，而且安全性也無法保證。

參看下圖：

谷歌的TPU 將會怎樣影響人工智慧發展和安全性

我不知道谷歌在決定投資 TPU 的時候是否考慮過這個問題。（可能沒有；能獲得足夠的競爭優勢就已經是足夠的理由了）。但那似乎確實十分重要。

還有一些小的策略性考慮也能說明開發 TPU 是個好主意。GPU 驅動器是極其複雜的，而且據說兩大主要 GPU 製造商的代碼庫都相當混亂；在不必要處理遊戲的環境中從頭開始編碼，原有代碼的可靠性會得到大幅提升。當 AGI 開始出現時，如果它們運行在專用硬體上，那麼開發者就不能通過租借更多計算機來迅速提升它的計算能力，因為專用硬體的可用性會更受限。類似地，一個自主運行的 AGI 也無法通過這種途徑提升自身性能。滿是人工智慧專用晶元的數據中心會更容易監測，因為人工智慧開發都集中在了特定的地點。

總的來說，從安全形度看，我認為谷歌的TPU是一項很積極的進展。當然，除了它是快速訓練神經元的專用處理器這個事實，我們還是不知道它們到底是什麼。谷歌十有八九並未公布 TPU 背後的秘密武器，但從他們公開的聲明中還是可以推測出一些信息的。

訓練神經網路要在非常規則的結構中運行大量演算法，像是把大型矩陣和張量相乘。訓練神經網路的演算法的並行化程度很高，如果你把一個神經網路上運行的處理器數量加倍，就可以只用一半的時間完成同樣的任務，或者把你的神經網路變大。大約在 2008 年之前，機器學習基本上都是在通用 CPU上運行的，也就是英特爾和 AMD 的 x86 和 x86_64 晶元。到 2008 年前後，GPU 的用途逐漸從單一的圖像處理擴展到更多方面，而今天基本上所有的機器學習都運行在通用型 GPU（GPGPU: general-purpose GPU）上。GPU 在處理張量相乘這種操作上的速度快了不止一個數量級。為什麼呢？下面的圖片中的是 AMD 的 Bulldozer CPU，說明了CPU的問題所在。這是一個 2011 年下半年產的四核 x86_64 CPU。

谷歌的TPU 將會怎樣影響人工智慧發展和安全性

我用紅色標出了其中的浮點單元，而它是訓練神經元時 CPU 中真正運行演算法的唯一部分。這個部分非常小。這是現代 CPU 的典型架構；絕大部分硅和電力都用來處理控制流、指令解碼和調度、以及存儲層次。如果我們能設法從上層去掉這些功能，就可以用全部空間來放浮點單元了。

這樣其實就得到了一個 GPU。GPU 只會運行高度規則化的計算，它們無法處理分支或其它控制流，指令集相當簡單（隱藏在驅動器後面，所以不需要反向兼容）。而且它們的內存訪問模式是可預測的，降低了對高速緩存的需求。它們把絕大多數能量和晶元空間都用在了吸入了大範圍數字向量以及能同時對所有數字進行操作的演算法單元上。

但 GPU 還是保留了很多訓練神經網路不需要的計算靈活性。特別是，它們處理的數字具有很多不同數位，這需要大量複製運算迴路。雖然谷歌對 TPU 透漏的不多，但他們確實提到的一個特性就是「降低了計算精確度」。

讓我們用英偉達最新的 GPU 架構 - Pascal 來做對比：

GP100 中的每個 SM（streaming multiprocessor，多重流處理器）具有 32 個雙精度（FP64）CUDA 內核，這個數量是 FP32 單精度 CUDA 內核的一半。

….

與 FP32 演算法相比，使用 FP16 的計算性能提升了兩倍，而且類似地，數據傳輸所需的時間比 FP32 和 FP64 都少。

因此英偉達 GPU 的很大一部分都是由 FP64 內核構成，它們對深度學習基本沒用。當進行 FP16 操作時，用的是 FP32 內核的一個特別型號，這幾乎肯定比用兩個特別定製的 FP16 內核的效率要低。TPU 還可以去除那些執行無用運算的硬體，比如進行三角函數和除法計算的。然而所有這些加起來足夠把性能提升一整個數量級嗎？我不能確定。但我希望谷歌能公布更多 TPU 的細節，讓整個人工智慧研究界都能同步轉型。

請您繼續閱讀更多來自 機器之心 的精彩文章:

一些物理學不能預測的事，學習演算法卻能辦到？

盤點8個最具啟發意義的深度學習應用

美國經濟顧問委員會主席：為什麼需要更多人工智慧？

當人工智慧出錯時，我們可能沒有能力理解出錯原因

喬治亞理工研發出模仿人類步態的機器人

TAG:機器之心 |

您可能感興趣

※谷歌的人工智慧TPU發展迅速，影響力到底有多大？
※北大人工智慧創新中心主任雷鳴：人工智慧的發展速度及其對社會生活的影響
※軟銀CEO：大量數據和人工智慧是未來發展的關鍵
※全民健康智能APP發展前景
※IDC：體驗碎片化及信任度將影響人工智慧設備的發展
※應勇會見美國高通CEO，期待積极參与智慧城市、人工智慧等領域發展
※智能手機AR是否會阻礙VR的發展？
※國務院印發新人工智慧發展規劃；微軟研製出智能恆溫器GLAS
※人工智慧的發展，會顛覆傳統婚戀觀
※從聯想智能音箱的發展看人工智慧的未來趨勢
※NVIDIA與百度合作加速人工智慧發展
※中國人工智慧研究與發展 NSR專欄
※奧合奧拓電力致力於發展成為「服務全球的太陽能EPC服務商」！
※中國人工智慧研究與發展 | NSR專欄
※人工智慧技術的發展現狀
※聯合國首次人工智慧峰會召開：讓AI符合可持續發展目標
※發揮PPP優勢促進城鎮化健康發展
※人工智慧（五）人工智慧市場發展趨勢和最新應用場景分析
※百度發布DuerOS：牽手紫光和ARM發展人工智慧