新AlphaZero出世稱霸棋界，8小時搞定一切棋類！自對弈通用強化學習無師自通！

最新 12-07

【導讀】從AlphoGo Zero 到AlphaZero只是少了一個詞「圍棋」(Go), 但是背後卻代表著Hassabis將和他的DeepMind繼續朝著「創造解決世界上一切問題的通用人工智慧」這一目標道路上邁出了巨大的一步。今天DeepMind在arXiv發表論文表示其開發的通用強化學習程序AlphaZero,使用蒙特卡洛樹搜索（MCTS）和深度神經網路，和強大的算力，同時在國際象棋，日本將棋和圍棋中戰勝各自領域的最強代表。而且這一切都是通過自我對弈完成的，在訓練中除了遊戲規則，不提供任何額外的領域知識。

DeepMind CEO, Demis Hassabis曾表示Deepmind的實名就是「破解智能難題，然後用其來解決一切問題」的使命而奮鬥時又格外認真。其他任何人說出這句話，聽起來都十分可笑，但這句話從他的口中說出就另當別論了。39歲的Hassabis是一位前國際象棋大師、遊戲設計員，他的人工智慧研究創業公司DeepMind在2014年被谷歌以6.25億美元收購。

▌論文簡介

Mastering Chess and Shogi by Self-Play with a GeneralReinforcement Learning Algorithm

摘要：國際象棋是人工智慧史上研究最廣泛的項目。目前最強大的國際象棋程序都是基於多種策略的組合，比如複雜的搜索技術，對特定領域的改進和人類專家幾十年來人工不斷完善的評估函數。相比之下，AlphaGo Zero僅僅使用一無所知的（tabula rasa）強化學習進行遊戲的自我對弈，就在最近的圍棋遊戲中實現了超過人類水平的表現。

在本文中，我們將這種方法推廣到一個單一的AlphaZero演算法中，該演算法可以從一張白紙開始（譯註：無需先驗知識，比如歷史的對弈記錄）在許多具有挑戰性的領域實現人類能力所不能及的性能。從隨機玩遊戲開始，除了遊戲規則，不提供任何額外的領域知識，AlphaZero在24小時內實現了在象棋和日本將棋以及圍棋中的超人類水平，並且令人信服地擊敗了每種遊戲中的世界冠軍。

圖1：AlphaZero訓練過程的700000次迭代。（a）在國際象棋中與2016年TCEC世界冠軍程序Stockfish相比，評估AlphaZero的性能。（b）在將棋（日本象棋）中與2017年CSA世界冠軍程序Elmo相比，評估AlphaZero的性能。（c）在Go（圍棋）中與AlphaGo Lee和AlphaGo Zero（三天20個block）（29）相比，評估AlphaZero的性能。

從圖中可以看出AlphaZero從零開始訓練

4小時（300k步）就打敗了國際象棋的最強程序Stockfish
2小時(110k steps)就打敗了日本將棋的最強程序Elmo！
8小時(165k steps))就打敗了與李世石對戰的AlphaGo Lee！

隨著訓練的繼續深入，我們可以看到它面對Stockfish保持不敗。而且最終比之前的AlphaGo Zero也更為強大。

目前最強大的國際象棋程序都是基於多種策略的組合，比如複雜的搜索技術，對特定領域的改進和人類專家幾十年來人工不斷完善的評估函數。相比之下，AlphaGo Zero和AlphaZero僅僅使用強化學習進行遊戲的自我對弈，得到了非常好的效果。

AlphaZero的核心思想是建立一個神經網路來同時輸出策略（policy，在給定盤面下下一步該怎麼走）和價值（value，給定盤面的期望贏率），將策略（policy）和價值（value）結合到一個單一的網路中，訓練時候通過蒙特卡洛樹搜索進行自我訓練獲取策略目標π和最終價值目標z，然後通過隨機梯度下降優化損失函數來進行學習。

這次注意的一點是AlphaZero使用通用的蒙特卡洛樹搜索（MCTS）演算法，而不是使用特定領域的alpha-beta搜索，AlphaZero完全從自我對弈中學習這些移動概率和數值估計。

當然，其訓練AlphaZero需要海量的計算資源，文中說產生自我學習棋譜的時候用了5000塊第一代TPU，訓練神經網路的時候用了64塊第二代TPU。

表1：國際象棋，將棋和圍棋比賽中AlphaZero的評估，經過三天的訓練，與Stockfish，Elmo和之前發布的AlphaGo Zero進行100場比賽，表中顯示的是以AlphaZero視角的結果結果。

圖2：用Elo評估AlphaZero每步的思考時間的可擴展性。（a）展示了在國際象棋中AlphaZero和Stockfish的表現，每一步的思考時間。（b）展示了在將棋中AlphaZero和Elmo的表現，每一步的思考時間。

文中提到了AlphaZero每秒評估的棋位比Stockfish少很多，如圖2所示，聚焦於更有希望的棋位，在每一步思考時間較長的時候，AlphaZero的分析更精準。

表2：分析12個最受歡迎的人類開局（在線資料庫（1）中播放超過10萬次）。每個開局都標有其ECO代碼和通用名稱。該圖顯示了AlphaZero每次開局自我對弈比賽和訓練時間的比例。我們還從AlphaZero的角度報告了從每場比賽開局的100場比賽AlphaZero vs. Breakish比賽的勝負/平局/失敗結果，無論是白色（W）還是黑色（B）。最後，從每個開局提供AlphaZero的主要變化（PV）

▌Twitter點評

Olimpiu G. Urcan表示：人類用了1500年建立起來的智慧結晶，AlphaZero只用了24小時就給打破了

著名科技博客wildml.com博主，同時也是前谷歌大腦成員Denny Britz卻對此保持謹慎態度。他表示：準確來說，沒有「先驗知識」並不完全準確。新演算法中輸入的特徵以及網路的結構的建立都是需要領域知識的。並不清楚AlphaZero是怎麼泛化到看起來完全不同的領域的，但是其中MCTS確實是一種基於泛化目的的設計，作者本人也承認這一點。

Simon 表示：希望這一天會被載入史冊。在2017年12月6日，AlphaZero統治了象棋屆。

-END-

專 · 知

人工智慧領域主題知識資料查看獲取：【專知薈萃】人工智慧領域25個主題知識資料全集（入門/進階/論文/綜述/視頻/專家等）

同時歡迎各位用戶進行專知投稿，詳情請點擊：

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自專知的精彩文章:

※NIPS 2017論文圖像轉換多樣化，大幅提升pix2pix生成圖像效果
※用AlphaGo Zero方法實現增強學習下棋
※Facebook何愷明等大神最新論文提出非局部神經網路
※2018年IEEE Fellow出爐！17位中國大陸學者當選，香港台灣共15人新當選！
※美國人工智慧前沿峰會日程預告：吳恩達、田淵棟、任小楓等25位AI專家分享最新成果

TAG:專知 |