新AlphaZero出世稱霸棋界,8小時搞定一切棋類!自對弈通用強化學習無師自通!
【導讀】從AlphoGo Zero 到AlphaZero只是少了一個詞「圍棋」(Go), 但是背後卻代表著Hassabis將和他的DeepMind繼續朝著「創造解決世界上一切問題的通用人工智慧」這一目標道路上邁出了巨大的一步。今天DeepMind在arXiv發表論文表示其開發的通用強化學習程序AlphaZero,使用蒙特卡洛樹搜索(MCTS)和深度神經網路,和強大的算力,同時在國際象棋,日本將棋和圍棋中戰勝各自領域的最強代表。而且這一切都是通過自我對弈完成的,在訓練中除了遊戲規則,不提供任何額外的領域知識。
DeepMind CEO, Demis Hassabis曾表示Deepmind的實名就是「破解智能難題,然後用其來解決一切問題」的使命而奮鬥時又格外認真。其他任何人說出這句話,聽起來都十分可笑,但這句話從他的口中說出就另當別論了。39歲的Hassabis是一位前國際象棋大師、遊戲設計員,他的人工智慧研究創業公司DeepMind在2014年被谷歌以6.25億美元收購。
▌論文簡介
Mastering Chess and Shogi by Self-Play with a GeneralReinforcement Learning Algorithm
摘要:國際象棋是人工智慧史上研究最廣泛的項目。目前最強大的國際象棋程序都是基於多種策略的組合,比如複雜的搜索技術,對特定領域的改進和人類專家幾十年來人工不斷完善的評估函數。相比之下,AlphaGo Zero僅僅使用一無所知的(tabula rasa)強化學習進行遊戲的自我對弈,就在最近的圍棋遊戲中實現了超過人類水平的表現 。
在本文中,我們將這種方法推廣到一個單一的AlphaZero演算法中,該演算法可以從一張白紙開始(譯註:無需先驗知識,比如歷史的對弈記錄)在許多具有挑戰性的領域實現人類能力所不能及的性能。從隨機玩遊戲開始,除了遊戲規則,不提供任何額外的領域知識,AlphaZero在24小時內實現了在象棋和日本將棋以及圍棋中的超人類水平,並且令人信服地擊敗了每種遊戲中的世界冠軍。
圖1:AlphaZero訓練過程的700000次迭代。(a)在國際象棋中與2016年TCEC世界冠軍程序Stockfish相比,評估AlphaZero的性能。(b)在將棋(日本象棋)中與2017年CSA世界冠軍程序Elmo相比,評估AlphaZero的性能。(c)在Go(圍棋)中與AlphaGo Lee和AlphaGo Zero(三天20個block)(29)相比,評估AlphaZero的性能。
從圖中可以看出AlphaZero從零開始訓練
4小時(300k步)就打敗了國際象棋的最強程序Stockfish
2小時(110k steps)就打敗了日本將棋的最強程序Elmo!
8小時(165k steps))就打敗了與李世石對戰的AlphaGo Lee!
隨著訓練的繼續深入,我們可以看到它面對Stockfish保持不敗。而且最終比之前的AlphaGo Zero也更為強大。
目前最強大的國際象棋程序都是基於多種策略的組合,比如複雜的搜索技術,對特定領域的改進和人類專家幾十年來人工不斷完善的評估函數。相比之下,AlphaGo Zero和AlphaZero僅僅使用強化學習進行遊戲的自我對弈,得到了非常好的效果。
AlphaZero的核心思想是建立一個神經網路來同時輸出策略(policy,在給定盤面下下一步該怎麼走)和價值(value,給定盤面的期望贏率),將策略(policy)和價值(value)結合到一個單一的網路中,訓練時候通過蒙特卡洛樹搜索進行自我訓練獲取策略目標π和最終價值目標z,然後通過隨機梯度下降優化損失函數來進行學習。
這次注意的一點是AlphaZero使用通用的蒙特卡洛樹搜索(MCTS)演算法,而不是使用特定領域的alpha-beta搜索,AlphaZero完全從自我對弈中學習這些移動概率和數值估計。
當然,其訓練AlphaZero需要海量的計算資源,文中說產生自我學習棋譜的時候用了5000塊第一代TPU,訓練神經網路的時候用了64塊第二代TPU。
表1:國際象棋,將棋和圍棋比賽中AlphaZero的評估,經過三天的訓練,與Stockfish,Elmo和之前發布的AlphaGo Zero進行100場比賽,表中顯示的是以AlphaZero視角的結果結果。
圖2:用Elo評估AlphaZero每步的思考時間的可擴展性。(a)展示了在國際象棋中AlphaZero和Stockfish的表現,每一步的思考時間。(b)展示了在將棋中AlphaZero和Elmo的表現,每一步的思考時間。
文中提到了AlphaZero每秒評估的棋位比Stockfish少很多,如圖2所示,聚焦於更有希望的棋位,在每一步思考時間較長的時候,AlphaZero的分析更精準。
表2:分析12個最受歡迎的人類開局(在線資料庫(1)中播放超過10萬次)。每個開局都標有其ECO代碼和通用名稱。該圖顯示了AlphaZero每次開局自我對弈比賽和訓練時間的比例。我們還從AlphaZero的角度報告了從每場比賽開局的100場比賽AlphaZero vs. Breakish比賽的勝負/平局/失敗結果,無論是白色(W)還是黑色(B)。最後,從每個開局提供AlphaZero的主要變化(PV)
▌Twitter點評
Olimpiu G. Urcan表示:人類用了1500年建立起來的智慧結晶,AlphaZero只用了24小時就給打破了
著名科技博客wildml.com博主,同時也是前谷歌大腦成員Denny Britz卻對此保持謹慎態度。他表示:準確來說,沒有「先驗知識」並不完全準確。新演算法中輸入的特徵以及網路的結構的建立都是需要領域知識的。並不清楚AlphaZero是怎麼泛化到看起來完全不同的領域的,但是其中MCTS確實是一種基於泛化目的的設計,作者本人也承認這一點。
Simon 表示:希望這一天會被載入史冊。在2017年12月6日,AlphaZero統治了象棋屆。
-END-
專 · 知
人工智慧領域主題知識資料查看獲取:【專知薈萃】人工智慧領域25個主題知識資料全集(入門/進階/論文/綜述/視頻/專家等)
同時歡迎各位用戶進行專知投稿,詳情請點擊:
※NIPS 2017論文圖像轉換多樣化,大幅提升pix2pix生成圖像效果
※用AlphaGo Zero方法實現增強學習下棋
※Facebook何愷明等大神最新論文提出非局部神經網路
※2018年IEEE Fellow出爐!17位中國大陸學者當選,香港台灣共15人新當選!
※美國人工智慧前沿峰會日程預告:吳恩達、田淵棟、任小楓等25位AI專家分享最新成果
TAG:專知 |