AlphaZero登上Science封面:從小白開始制霸多個遊戲
DeepMind 推出的 AlphaGo 曾在圍棋項目中取得了超越人類的表現,其研究曾經兩次登上 Nature。近日,AlphaGo 的「完全自我博弈加強版」AlphaZero 的論文又登上另一大頂級期刊 Science 的封面。在論文中,AlphaZero 不僅征服了圍棋,也在將棋、國際象棋等複雜遊戲中實現了超越人類的表現。
此前不久,DeepMind 還推出了 AlphaFold,成功地根據基因序列預測出蛋白質的 3D 形狀,將人工智慧技術應用在了科學研究領域。
2017 年底,DeepMind 推出了 AlphaZero——一個從零開始自學國際象棋、將棋和圍棋的系統。它最終在這三個領域都打敗了世界最頂尖的程序。DeepMind 為這些初步結果而感到興奮,也很高興看到棋壇社區成員的反應,他們在和 AlphaZero 的對戰中看到了一種靈活多變的「非常規」、突破性博弈風格,這種風格不同於之前的任何棋類程序。
今天,DeepMind 將為大家介紹 AlphaZero 的全面評估,此次評估確認並更新了那些初步結果,並已發表在 Science 雜誌上。儘管 AlphaZero 是從隨機遊戲開始訓練,並且只知道基本的遊戲規則,沒有內置專業知識,這一份評估與論文描述了 AlphaZero 如何快速學習每種棋類遊戲並成為最強玩家。
前國際象棋世界冠軍 Garry Kasparov 評價道:
我無法掩飾對它的欣賞,它下棋的風格靈活多變,和我很像!
這種不受人類玩法規範約束、從零開始學習每種遊戲的能力產生了一種與眾不同但富有創造力和活力的非傳統下棋風格。國際象棋大師 Matthew Sadler 和 Natasha Reg 在他們即將出版的新書《Game Changer》(關於國際象棋的新書,將於 2019 年 1 月出版)中分析了數千場 AlphaZero 的國際象棋比賽。他們認為 AlphaZero 的棋風與任何傳統的棋類程序都不相同。Matthew 表示,
「這種感覺就好像發現了一些過去棋壇高手的秘籍一樣。」
傳統的國際象棋程序(包括世界計算機國際象棋冠軍 Stockfish 和 IBM 開創性的 Deep Blue)依賴數以千計由人類玩家制定的規則和啟發式方法,這些程序會試著解釋遊戲中每一種可能發生的情況。日本將棋程序也是將棋專用的,使用類似於國際象棋程序的搜索引擎和演算法。
而 AlphaZero 採用了一種完全不同的方法,它用深度神經網路和通用演算法取代了這些人工制定的規則,這些網路和演算法的初始狀態只知道基本規則。
在國際象棋中,AlphaZero 在 4 小時後首次超越了 Stockfish;在日本將棋中,AlphaZero 在 2 小時後首次超越了 Elmo;在圍棋中,AlphaZero 在 30 小時後首次超越了打敗李世石的那版 AlphaGo。注意:每個訓練步代表 4096 個棋局。
為了學習每種遊戲,未訓練的神經網路需要通過強化學習的試驗和減少誤差的過程進行上百萬場自我對弈。起初,系統的走棋完全是隨機的,但隨著時間的增加,系統不斷從贏、輸和平局中學習經驗,來調整神經網路的參數,使其在之後的棋局中選擇更高勝率的走法。神經網路的訓練時間依賴於遊戲類型和複雜度,國際象棋需要 9 小時,日本將棋需要 12 小時,圍棋需要 13 天。
系統的一些走法,例如把王將移動到棋盤的中心,這違反了日本將棋理論(從人類視角),似乎把 AlphaZero 推到了危險邊緣。但令人難以置信的是,它仍然能掌控局面。它的獨特走法預示著,日本將棋還存在其它的可能性。
已訓練的神經網路被用於指導搜索演算法(即蒙特卡洛樹搜索/MCTS),來選擇棋局中最有潛力的走法。在每一步中,相比傳統棋類引擎,AlphaZero 僅搜索很少的走法。例如在國際象棋中,它僅每秒搜索 6 萬種走法,而 Stockfish 每秒要搜索 6 千萬種走法。
訓練完成的系統將通過和最強的人工引擎比賽進行測試,其國際象棋的對手是 Stockfish,日本將棋的對手是 Elmo,圍棋的對手是 AlphaGo Zero(之前已知最強的圍棋 AI 系統)。
每一個程序都在其最初設計的硬體上運行。Stockfish 和 Elmo 使用了 44 個 CPU 核心(正如在 TCEC 世界錦標賽中一樣),而 AlphaZero 和 AlphaGo Zero 使用的是有 4 個第一代 TPU 和 44 個 CPU 核心的計算機。第一代 TPU 的推理速度和英偉達 Titan V GPU 大致相同,但兩者的架構無法直接比較。
所有的比賽都採用了限時規則,每場比賽 3 小時,每一步棋限時 15 秒。
在每一場評估中,AlphaZero 都令人信服地打敗了對手:
在國際象棋中,AlphaZero 打敗了 2016 年 TCEC(第 9 季)世界冠軍 Stockfish,在 1000 場比賽中贏了 155 場,僅輸了 6 場。為了驗證 AlphaZero 的魯棒性,研究者還測試了一系列人類選手常見的開局。在每一個開局中,AlphaZero 都打敗了對手。研究者還嘗試了在 2016 年 TCEC 世界錦標賽中使用的開局,以及一系列和 Stockfish 最新版本的比賽,還有和使用了強勁開局的 Stockfish 變體的比賽。在所有比賽中,AlphaZero 都贏了。
在日本將棋中,AlphaZero 打敗了 2017 年 CSA 世界錦標賽版本的 Elmo,贏了 91.2% 的棋局。
在圍棋中,AlphaZero 打敗了 AlphaGo Zero,贏了 61% 的棋局。
但是,AlphaZero 的下棋風格或許是最令人類選手著迷的地方。拿國際象棋來說,AlphaZero 在自我對弈(self-play)訓練中獨立發現和執行人類的常見招數,比如開局(openings)、保王(king safety)和兵形(pawn structure)。通過自我學習並且不受限於傳統的博弈智慧,AlphaZero 可以開發自己對博弈的認知和策略,添加大量新的有趣招數,從而擴充了數個世紀以來對國際象棋策略的認知。
一個世紀以來,國際象棋被作為人機感知的羅塞塔石碑。AlphaZero 更新了古老棋盤遊戲和前沿科技之間的聯繫。
Matthew Sadler 稱,選手首先注意到的是 AlphaZero 的風格,即「它用棋子圍住對方國王的方式」。支撐這種風格的是 AlphaZero 靈活多變的遊戲玩法,它最大程度上利用了己方棋子的活躍度和移動性,同時儘可能抑制對方棋子的活躍度和移動性。然而,AlphaZero 似乎對「子力」(material)不那麼重視。現代國際象棋中每個棋子具備一個值,如果一名選手在棋盤上棋子的值大於對手,則他擁有子力優勢(material advantage)。而 AlphaZero 會在比賽剛開始時就犧牲子力來獲取優勢,但長期來看這種做法得不償失。
「令我印象深刻的是,AlphaZero 能夠在非常廣泛的位置和開局中展示自己的下棋風格。」Matthew 說道。他還觀察到 AlphaZero 從第一步開始就以「人類的一貫宗旨」用非常審慎的風格下棋。
「傳統程序非常強悍,很少犯明顯的錯誤,但是當面對沒有具體、可計算解的位置時會慌亂。而 AlphaZero 在面對這些需要「感覺」、「洞見」或「直覺」的位置時依然鎮定自若。」
在最近 Magnus Carlsen 和 Fabiano Caruana 的世界國際象棋冠軍賽中,這一其它傳統國際象棋程序所不具備的獨特能力被用於為國際象棋迷提供實時見解和評論,《Game Changer》一書將繼續探討 AlphaZero 的這一能力。Natasha Regan 表示:「看到 AlphaZero 的分析與其他頂級國際象棋程序甚至頂級大師的區別非常令人振奮,AlphaZero 可以成為整個國際象棋社區的強大教學工具。」
AlphaZero 的教學能力從 2016 年 AlphaGo 挑戰圍棋冠軍李世乭的比賽中就可見一斑。在博弈期間,AlphaGo 下了許多手具有高度創造性的棋招,包括第二場比賽的第 37 手,這些棋招推翻了數百年的圍棋思維定勢。這些及其它很多棋招已經被包括李世乭在內的棋手仔細研究過。李世乭在談論第 37 手棋時說:「我本來認為 AlphaGo 是基於概率進行計算的,它只是一台機器。但是當我看到這一手棋後,我改變了想法,AlphaGo 確實具有創造力。」
其影響遠遠超出了我心愛的棋盤……不僅是因為這些自學成才的專家機器表現得非常出色,還因為我們可以從它們產生的新知識中學習。
和圍棋一樣,AlphaZero 對國際象棋的創造性反應同樣令人興奮,因為自計算機時代以來,這對於人工智慧來說一直是一個巨大的挑戰。早期的先驅者巴貝奇、圖靈、香農、馮·諾依曼都曾嘗試手動設計國際象棋程序。AlphaZero 的意義遠不止是國際象棋、將棋或圍棋。為了創建能夠解決大量現實問題的智能系統,我們需要它們能夠靈活適應新情況。雖然在實現這一目標方面取得了一些進展,但在人工智慧研究領域創建能夠以非常高的標準掌握特定技能的系統仍然是一個重大挑戰,因為當任務稍有改動時,系統往往會失敗。
AlphaZero 掌握了三種不同的複雜博弈遊戲,並且有潛力完成任何完美信息博弈(perfect information game),因此 AlphaZero 是解決該問題的重要一步。AlphaZero 表明單個演算法也能在一系列設定下學習新的知識。雖然目前它還處於早期階段,但 AlphaZero 的創造性見解及其在 AlphaFold 等其它項目的優秀結果令 DeepMind 團隊對構建通用學習系統充滿了信心。這種通用學習系統也許有一天能在一些重要且複雜的科學問題上幫助我們找到新的解決方案。
論文:A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play
摘要:棋類遊戲是人工智慧歷史上研究時間最長的領域,其中最強的程序主要基於一系列複雜的搜索技術。這些搜索技術只適應特定的領域,且它們使用人工設計的評估函數,這些函數經過人類專家數十年的修正與精鍊。相比之下,最近的 AlphaGo Zero 程序通過自我博弈及強化學習實現了超越人類的表現。在這篇論文中,我們將這一方法推廣到單個 AlphaZero 演算法,它在很多具有挑戰性的博弈遊戲上能實現超越人類的表現。從隨機博弈開始,且除了遊戲規則不提供任何領域相關的知識,AlphaZero 令人信服地擊敗了國際象棋、將棋(日本象棋)和圍棋的世界冠軍程序。
如果讀者希望了解 AlphaZero 的完整資料,可以仔細閱讀及實現這一啟發性的工作:
- 閱讀 Science 論文:http://science.sciencemag.org/content/362/6419/1140
- 下載 PDF 版論文:https://deepmind.com/documents/260/alphazero_preprint.pdf
- 閱讀 Science 社論文章:http://science.sciencemag.org/content/362/6419/1087
- 閱讀 Science 解讀文章:http://science.sciencemag.org/content/362/6419/1118
- 下載 AlphaZero 最擅長的 20 項博弈遊戲:https://deepmind.com/documents/259/alphazero_stockfish_top20.zip
參考鏈接:
https://deepmind.com/blog/alphazero-shedding-new-light-grand-games-chess-shogi-and-go/
※「如何跳出鞍點?」NeurIPS 2018優化相關論文提前看
※亞馬遜推出AI晶元、定製CPU:入局晶元軍備競賽
TAG:機器之心 |