你也能與AlphaGo談笑風生了,AlphaGo教學工具上線
【導讀】12月11日晚,大家期待已有的 AlphaGo教學工具正式上線了,DeepMind資深研究員黃士傑和DeepMind圍棋大使樊麾在Facebook和其新浪微博差不多同一時間發布一條重要消息,谷歌DeepMind團隊公布AlphaGo教學工具上線。據悉,這個教學工具是一個AlphaGo教學的開局庫,教學工具共由兩萬多個變化,三十七萬多步棋組成,可以通過AlphaGo的視角,分析並建議圍棋開局的諸多下法。教學工具地址:https://alphagoteach.deepmind.com/
▌微博原文如下
樊麾在微博表示:
「大家好
AlphaGo 教學工具終於上線了。
教學工具共有兩萬多個變化,三十七萬多步棋組成,通過AlphaGo的視角,分析並建議圍棋開局的諸多下法。同時每步棋AlphaGo都會給出自己的勝率分析,希望AlphaGo對圍棋的獨特理解可以給我們一些啟發。
下邊的幾個圖是我從萬千變化圖中發現比較有衝擊力的幾個,類似的變化圖有很多很多,大家可以自己找找
本教學工具使用的版本是 AlphaGo Master。具體信息可以在主頁上看到,工具設有包括中文簡體在內的多個語言。
順序由左往右,圖1 :原來二路虎不見得好! 圖2 :對付迷你中國流的新辦法!圖3 :這個! 圖4 : 小林流也不是只有大飛掛! 圖5 : 原來這裡還可以飛!圖6 :妖刀定式!
溫馨提示 :打開時請耐心等待幾秒。
祝大家玩得開心」
▌DeepMind資深研究員黃士傑
黃士傑博士:
大家好,很高興向大家宣布,AlphaGo教學工具上線了。
這是一個AlphaGo教學的開局庫,相關細節如下:
1.本教學工具總共收錄了約6000個近代圍棋史上主要的開局變化,從23萬個人類棋譜中收集而來。
2.所有盤面都有AlphaGo評價的勝率,以及AlphaGo推薦的下法。
3.所有AlphaGo的勝率與推薦下法,AlphaGo都思考將近10分鐘(1000萬次模擬)。
4.每一個開局變化,AlphaGo都固定延伸20步棋。加上AlphaGo的下法,整個教學工具約有2萬個分支變化,37萬個盤面。
受限於投稿《自然》雜誌的時程,本教學工具使用的版本是AlphaGo Master。希望大家享受AlphaGo教學工具中的創新下法,也能從中有所收穫。
▌AlphaGo、AlphaGo zero、AlphaZero
2016年Google在Nature上發表基於深度學習演算法的圍棋程序AlphaGo,AlphaGo在古老的圍棋比賽中以4:1的高分擊敗了世界大師級冠軍李世石,從此一炮而紅,並且二度登上《Nature》雜誌封面。
許多專家認為,人類至少提前十年實現了這一壯舉。對於 DeepMind以及世界圍棋界而言,最激動人心的是AlphaGo在博弈過程中所表現出來的創造力,甚至有時候它的招數對古老的圍棋智慧都造成了挑戰。
不到一年之後,2017年Google的DeepMind實驗室再度開發了基於強化學習的新一代圍棋程序,稱為AlphaGo zero,AlphaGo Zero不依賴任何對局復盤和實戰數據進行訓練,僅用3天就擊敗 AlphaGo Lee、僅用40天就擊敗 AlphaGo Master的圍棋人工智慧。
12月份,DeepMind推出AlphaZero,從AlphoGo Zero 到AlphaZero只是少了一個詞「圍棋」(Go), 但是背後卻代表著Hassabis將和他的DeepMind繼續朝著「創造解決世界上一切問題的通用人工智慧」這一目標道路上邁出了巨大的一步。
Alpha Zero與前面幾種程序相比更具通用性。除了圍棋以外,它在國際象棋和日本將棋上的造詣也已經超越了人類水平。因此Alpha Zero 也從名字里去掉了圍棋(Go)一詞。DeepMind在arXiv發表論文表示其開發的通用強化學習程序AlphaZero,使用蒙特卡洛樹搜索(MCTS)和深度神經網路,和強大的算力,同時在國際象棋,日本將棋和圍棋中戰勝各自領域的最強代表。而且這一切都是通過自我對弈完成的,在訓練中除了遊戲規則,不提供任何額外的領域知識。4小時擊敗最強國際象棋AI、2小時擊敗最強將棋AI,8小時擊敗李世石版AlphaGo,連最強圍棋AI AlphaGo Zero也不能倖免:訓練34小時的AlphaZero勝過了訓練72小時的AlphaGo Zero。
▌論文簡介
1. 2016年google在Nature上發表基於深度學習演算法的圍棋程序AlphaGo,文章《Masteringthe game of Go with deep neural networks and tree search》。
論文地址:https://www.nature.com/articles/nature16961
摘要:因為圍棋巨大的搜索空間和對棋盤位置和走子精確評估的困難,在很長時間裡圍棋被視作人工智慧最具有挑戰性的傳統遊戲。在這裡我們將介紹一種使用「估值網路(value networks)」評估棋盤位置價值以及「策略網路(policy networks)」選擇走子動作(Action)的新的電腦圍棋演算法。這些深度神經網路創造性的合併監督學習(通過人類專家棋手的棋譜學習)和強化學習(通過自我對弈的方式)來訓練。沒有任何超前搜索,這些神經網路已經通過自我對弈的方式模擬了成千上萬的對局並使自己下圍棋的水平達到了世界計算機圍棋最好水平(相對於使用蒙特卡洛樹搜索(Monte Carlo tree search)程序)。我們也將介紹一種新穎的演算法,即通過合併蒙特卡洛樹搜索和估值網路、策略網路來構建圍棋程序。使用該演算法,程序AlphaGo與其他圍棋對弈達到了99.8%的勝率,以5:0的成績擊敗歐洲圍棋冠軍(樊輝)。這是有史以來計算機程序第一次在全盤對弈中擊敗人類專業棋手,這個突破以前被認為需要十年以上的時間。
2. 2017年10月DeepMind 在《自然》雜誌上發表了一篇論文《Mastering the game of Go without human knowledge》,正式推出 AlphaGo Zero——人工智慧圍棋程序的最新版本。
論文地址:https://deepmind.com/documents/119/agz_unformatted_nature.pdf
摘要:長久以來,人工智慧的目標是在富有挑戰性的領域中學習出一種從無知幼兒到超級專家的演算法。最近,AlphaGo成為了在圍棋遊戲中打敗人類世界冠軍的第一個程序。其中,AlphaGo對下棋位置的預估和選定下棋位置所使用的樹搜索演算法使用了神經網路。這些網路利用高段位棋手的走棋通過有監督學習的方式來訓練,然後通過自我對弈來完成進行增強學習。本篇論文中我們提出了一種完全獨立的增強學習演算法,演算法不需要人工數據,或是基於遊戲規則的引導或領域知識。AlphaGo變成了自己的老師:訓練一個神經網路用來完成AlphaGo的落子預測和對弈的贏家。這個網路同時還提高了樹搜索的能力,帶來的結果就是能夠在下一手中有更高質量的落子選擇和更強的自我對弈能力。從無知幼兒開始,我們新的程序—AlphaGo Zero達到了超級專家的水平,在與之前開發的AlphaGo(指代和李世石對弈的AlphaGo)的對弈中,取得了100-0的完勝。
3. 2017年12月DeepMind在arXiv發表論文《Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm》表示其開發的通用強化學習程序AlphaZero,使用蒙特卡洛樹搜索(MCTS)和深度神經網路,和強大的算力,同時在國際象棋,日本將棋和圍棋中戰勝各自領域的最強代表。而且這一切都是通過自我對弈完成的,在訓練中除了遊戲規則,不提供任何額外的領域知識。
論文地址:https://arxiv.org/pdf/1712.01815.pdf
摘要:國際象棋是人工智慧史上研究最廣泛的項目。目前最強大的國際象棋程序都是基於多種策略的組合,比如複雜的搜索技術,對特定領域的改進和人類專家幾十年來人工不斷完善的評估函數。相比之下,AlphaGo Zero僅僅使用一無所知的(tabula rasa)強化學習進行遊戲的自我對弈,就在最近的圍棋遊戲中實現了超過人類水平的表現 。
在本文中,我們將這種方法推廣到一個單一的AlphaZero演算法中,該演算法可以從一張白紙開始(譯註:無需先驗知識,比如歷史的對弈記錄)在許多具有挑戰性的領域實現人類能力所不能及的性能。從隨機玩遊戲開始,除了遊戲規則,不提供任何額外的領域知識,AlphaZero在24小時內實現了在象棋和日本將棋以及圍棋中的超人類水平,並且令人信服地擊敗了每種遊戲中的世界冠軍。
-END-
專 · 知
人工智慧領域主題知識資料查看獲取:【專知薈萃】人工智慧領域25個主題知識資料全集(入門/進階/論文/綜述/視頻/專家等)
同時歡迎各位用戶進行專知投稿,詳情請點擊:
※首次使用分層強化學習框架進行視頻描述生成,王威廉組最新工作
※新AlphaZero出世稱霸棋界,8小時搞定一切棋類!自對弈通用強化學習無師自通!
※NIPS 2017論文圖像轉換多樣化,大幅提升pix2pix生成圖像效果
※用AlphaGo Zero方法實現增強學習下棋
※Facebook何愷明等大神最新論文提出非局部神經網路
TAG:專知 |