碉堡!新AlphaGo放棄人類,36小時自學成才,100:0完勝前代
智東西 文 | Lina
智東西10月19日消息,今天,好久不見的AlphaGo團隊又來搞事情了!谷歌DeepMind團隊在《Nature》雜誌網站上發布了迄今為止有關AlphaGo的第二篇重磅論文,它介紹了AlphaGo的新成員——AlphaGo Zero(0號阿爾法狗)。
0號阿爾法狗是繼AlphaGo Fan、AlphaGo Lee、AlphaGo Master之後,AlphaGo家族的又一新成員,也是迄今為止最強大、同時也是最可怕的一個對手(最小的弟弟一般最強,沒毛病)。
0號阿爾法狗在誕生36小時後,就成功打敗了戰勝李世石的那隻AlphaGo。它第一次讓AI完全脫離人類歷史棋譜,只通過圍棋規則+「自我對弈」,在2900萬次自我對弈後成長為世界上最強大的圍棋大師。
最可怕的一點是,通過智東西對新一代AlphaGo Zero的深入挖掘,我們發現隨著不斷進化與變強,它變得越來越……簡單了。不再需要那麼複雜的各種策略網路、價值網路、快速走子策略等等,不再需要人類對它做出種種複雜的架構設計與數據輸入,0號阿爾法狗只是像人類一樣學習規則,然後不斷練習,僅此而已。
這篇論文的題目也非常耿直,《Mastering the game of Go without human knowledge》,直譯是「不需要人類知識就可以成為圍棋大師」,意譯過來大概就是……「人類,我不需要你了」。
一、AlphaGo的四世同堂
AlphaGo相比大家都已經非常熟悉了,是由谷歌旗下DeepMind團隊的戴密斯·哈薩比斯、大衛·席爾瓦、黃士傑等開發的一款人工智慧圍棋程序。
2015年10月,職業二段樊麾與AlphaGO較量0:5敗於對方,DeepMind團隊將這隻狗稱為AlphaGo Fan,
2016年3月,AlphaGo曾以5:3戰勝韓國棋手李世石,為了以示區分,DeepMind團隊將這隻狗稱為AlphaGo Lee。
2016年12月底,AlphaGo身披「Master」馬甲,5天內橫掃中日韓棋壇,最終以60場連勝紀錄告退。2017年5月,世界圍棋第一人柯潔烏鎮對戰AlphaGo,三戰全敗,基本奠定了AI對圍棋領域的統治地位,此時戰勝柯潔的也是同一版的AlphaGo Master。
今天,DeepMind團隊又給我們帶來了AlphaGo Zero。
二、更簡單、卻更強大
雖然都叫AlphaGo,但是每一代AlphaGo都各有不同。跟它前面的三位「狗哥」比起來,0號阿爾法狗更加接近真正的「人工智慧」概念。
拿第二代AlphaGo Lee為例,此前DeepMind團隊在《Nature》雜誌上發表的第一篇有關AlphaGo的論文中就詳細介紹了AlphaGo Lee是怎麼下棋的。這篇名為《用深度神經網路和樹搜索掌握圍棋博弈(Mastering the Game of Go with Deep Neural Networks and Tree Search)》中介紹的內容簡單來說就是:
1)分析專業棋手棋譜,得到兩個結果,快速走子策略(Rollout Policy)與策略網路(SL Policy Network)。其中快速走棋策略類似於人觀察盤面獲得的「直覺」,使用線性模型訓練;策略網路則經過深度學習模型訓練進行分析,類似於人類的「深思熟慮」。
2)用新的策略網路與先前訓練好的策略網路互相對弈,利用增強學習來修正參數,最終得到增強的策略網路(RL Policy Network),類似於人類左右互搏後得到一個「更加深思熟慮」的結果,對某一步棋的好壞進行判斷。
3)將所有結果組成一個價值網路(Value Network),對整個盤面進行「全局分析」判斷,圖中藍色越深的位置贏面越大,這樣可以讓程序有大局觀,不會因蠅頭小利而輸掉整場比賽。
4)綜合「直覺」、「深思熟慮」、「全局分析」的結果進行評價,循環往複,找出最優落子點。
微軟亞洲研究院主管研究員鄭宇與微軟亞洲研究院副研究員張鈞波在多次論文閱讀原文並收集了大量其他資料後,一起完成了一張更為詳細的AlphaGo原理流程圖,此處轉載作以解釋,版權歸兩位作者所有。
而第三代AlphaGo Master已經更多地依靠增強學習來訓練AlphaGo,減少對人類棋譜的依賴了,篇幅問題這裡不展開了。
最新,也是最強的這隻「狗小弟」跟它的老大哥們比起來則有以下特點:
1)不需要分析專業棋手棋譜,只學習圍棋規則,然後通過增強學習(Reinforencement Learning)進行自我對弈(2900萬次)。
2)只使用一個神經網路,不需要以前的「策略網路」和「價值網路」。
3)不需要「快速走棋策略」,直接靠神經網路得出結論。
發現沒有,隨著AlphaGo的進化,它變得越來越……簡單了。0號阿爾法狗不再需要那麼複雜的各種策略網路、價值網路、快速走子策略等等,不再需要人類對它做出種種複雜的架構設計與數據輸入,它只是像人類一樣學習規則,然後不斷練習,僅此而已。
而且,0號阿爾法狗和AlphaGo Master都只需要4個TPU,它們的「二哥」AlphaGo Lee則需要176個GPU和48個TPU,「大哥」AlphaGo Fan則需要176塊GPU。
在誕生的3小時後,0號阿爾法狗知道怎麼下圍棋了。
在誕生36小時後,0號阿爾法狗打敗了它的「二哥」AlphaGo Lee——以100:0的碾壓戰績。
在誕生的第21天里,0號阿爾法狗就打敗了60連勝的Master,Master後來戰勝了國際圍棋第一人柯潔。
在誕生的第40天里,0號阿爾法狗對戰Master的勝率達到90%,成為最強的人工智慧。
三、0號阿爾法狗的武功秘籍——「增強學習」
0號阿爾法狗之所以能夠如此強大,最重要的就是「增強學習(Reinforencement Learning)」增強學習與我們常聽說的「深度學習」不同,在深度學習里,你需要用大量的數據去訓練神經網路。
比如你將一張車的圖片給機器看,並且告訴它這是車,下次它就會說出「車」。如果你給他展現出別的,它還說車,你就告訴它「你錯了。」久而久之的,它就能認出車來,原理其實很簡單,但是對數據量的要求非常大。
而在增強學習中,相當於你不告訴機器下一步怎麼走,等它隨機執行了一輪操作後,如果結果是好的,那麼給它獎勵,如果結果是不好的,那麼給它懲罰,但是不告訴它哪一步做錯了,久而久之機器會自己摸索出一套最佳方案來。
增強學習極大減少了數據的依賴,尤其是在圍棋這種規則明確的遊戲當中,則更加適合增強學習發揮其強大的威力。因為它的環境條件非常簡單(只有黑白棋),規則也非常簡單,同時結果也非常簡單(輸贏平)。
四、英偉達和馬斯克都在研究的黑科技
看完上面內容,是不是覺得AI已經太過「黑科技」,人類要完蛋了?
別擔心。現在的的增強學習還暫時只能在步驟可能性較少、任務行為較窄的領域(比如圍棋、簡單物理運動等)發揮強大的作用。
現在學術界的一個較為主流的觀點是,訓練機器進行增強學習需要建立一個世界模擬器(World Simulator),模擬真實世界的邏輯、原理、物理定律等。在這個虛擬世界裡,天是藍的、地是實的、掉下時重力會將你抓牢、玻璃會被打破……
想像一下,當你在這個世界裡造出一個機器人來,雖然它不會走不會爬,但是將它放進這個世界裡不斷刺激、不斷訓練,會發生什麼?這個機器人將會逐漸學會爬行、站立、奔跑,整個過程中人類只提供了一個初始參數,其他所有的訓練都是靠這個機器人在環境中一次次的試錯中不斷完善的。
不過,由於真實世界太過複雜,存在大量的表徵學習參數,想要打造出一個完全一模一樣的虛擬世界幾乎不可能,人類甚至連實際世界的1/10複雜都無法模擬出來。
但困難就是為了克服的,這事聽起來很黑科技,但其實已經有不少人在做了。
拿英偉達為例,今年5月時,英偉達推出了一個用於訓練機器人的增強學習世界模擬器——ISAAC機器人訓練模擬世界(ISAAC Robot Simulator),創造出一個完全虛擬的、專為訓練機器人而打造的世界。
這是一個遵循物理法則但不遵循時間法則的世界,在現實生活中,你想要訓練一台機器學會打冰球,你要將這個冰球放在機器前面,一遍一遍地教會它;而在虛擬世界裡,機器可以在一秒內重複眾多次這樣的動作,而且你還可以同時訓練一堆機器學習打球,然後找到裡面最聰明的一個,將它的「大腦」程序複製出來,創建一堆同樣的機器再繼續訓練篩選。
此外還有OpenAI——OpenAI是Elon Musk於2015年12月宣布成立的非盈利AI項目,主要關注增強學習和無監督學習,科研人員會將大部分研究成果開源共享。5月15日,OpenAI發布了一款名為「Roboschool」的開源軟體,用於訓練機器。在這個虛擬環境中,科學家們還原了重力、摩擦力、加速度等不同元素。
結語:探索AI新疆域
打敗柯潔的AlphaGo Master已經非常厲害了,沒想到現在橫空出世的AlphaGo Zero竟能在短短21天內就能打敗Master,實在令人嘆為觀注。而且,它不但越來越強大,而且越來越簡單,只是像人類一樣學習規則,然後不斷練習,僅此而已。
我們可以看到,隨著深度學習的瓶頸日益凸顯(需要大量帶標註數據、泛化遷移能力不高等),包括英偉達、OpenAI等在內的學術界和產業界都在不斷探索人工智慧的新技術、新邊界、新方法。
附:《Mastering the game of Go without human knowledge》論文摘要
長期以來,人工智慧演算法的目標就是讓機器能夠學習,在具有挑戰性的專業領域,從嬰兒般的狀態(沒有經驗、知識基礎)發展到超人類的級別。近期,AlphaGo成為了首個打敗人類圍棋世界冠軍的程序。AlphaGo中的樹形檢索(tree search)可以利用深度神經網路評估棋局並進行落子,甚至能通過自我對弈實現強化學習(reinforcement learning)。本文(nature24270)介紹一種純粹基於強化學習的演算法,無需人類數據、指導或者超出遊戲規則的專業知識。AlphaGo成為了自己的老師:建立了一個神經網路來預測AlphaGo的落子選擇和比賽勝負方。這個神經網路強化了樹形檢索的能力,求解了更優的落子選擇,並為下一次迭代提供了更強的自我對弈。從「嬰兒」開始,我們的新程序AlphaGo Zero表現出了超越人類的「才能」,面對舊版AlphaGo——冠軍終結者,戰績是100(勝)-0(敗)。
※阿里AI Labs賺的錢連電費都不夠交,但淺雪說一點都不擔心
※對話索尼音頻高層:重點布局耳機、迴音壁、智能音箱三大領域
※亞馬遜推7英寸新款Kindle,可以一邊泡澡一邊閱讀了
※中秋夜谷歌連發七款硬體!跟外面那些妖艷貨好不一樣
※中外車企被逼上梁山!報告起底全球新能源車大戰時間表
TAG:智東西 |