DeepMind 科學家:AI對戰星際爭霸勝算幾何?
記者 | 褚波
今天,《麻省理工科技評論》新興科技峰會EmTech China在北京召開,DeepMind公司的研究科學家Oriol Vinyals出席峰會並做了演講。
DeepMind公司的科學家Oriol Vinyals。
出生於西班牙巴塞羅那的 Oriol Vinyals頗富傳奇色彩。他從 15 歲時開始玩《星際爭霸》,一度成為西班牙第一、全歐第十六的電競高手,但他並沒有像多數高手一樣走向職業電競選手之路,反而投身科學領域。在西班牙加泰羅尼亞理工大學獲得電信工程及數學雙學位之後,他又前往美國學習工程學與計算機科學。在谷歌, Gmail、Google 圖像識別服務等產品都離不開他的貢獻。
2016年初,他加入DeepMind團隊,著手研究比下圍棋還難的人工智慧技術——教電腦打電玩,而用來訓練機器的遊戲環境正是 Oriol Vinyals 最擅長的《星際爭霸》。在EmTech China大會上,Oriol Vinyals在演講中提到,他和同事已經完成了《星際爭霸II》比較重要的7個操作,和人類玩家操作的效果基本一樣。但有一些任務,比如建造建築、收集資源等,仍然比較困難。下面是Oriol Vinyals的演講實錄:
首先,我想介紹一下,科學家在研究機器學習和人工智慧的時候,究竟在做些什麼?我想和大家分享的不是演算法,而是數據。數據和任務是非常重要的,我們一定要確認我們的技術前沿是什麼,任務是什麼,然後你才能夠找到合理的矩陣來處理這些問題。
有一個很有趣的現象,在技術方面取得重大突破的時間並不長,因為只要找到一個合適的演算法就可以取得這樣的突破。我們在語音識別和圖像分類上都取得了很多里程碑式的進展,我們還利用機器翻譯技術在人類與機器之間架起了一座橋樑。在生成式網路方面我們也有很多應用,比如根據照片生成名人的臉,根據普通馬生成斑馬,根據夏天的圖景來生成冬天的圖景等等。這些方面對圖片的解讀可以說已經非常成功了。
接下來我想與大家探討一下深度強化學習。這是多去幾年中我們基於AlphaGo所做的一些突破性的研究。
深度強化學習與監督學習和人類的學習方式相比,還是有一定區別的。比如對於觀察本身,演算法的觀察是需要環境的,沒有充分的觀察,早期的人形機器人在遇到障礙物的時候往往無法順利應對而摔倒。我們就會想,能不能建立一個模擬環境來訓練這些機器人呢?如果我們有一個很好的環境,我們就可以先去訓練它。也就是說我們一定要有一個很完美的環境才能實現我們的目標。為此,我們建立了虛擬場景,並儘可能地提高它的模擬度。
也只有在這樣的強化環境下,我們才能取得進一步的進展。比如提到應用場景,我們常常會想到遊戲。人們在設計遊戲的時候總是小心翼翼,以確保玩家可以獲得一定的智能化體驗。比如AlphaGo參與的圍棋有3000年的歷史,這是一個非常有挑戰性的環境,因為沒有一個單一的解決方案能確保帶來最好的結果。當然,我們也可以整合不同的能力讓它們玩不同的遊戲,比如通過訓練讓機器人學會下國際象棋。
我們也有專門下圍棋的演算法,這時目標變得更加複雜,玩法也變得更加複雜。目前沒有一台機器可以通過搜索策略的方法來玩好這個遊戲。
那AlphaGo是通過什麼方法來玩這個遊戲的呢?正是強化學習。我們的神經網路可以自動地從數據中學習一些特徵。這樣我們就可以讓它看著棋盤,看人類怎麼走,棋盤上也會顯示出輸贏。也就是說我們不需要展開整個展示走法與輸贏的網路,只要展開一部分網路就可以做出很好的模擬。這是一個很好的突破。
但這樣也不是特別好。因為我們在以人的角度去學習,都要使用數據集來訓練。後來我們隨機地運行遊戲,下過一局之後AlphaGo就可以了解一下比賽是如何進行的,就可以調整整個網路,最終學會下棋。
這些網路是在玩遊戲的過程中不斷訓練提升的。AlphaZero隨機下棋。經過幾天的訓練之後,就學會專業棋手的走法了。
所以,我們第一版的AlphaGo擊敗了樊麾,後來下一個版本在韓國和李世石進行了對弈並取得了勝利。再後來我們進一步地訓練網路,整個網路比之前強了三倍,贏了柯潔和其他專業棋手。我們是從零開始,一點點積累積數據訓練,最後戰勝了專業棋手。
除此之外,我們比較感興趣的是遊戲《星際爭霸II》。這也是是非常有趣和複雜的遊戲,這個遊戲基本上是建造一些建築物以及單位,在同一個地圖裡不同的組織會相互競爭。在這個遊戲中,哪怕只是建造建築物,也需要做出許多決策。而除此之外,我們還要不斷收集和利用資源、建造不同的建築物、不斷擴張,因此整個遊戲非常具有挑戰性。
我們在這個遊戲中使用的方法依舊是強化學習。我們要模仿人類玩這個遊戲的方式,但即使是模仿人類點擊滑鼠和敲擊鍵盤的行為也非常困難。為此,我們引入了一個遊戲引擎。
和圍棋任務最大的不同在於,圍棋可以看到整個棋盤,但是在《星際爭霸II》中我們通常無法看到整個地圖,需要派小兵出去偵查。而且遊戲是不間斷進行的。整個遊戲甚至會有超過5000步的操作。而且對於增強學習,除了上下左右這些普通的移動,我們發現用滑鼠點擊界面控制不同物體的移動以及不同的行為,也是非常難的。我們發布了這個環境,所有人都可以參與其中。我們也發布了相關的報道,這基本上是一個開源的平台,大家可以測試自己的演算法。
我們還沒有完成過整局遊戲,但是完成了操作《星際爭霸II》比較重要的7個操作,比如選擇一個單位並讓它移動過去。我們所使用的演算法能做到這一步,而且和人類玩家操作的效果基本一樣。而另一些任務,比如建造建築、收集資源等,仍然是比較難的。我們測試的演算法,表現會比隨機的環境要好,但和專業玩家還是有一段距離的。
我們的第一版是在Linux平台發布的。我可能是第一個用Linux玩《星際爭霸》遊戲的人。我們的增強學習還是做得非常好的,所以我們可以直接通過人的視角來觀察這個遊戲。如剛才所說的,我們可以將地圖看成一個40×60的像素。從像素來開始進行判斷的話,其實能夠幫助我們更好地去了解機器是怎麼樣玩遊戲的,雖然說機器還沒有辦法完全像人類一樣。
《環球科學》2月刊現已上市
TAG:環球科學 |