官方揭秘OpenAI Five如何打敗人類:遷移學習+海量訓練,10個月訓練4.5萬年
新智元報道
來源:openai
編輯:元子
【新智元導讀】在上周末徹底攻陷了Dota人類頂級職業戰隊OG後,OpenAI站出來介紹了OpenAI Five是如何訓練的、為什麼選擇打Dota以及AI在打Dota的時候在想什麼。
OpenAI Five是第一個在電子競技遊戲中擊敗世界冠軍的人工智慧,在上周末與2-0大敗世界冠軍Dota 2團隊OG,這是AI第一次在直播中擊敗了電子競技專家。
OG和OpenAI開發組
本次比賽還得出了兩個驚人的發現:
儘管訓練的時候專註於擊敗其他瘋狂電腦,但OpenAI Five在比賽中卻展現出和人類玩家的優秀的團隊協作意識。這意味著未來的AI系統可以從競爭型AI轉變為合作型AI
總決賽讓OpenAI的科學家可以回答一個重要的研究問題:OpenAI Five在多大程度、以何種方式能夠被確定的打敗?並且可能是有史以來最大規模的、人們可以有意識地與之交互的高強度深層強化學習智能體的部署
徹底攻陷了人類頂級職業玩家後,OpenAI站出來介紹了OpenAI Five是如何訓練的、為什麼選擇打Dota以及AI在打Dota的時候在想什麼。
為什麼選擇Dota?
OpenAI Five的初衷是為了解決現有深度強化學習演算法無法實現的問題。為此需要大幅增加工具的的能力、複雜的演算法思想(例如分層強化學習)。
OpenAI Five將世界視為一堆必須破譯的數字。它使用相同的通用學習代碼,無論這些數字代表Dota遊戲(約20,000個數字)或機器人手(約200個)的狀態
為了構建OpenAI Five,研究人員創建了一個名為Rapid的系統,以前所未有的規模運行PPO。結果超出了研究人員最大的期望,產生出了世界級的Dota機器人,沒有觸及任何基本的性能限制。
當今的監督學習演算法之所以能有如此強大功能,是以大量經驗為代價的,這在遊戲或模擬環境之外是不切實際的。研究人員認為減少經驗量是深度學習的下一個挑戰。
研究人員表示,從今天開始OpenAI Five將不會繼續打比賽,但取得的進步和技術的發展將繼續推動未來的工作。研究人員認為Dota對於監督學習開發來說比現在使用的標準環境更具有內在的趣味性和難度。
算力
OpenAI Five這次的勝利是由於一次重大變化:訓練計算量增加了8倍。前期階段研究人員通過提高培訓規模來推動進一步的發展,之後將絕大部分算力用於培訓單一的OpenAI Five模型,相當於延長了訓練時間。
總的來說,當前版本的OpenAI Five已經消耗了800 petaflop/s-days,並且在10個實時月內獲得了45000年的遊戲經驗,平均每天獲得250年的模擬經驗。OpenAI Five的總決賽版本與TI版本相比,勝率為99.9%。
遷移學習
儘管模型大小和遊戲規則發生了變化,但目前版本的OpenAI Five自2018年6月以來一直在不斷訓練。在每種情況下,研究人員都能夠將模型轉移並繼續培訓,這對於其他領域的監督學習來說是一個開放的挑戰。
據悉,這可能是監督學習智能體第一次使用如此長期的訓練課程進行訓練。
更多Dota英雄
研究人員看到從訓練5個英雄到訓練18英雄速度並沒有減弱的很明顯,於是假設對更多英雄來說也是如此,隨後開始大量嘗試整合新英雄。
研究人員花了幾個星期的時間訓練英雄池,最多達到了25個英雄。將這些英雄帶到大約5k MMR(大約95%的Dota玩家)。儘管在進步,但學習速度還不夠快,無法在總決賽之前達到職業水平。
研究人員沒有太多時間調查原因,但他們認為可能需要更好的匹配擴展的英雄池,需要更多的訓練時間讓新英雄達到老英雄的同等水平。想像一下當你習慣了某個英雄後,學習新英雄的難度是多麼大!
協同模式
它實際上感覺很好; 我的毒蛇在某些時候為我獻出了生命。 他試圖幫助我,想著「我確定她知道她在做什麼」然後顯然我沒有。 但是,你知道,他相信我。 對於[人類]隊友,我並沒有那麼多.-無論如何
在總決賽期間,研究人員展示了OpenAI Five與人類一起在團隊中的表現,兩隊的成員都是2個真人帶3個智能體
OpenAI Five與人類的協同作戰能力為人類與人工智慧互動的未來提供了一個引人注目的願景:人工智慧系統能夠和人類協作並增強人類體驗。
玩家認為從機器人隊友哪裡感受到了戰友之情,並從這些先進的系統中學到了很多東西,整體來說是一種有趣的體驗。
值得注意的是,OpenAI Five展示了zero-shot遷移學習,與人類並肩作戰或者對抗人類。研究人員非常驚訝這一點和它一樣有效。事實上,研究人員考慮在國際上進行協同作案韓比賽,但認為需要專門的訓練。
OpenAI Five Arena
目前研究人員還不知道OpenAI Five在多大程度上能夠通過更機智的策略被擊敗,所以研究人員推出了OpenAI Five Arena。這是一項公開的實驗,任何人都可以跟OpenAI Five組隊或者對戰。
競技場於4月18日星期四太平洋標準時間下午6點開放,並於4月21日星期日太平洋標準時間晚上11:59關閉。玩家需要註冊,所有遊戲的結果將自動報告給競技場公共排行榜。
下一步幹什麼
一旦研究人員審查了OpenAI Five Arena的結果,研究人員將發布對OpenAI Five的更多技術分析,之後將繼續使用OpenAI中的Dota 2環境。
研究人員已經看到過去兩年在監督學習能力方面取得了快速進展,並認為Dota 2將在推進無論是通過較少的數據還是真正的人工智慧合作實現有能力的表現方面,持續提供幫助。
參考鏈接
https://openai.com/blog/how-to-train-your-openai-five/
註冊地址:
https://arena.openai.com/
※對 ResNet 本質的一些思考
※極限速度!10億位超級大整數相乘僅需30秒,半個世紀的猜測終被證明
TAG:新智元 |