如何訓練出專屬的 OpenAI Five?
雷鋒網 AI 科技評論:上周末,成功擊敗 Dota 2 世界冠軍團隊 OG 的 OpenAI Five 再次贏得全球矚目。勝利的背後,OpenAI Five 的背後有哪些不為人知的故事呢?OpenAI 官方博客近日發布了一篇涉及幕後的解讀文章,雷鋒網 AI 科技評論將之編譯如下。
OpenAI Five 是首個成功在電子競技遊戲中擊敗世界冠軍的人工智慧,在本周末與 Dota 2 世界冠軍團隊 OG 的最終對決中,接連贏得了兩場比賽。在過去,無論 OpenAI Five 還是 DeepMind 的 AlphaStar 都曾私下擊敗過優秀的職業選手,卻輸掉現場的職業比賽,因此,我們也可以將該事件視作 AI 第一次在直播中擊敗電子競技專家。
在 OpenAI Five 與人類世界冠軍的最終對決中,我們發現了兩個意外的驚喜:
OpenAI Five 自行發展出與人類隊友打配合的基本能力,儘管我們的訓練過程主要專註於如何擊敗其他機器人。這種將競爭性 AI 轉變為合作型 AI 的可能性,讓我們對未來 AI 系統將如何通過積極的開發工作造福人類充滿了希望。
4 月 18 日——4 月 21 日期間,我們將 OpenAI Five 對全世界的 DOTA2 玩家開放,每個人都可以和 OpenAI Five 在線對戰,無論是作為競爭者亦或是還是合作者。最終的測試結果將能回答一個重要的研究問——OpenAI Five 可以在多大的程度上被人類所利用與依靠。這可能是有史以來最大規模的高強度深層強化學習 agent 的部署行為,人們可以有意識地與之進行交互。
感興趣的童鞋可點擊以下網址與 OpenAI Five 一同比賽:
為何是 Dota?
我們之所以啟動 OpenAI Five 研究,目的是解決現有深度強化學習演算法無法實現的問題。我們希望在這個當前方法所無法解決的問題上努力,原以為需要大幅提升工具的性能,比如複雜的演算法思想(例如:分層強化學習),但我們卻對最終的發現感到驚訝:該問題所需的根本改進在於規模。如何實現該規模並加以運用,其實並不容易,也是我們研究工作的主要內容!
OpenAI Five 將世界視作一堆必須破譯的數字,使用的是同樣的通用學習代碼,無論這些數字代表的究竟是 Dota(約 20,000 個數字)還是機器臂(約 200 個數字)。
為了打造 OpenAI Five,我們創建一個名為 Rapid 的系統,可以讓我們以前所未有的規模來運行 PPO。最終結果超出了我們最高期望值,我們成功打造出世界級別的 Dota 機器人,基本不存在任何的基本性能限制。
當今 RL 演算法令人驚嘆的強大能力是以大量的經驗作為代價的,要想脫離遊戲或模擬環境來實現是不切實際的。當然,這種局限可能並沒有聽起來的那麼糟糕——比如我們可以通過 Rapid 系統控制機械臂以靈巧地移動方塊,首先在全模擬環境中進行訓練,然後在物理機器人上執行。不過,我們認為如何減少對經驗的依賴是 RL 的下一個挑戰。
我們今天宣布,作為競爭性 AI 的 OpenAI Five 已經退役了,但它所取得的進步與技術進展將繼續推動我們未來的工作發展。總之,這不是我們 Dota 工作的終點——我們認為,比起現在慣用的標準環境,Dota 對於 RL 開發而言更具有趣味性與難度(如今已很好理解!)。
計算力
將 OpenAI Five 周六的勝利與 The International 2018 的 losses 相比,會發現勝利是基於該項重大變化:增加了 8 倍的訓練計算量。在項目的許多前期階段,我們都是通過提升訓練規模來推動研究進程。但在 The International 以後,我們已將項目的絕大部分算力用於培訓單一的 OpenAI Five 模型。因此,我們只能以唯一可行的方式來增加計算規模:更長的訓練時間。
OpenAI Five 的 TrueSkill,由於增加了額外的訓練算力,其中線條劃分了主要系統的變化(轉向單一快遞;將 LSTM 的大小增加至 4096 units;升級至 7.20 和 7.21 補丁版本;以及開始學習 buyback)。該圖大致上是線性的,這意味著 OpenAI Five 從額外的算力中不斷受益(請注意,這是一個對數 - 對數圖,x 軸是計算的對數,而 TrueSkill 大致對應於指數的進展)。該圖表評估了在最終遊戲規則(1 個 courier,7.21 補丁,等)上所有機器人的表現——包括那些在舊遊戲規則上進行訓練過的機器人。任何在這些之後的陡坡則表明 OpenAI Five 適應了這種變化;根據這種變化,該評估可能對早前版本的有些不公平。
總的來說,當前版本的 OpenAI Five 已經消耗了 800 petaflop / s-days,並且在 10 個實時月的時間內經歷了大約 45,000 年的 Dota 自行遊戲(從 The International 的 1.5 個實時月份開始算起的話,大約晉級了 10,000 年),即是平均每天 250 年的模擬經驗。總決賽版本的 OpenAI Five 與 TI 版本相比,勝率為 99.9%。
遷移學習
儘管模型大小和遊戲規則發生了變化(包括一些相當大的遊戲補丁更新和新實現的功能),但自 2018 年 6 月以來,當前版本的 OpenAI Five 一直在持續訓練。在每一種情況下,我們都能夠轉移模型,並繼續對其他領域的 RL 進行訓練,這是一個開放的挑戰。據我們所知,這是第一次對 RL 代理進行長期訓練。
為了實現這一點,我們繼續完善我們的工具,這樣我們就可以從經過訓練的參數開始,直至從根本上更改架構。
更多英雄
我們看到從 5 到 18 位英雄的訓練速度幾乎沒有慢下來。我們假設更多的英雄也會有同樣的情況,而在國際上,我們投入了大量的努力來整合新的英雄。
我們花了幾周時間訓練多達 25 個英雄的英雄池,使這些英雄達到大約 5 千 MMR(約 95% 的 DOTA 玩家的水平)。雖然他們還在進步,但他們的學習速度不夠快,無法在決賽前達到專業水平。我們還沒有時間來調查原因,但我們認為原因可能是模型能力、需要更好地匹配擴展的英雄池、需要更多的訓練時間讓新英雄趕上舊英雄等。
我們相信這些問題是可以從根本上解決的,解決它們本身就很有趣。總決賽版本與 17 個英雄一起比賽,我們移除了巫妖,因為他的能力在 DOTA7.20 版本中發生了顯著變化。
合作模式
感覺真好,我的冥界亞龍在某個時刻為我獻出了生命。他試圖幫助我,他認為「我確定她知道她在做什麼」,但顯然我不知道。但你知道,他非常信任我。我對(人類)隊友不太了解。——Sheever
OpenAI Five 與人類一起玩的能力為人類和人工智慧交互的未來提供了一個美好的願景,在未來,人工智慧系統將與人類協作並增強人類體驗。我們的測試人員說,他們感覺得到了機器人隊友的支持,他們從與這些先進系統一起玩的過程中學到了經驗,總體來說,這是一次有趣的體驗。
值得注意的是,OpenAI Five 展示了零樣本遷移學習——它被訓練為讓所有英雄都由自己的副本控制,但是可以控制英雄的一個子集,與人類是戰友或者敵人。我們很驚訝這項工作做得這麼好。事實上,我們曾經考慮過在國際比賽中舉行一場合作賽,但這需要進行專門的訓練。
Arena
我們將推出 OpenAI Five Arena,這是一個公共實驗,我們將讓任何人以競爭和合作的方式玩 OpenAI Five。我們的 1v1 機器人可以通過巧妙的策略加以利用,但我們不知道 OpenAI Five 在多大程度上可以做到這樣,我們很高興邀請社區幫助我們發現這一點!
Arena 將於太平洋時間 4 月 18 日下午 6 點開放,並將於 4 月 21 日下午 11:59 關閉。請註冊賬號,以便我們確保您所在地區有足夠的伺服器容量!所有比賽的結果將自動報告到 Arena 的公共排行榜。
我們非常感謝 DOTA 社區在過去兩年里給予我們的所有支持,我們希望 Arena 也能成為回報的社區的一個小途徑。玩得開心!
接來下是什麼
我們回顧了 Openai Five Arena 的成果,接下來,我們將發布 Openai Five 的更加技術性的分析。
之後,我們將繼續在 OpenAI 中使用 DOTA2 環境。在過去兩年,我們見證了 RL 能力的快速發展,我們認為 DOTA 2 將繼續幫助我們推進未來的研究——無論是用更少的數據獲得更好的表現,亦或是真正實現人和人工智慧的合作。
雷鋒網 AI 科技評論
※天際汽車宣布完成超20億元A輪融資 由大型上市公司領投
※吉利純電動品牌幾何A:極簡設計、智能駕駛背後暗含大野心
TAG:雷鋒網 |