OpenAI 官方解密!AI 打Dota,你也可以
在上周的Dota 2 人機最終決戰中,OpenAI Five 迎戰世界冠軍 OG,在一場三局兩勝比賽中連贏兩局,成為第一個在電子競技遊戲中擊敗世界冠軍的人工智慧。
近日,OpenAI 在其博客中發布了關於其OpenAI Five的更多技術解讀,並透露下一步的目標,文章編譯如下(經過基於願意的刪改):
OpenAI Five 和 DeepMind 的 AlphaStar 之前曾私下擊敗過優秀的職業選手,但在直播比賽中都輸掉了比賽。本場比賽也是 AI 第一次在直播中擊敗了電子競技專家。
圖丨 OG 隊伍與 OpenAI Five 研發團隊合影(來源:OpenAI )
本場比賽中,OpenAI Five 還展示了兩個驚喜:
1. OpenAI Five 掌握了成為人類隊友的基本能力,儘管在訓練過程中只是專註於擊敗其他 AI。如果將競爭性 AI 轉變為合作型 AI 比較容易的話,那麼未來 AI 系統將會對人類有很大幫助。
2. 從 4 月 18 日到 21 日,OpenAI 將開放一個專門的競技場,人類在該平台既可以與 AI 組隊,也可以組隊與 AI 對抗。該測試將回答一個重要的研究問題——目前的 OpenAI Five 在多大程度上可以幫助隊友或以其他方式被戰勝。OpenAI Five 可能是有史以來最大規模的人類可以有意識的與之交互的深度強化學習的超強智能體(與 OpenAI Five 比賽的網址:https://arena.openai.com/)。
圖丨自去年在國際邀請賽輸掉比賽以來,OpenAI Five 與半職業隊伍 Lithium 和職業隊伍 SG esports, Alliance, OG 的交手記錄(來源:OpenAI )
為什麼選擇Dota 遊戲?
OpenAI Five 項目本身是為了以解決現有深度強化學習演算法無法解決的問題,為實現這一目標,需要大幅提高 OpenAI Five 的能力。OpenAI 本期望於分層強化學習等複雜的演算法,但後來發現:解決這一問題的最基本需求是計算規模。實現和利用這種規模並不容易,本項目的大量努力都耗費於此。
為了構建OpenAI Five,OpenAI 創建了一個名為Rapid的系統,以前所未有的規模運行 PPO(Proximal Policy Optimization,臨近決策優化)。結果超出預期,OpenAI 製造出了最頂級的 Dota 人工智慧,沒有觸及任何基本的性能限制。
當今強化學習演算法的強大能力是以大量經驗為代價的,這對遊戲或模擬環境之外即真實環境來說,是不切實際的。不過這種限制可能沒有聽起來那麼糟糕——例如,OpenAI 使用 Rapid 系統來模擬控制機械臂靈活躲避障礙物,在真實環境的機械臂上也能成功執行。但是 OpenAI 認為減少經驗量是強化學習的下一個挑戰。
OpenAI Five 宣布「退休」,但已取得的進展和技術的進步將繼續推動未來的工作。OpenAI 認為 Dota 對於強化學習發展來說比目前已有的標準環境更具有內在的趣味性和難度(不過目前已經沒那麼困難了)。
圖丨OpenAI Five 將世界視為大量編碼的數值。它使用相同的學習代碼,無論這些數字代表 Dota 遊戲中的狀態(約 20,000 個數值)或機械臂(約 200 個數值)的狀態(來源:OpenAI )
上周六OpenAI Five 的勝利與 2018 年的國際邀請賽的失敗相比,有一個重大變化:訓練計算量增加了 8 倍。
在項目的早期階段,OpenAI 已經通過提高訓練計算規模來推動增強模型。但是在那場比賽之後,OpenAI 已經將項目的絕大部分計算資源用於訓練單一的 OpenAI Five 模型。因此,OpenAI 採用了可用的唯一方式增加了計算規模:增加訓練時長。
圖丨 OpenAI Five 的 TrueSkill 評分系統。隨著訓練時間延長,豎線劃分了主要的系統變化(轉向單一信使(courier);將 LSTM 隱層大小增加到 4096;升級到版本 7.20 和 7.21;以及開始學習買活 (buypack))。該圖大致是線性的,這意味著 OpenAI Five 從延長訓練時間中不斷受益(注意這是一個對數 - 對數圖,因為 x 軸是計算力的對數,而 TrueSkill 評分大致相當於指數增長)。這個圖表評估了最終遊戲規則(1 個信使,補丁 7.21 等等)上的所有 AI——即使是在舊遊戲標準上訓練的 AI。圖像上的陡坡表明 OpenAI Five 適應了這種變化;這種變化說明評估可能對之前的版本不公平(來源:OpenAI )
總的來說,當前版本的OpenAI Five 已經消耗了800 petaflop / s-days(1 petaflop / s 是每秒 1015 次浮點數運算,1 petaflop / s-days 相當於一天執行了 1020 次浮點數運算)的計算規模,共訓練 10 個月,經歷約 45000 年的 Dota 模擬對局時長(自上屆國際邀請賽開始則是一個半月,總對局時長約 10000 年),平均每天 250 年的模擬對局。OpenAI Five 的最終版本與去年的 TI 版本相比,勝率為 99.9%。
儘管模型大小和遊戲規則發生了變化(包括一些相當大的遊戲補丁更新和新實現的功能),但目前版本的OpenAI Five 自 2018 年 6 月以來一直在不斷訓練。每次變化時,OpenAI 都能夠將模型遷移至新環境並繼續訓練——而這種遷移學習對於其他領域的強化學習模型來說仍然非常有挑戰。這應該是強化學習智能體第一次使用如此長的訓練時間。
為了使這種遷移奏效,OpenAI 利用「手術工具包」(OpenAI 遷移參數的工具),甚至可以適應跨越重大架構變化。
另外,英雄數量從5 增大到 18 後,訓練速度幾乎沒有下降。OpenAI 假設增加更多英雄也不會影響訓練速度,在 2018 年的 Dota 國際邀請賽之後,OpenAI 投入了大量精力來整合新的英雄。
OpenAI 花了幾個星期的時間訓練增大到 25 個英雄的英雄池,將這些英雄訓練到大約 5000 MMR(匹配分級,該水平相當於大約 95%的 Dota 玩家)。儘管模型還在進步,但模型的學習速度還不夠快,無法在總決賽之前達到職業水平。OpenAI 尚未發現原因,他們假設模型容量不足或者需要更好的匹配擴展的英雄池,或者需要更多的訓練時間讓新英雄趕上老英雄。想像一下,當人類精通老英雄之後,人類學習新英雄的難度是多麼大!
OpenAI 相信這些問題從根本上是可以解決的。總決賽版本有 17 位英雄上場,相比上屆比賽,刪除了巫妖,因為他的能力在 Dota 版本 7.20 中發生了顯著變化。
(來源:OpenAI )
在大賽期間,展示了一場 OpenAI Five 與人類組隊的對局。這場比賽一邊是 Blitz 和 Sheever 以及由 OpenAI Five 控制的 3 個 AI,另一邊則是 ODPixel 和 Capitalist 和 3 個 AI。
OpenAI Five 與人類合作的能力為人類與未來人工智慧互動的提供了一個值得期待的場景,即人工智慧系統與人類協作並增強人類體驗。幾位參與人機組隊對局的選手報告說,他們感受到了 AI 隊友的支撐,他們從與這些先進的 AI 系統中學到了很多東西,而且就整局比賽來說也是一種有趣的體驗。
請注意,這相當於一種零樣本(zero-shot)遷移學習——訓練時對局雙方均為 AI 控制,但卻可以泛化(generalize)在與人類組隊協作的場景上。事實上,OpenAI 考慮舉辦 AI 與人類協作的比賽,本以為需要為此專門訓練。
下一步:「競技場」解密
OpenAI 推出了 OpenAI Five 「競技場」(https://arena.openai.com/),於 4 月 18 日星期四太平洋標準時間下午 6 點開放,並於 4 月 21 日星期日太平洋標準時間晚上 11:59 關閉。
作為一項開放實驗,這個允許任何人在對抗或者合作模式下與 OpenAI Five 對局遊戲。OpenAI 的 1v1 機器人可以通過聰明的策略來利用 ; 但不知道 OpenAI Five 在多大程度上也是如此,OpenAI 期待玩家社區能夠幫助找到答案。
(來源:OpenAI )
接下來,OpenAI 在審查 OpenAI Five Arena 的結果之後,將發布對 OpenAI Five 的更多技術分析。
之後,OpenAI 將繼續使用 OpenAI 中的 Dota 2 環境,這一環境給強化學習帶來大量的進展,Dota 2 將繼續幫助推進可行的方案——無論是通過較少的數據還是真正的人類-AI 合作實現更大的突破。
-End-
編輯:李根
參考:
https://openai.com/blog/how-to-train-your-openai-five/
坐標:北京·國貿
請隨簡歷附上3篇往期作品(實習生除外)
※斯坦福最新調查結果:賀建奎事件並無該校研究人員參與
※三星Galaxy Fold手機只用1天屏幕就壞了!摺疊屏手機前景堪憂
TAG:DeepTech深科技 |