「你行你上」：有本事跟OpenAI Five打一把DOTA？| 極客頭條

知識 04-22

整理 | 一一

出品 | AI科技大本營（ID:rgznai100）

你們不是嫌棄世界冠軍 OG 團隊實力太水嗎？「你行你上」的機會來了。

4 月 14 日凌晨，OpenAI Five 以 2:0 擊敗了 DOTA 世界冠軍團隊 OG 引發熱議。比賽當天，OpenAI 也宣布要開放 OpenAI Five 競技場模式，讓每個感興趣的人都參與其中。

4 月 18 日（太平洋標準時間）下午 6 點，OpenAI 如約開放了這一模式，全世界各路玩家都可以免費進行體驗。開放時間為期三天，4 月 21 日(太平洋標準時間)晚上 11 點 59 分關閉，要體驗一把人機對戰的話可得抓緊時間。

參賽鏈接：https://arena.openai.com/#/

目前從其官網賽況來看，截止今天早上 10 點，OpenAI Five 與參與者打了 424 場比賽，AI 以 112-0 完勝人類玩家。

「你行你上」：有本事跟OpenAI Five打一把DOTA？| 極客頭條

以下是人類參與者的部分賽況：

「你行你上」：有本事跟OpenAI Five打一把DOTA？| 極客頭條

據 OpenAI 官方介紹，參與者可以在競爭模式和合作模式下體驗 OpenAI Five。他們的 1v1 機器人可以通過巧妙的策略加以利用，但他們也並不知道 OpenAI Five 能在多大程度上可以做到這一點。

「你行你上」：有本事跟OpenAI Five打一把DOTA？| 極客頭條

在此前決賽中，他們展示了 OpenAI Five 和人類在合作模式打遊戲。一組是 Sheever、Blitz 和三個 OpenAI Five，對手是由 Capitalist、ODPixel 和三個 OpenAI Five 組成的團隊。

不過，通過 OpenAI Five 在決賽上的表現，OpenAI 團隊在最新的博客中分享了兩個驚喜：

儘管訓練 OpenAI Five 系統的目的是為了打敗其他機器人，但他們卻發現 OpenAI Five 其實還有與人類成為隊友的基本能力，也就是說可以將一個競爭型 AI 變為合作型 AI。他們認為，如果能更努力去開發，未來 AI 系統能為人類做出非常多的貢獻。
4 月 18 日到 21 日的競技場模式測試將回答一個很重要的研究問題——OpenAI Five 的潛能可以被人類運用到何種程度，或者它們在其他哪些方面必定會被打敗。OpenAI Five 這一深度強化學習智能體系統，可能會成為有史以來人類能與之交互的最大的 AI 部署系統。

「你行你上」：有本事跟OpenAI Five打一把DOTA？| 極客頭條

OG戰隊與OpenAI開發團隊

對於 OpenAI Five 競技場模式，有很多人報以期待，reddit 上有網友評論稱，「這特么太酷了，自從 OpenAI 1v1 首秀之後，人們已經要求要在網上跟機器人玩遊戲了，現在它真的發生了！」

「你行你上」：有本事跟OpenAI Five打一把DOTA？| 極客頭條

只是，如果在競爭模式跟 AI 打 DOTA，作為人類玩家的你會不會慘遭OpenAI Five 的虐殺，而輸得毫無懸念呢？祝你們好運。

當然，玩遊戲之餘，你可能也想知道：OpenAI Five 取得勝利背後的「秘訣」是什麼？為什麼這次的 OpenAI Five 系統要比去年在 TI 表演賽上敗給人類的AI系統更強？OpenAI 是如何訓練 OpenAI Five 系統的？OpenAI 團隊最近給出了解讀。

為什麼是 DOTA2？

一開始，OpenAI 團隊研究 OpenAI Five 是為了解決超出現有深度強化學習演算法能力範圍的問題，他們希望通過現有的方法解決當下無法解決的問題，原以為這需要複雜的演算法思想（比如分層強化學習（Hierarchical RL）），但他們驚訝地發現只需要改進的是規模，但實現和利用這個規模並不容易，這成了其研究的主要內容。

「你行你上」：有本事跟OpenAI Five打一把DOTA？| 極客頭條

OpenAI Five 把世界看作是一串必須破譯的數字。無論這些數字是以 DOTA 遊戲形式（約 20000 個數字），還是以機械手形式（約 200 個），使用的都是通用學習代碼。

為了創建 OpenAI Five，OpenAI 團隊創造了一個名為 Rapid 的系統，用來以從未有過的規模去運行 PPO（Proximal Policy Optimization），結果出人意料，居然創造了一個不受任何基本性能限制的世界級 DOTA 機器人。

如今，RL 演算法表現出了驚人的能力，但它在遊戲或模擬環境之外卻用處不大，但這個限制可能並沒有聽起來的那麼糟糕，例如可以使用 Rapid 來控制機械手來重新移動一個模塊，這需要首先進行模擬訓練，然後在物理機器人上執行。他們認為，對於 RL 的下一個挑戰是減少對經驗的依賴。

雖然他們決定不再讓 OpenAI Five 成為競爭對手，但社會進步和技術發展將繼續推動未來的研究，這也並非 DOTA 比賽研究的終點，他們認為 DOTA 比賽對 RL 開發來說是一個比現在使用的標準環境更有趣、更複雜、也更好理解的環境。

算力

與 DOTA2 在去年的 TI 表演賽的失利相比，OpenAI Five 在 4 月 14 日戰勝 OG 團隊的主要原因是其訓練的計算量增加了 8 倍。去年比賽後，OpenAI 團隊將項目中的絕大部分計算用於訓練 OpenAI Five 模型，同時還增加了訓練時間。

「你行你上」：有本事跟OpenAI Five打一把DOTA？| 極客頭條

OpenAI Five 的 TrueSkill，由於已經使用了額外的訓練計算，所以用線來劃分主要的系統變化。這張圖的走向大致是線性的，意味著 OpenAI Five 不斷從額外計算中獲益。

總之，OpenAI Five 的當前版本已經訓練了 800 petaflop/s /天，並且在10個實時月的時間內進行相當於人類大約 45000 年時長的 DOTA 遊戲自我訓練，相當於人類每天平均有 250 年的模擬訓練。OpenAI Five 的最終版本與 TI 版本相比，勝率是 99.9%。

18 個英雄

從訓練 5 名英雄到 18 名英雄時的訓練進度幾乎沒有放緩，他們已經假設同樣的情況如果發生在更多的英雄身上會怎樣。TI比賽後，又花了很多精力去整合新的英雄。

他們花了幾周時間去訓練多達 25 個英雄的英雄池，將這些英雄帶到大約 5k MMR(大約是95% DOTA 玩家的水平)。雖然在進步，但學習速度不夠快，無法在決賽前達到職業水平。研究人員還沒有時間去找到原因，但後來發現模型容量不足，需要更好的匹配來擴展英雄池，還需要更多的訓練時間來讓新英雄趕上老英雄。但想像一下，當一個人掌握了自己的英雄時，再去學習一個新英雄是多麼困難。

對了，這裡明明說訓練了 18 個英雄，但為什麼在與 OG 比賽時只放了 17 個英雄？因為還有一個英雄在 DOTA v7.20 版本中出現了明顯變化，所以就沒用。

最後，這麼好的機會，要不要去體驗下被機器人在 DOTA 中碾壓的酸爽感？

（本文為AI科技大本營整理文章，轉載請微信聯繫1092722531）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 CSDN 的精彩文章:

※00後的AI開發者進階之道：從入門到鏖戰MIT編程大賽 | 人物誌
※開源即為自由與免費？ | 暢言

TAG:CSDN |