「你行你上」:有本事跟OpenAI Five打一把DOTA?| 極客頭條
整理 | 一一
出品 | AI科技大本營(ID:rgznai100)
你們不是嫌棄世界冠軍 OG 團隊實力太水嗎?「你行你上」的機會來了。
4 月 14 日凌晨,OpenAI Five 以 2:0 擊敗了 DOTA 世界冠軍團隊 OG 引發熱議。比賽當天,OpenAI 也宣布要開放 OpenAI Five 競技場模式,讓每個感興趣的人都參與其中。
4 月 18 日(太平洋標準時間)下午 6 點,OpenAI 如約開放了這一模式,全世界各路玩家都可以免費進行體驗。開放時間為期三天,4 月 21 日(太平洋標準時間)晚上 11 點 59 分關閉,要體驗一把人機對戰的話可得抓緊時間。
參賽鏈接:https://arena.openai.com/#/
目前從其官網賽況來看,截止今天早上 10 點,OpenAI Five 與參與者打了 424 場比賽,AI 以 112-0 完勝人類玩家。
以下是人類參與者的部分賽況:
據 OpenAI 官方介紹,參與者可以在競爭模式和合作模式下體驗 OpenAI Five。他們的 1v1 機器人可以通過巧妙的策略加以利用,但他們也並不知道 OpenAI Five 能在多大程度上可以做到這一點。
在此前決賽中,他們展示了 OpenAI Five 和人類在合作模式打遊戲。一組是 Sheever、Blitz 和三個 OpenAI Five,對手是由 Capitalist、ODPixel 和三個 OpenAI Five 組成的團隊。
不過,通過 OpenAI Five 在決賽上的表現,OpenAI 團隊在最新的博客中分享了兩個驚喜:
- 儘管訓練 OpenAI Five 系統的目的是為了打敗其他機器人,但他們卻發現 OpenAI Five 其實還有與人類成為隊友的基本能力,也就是說可以將一個競爭型 AI 變為合作型 AI。他們認為,如果能更努力去開發,未來 AI 系統能為人類做出非常多的貢獻。
- 4 月 18 日 到 21 日的競技場模式測試將回答一個很重要的研究問題——OpenAI Five 的潛能可以被人類運用到何種程度,或者它們在其他哪些方面必定會被打敗。OpenAI Five 這一深度強化學習智能體系統,可能會成為有史以來人類能與之交互的最大的 AI 部署系統。
OG戰隊與OpenAI開發團隊
對於 OpenAI Five 競技場模式,有很多人報以期待,reddit 上有網友評論稱,「這特么太酷了,自從 OpenAI 1v1 首秀之後,人們已經要求要在網上跟機器人玩遊戲了,現在它真的發生了!」
只是,如果在競爭模式跟 AI 打 DOTA,作為人類玩家的你會不會慘遭OpenAI Five 的虐殺,而輸得毫無懸念呢?祝你們好運。
當然,玩遊戲之餘,你可能也想知道:OpenAI Five 取得勝利背後的「秘訣」是什麼?為什麼這次的 OpenAI Five 系統要比去年在 TI 表演賽上敗給人類的AI系統更強?OpenAI 是如何訓練 OpenAI Five 系統的?OpenAI 團隊最近給出了解讀。
為什麼是 DOTA2?
一開始,OpenAI 團隊研究 OpenAI Five 是為了解決超出現有深度強化學習演算法能力範圍的問題,他們希望通過現有的方法解決當下無法解決的問題,原以為這需要複雜的演算法思想(比如分層強化學習(Hierarchical RL)),但他們驚訝地發現只需要改進的是規模,但實現和利用這個規模並不容易,這成了其研究的主要內容。
OpenAI Five 把世界看作是一串必須破譯的數字。無論這些數字是以 DOTA 遊戲形式(約 20000 個數字),還是以機械手形式(約 200 個),使用的都是通用學習代碼。
為了創建 OpenAI Five,OpenAI 團隊創造了一個名為 Rapid 的系統,用來以從未有過的規模去運行 PPO(Proximal Policy Optimization),結果出人意料,居然創造了一個不受任何基本性能限制的世界級 DOTA 機器人。
如今,RL 演算法表現出了驚人的能力,但它在遊戲或模擬環境之外卻用處不大,但這個限制可能並沒有聽起來的那麼糟糕,例如可以使用 Rapid 來控制機械手來重新移動一個模塊,這需要首先進行模擬訓練,然後在物理機器人上執行。他們認為,對於 RL 的下一個挑戰是減少對經驗的依賴。
雖然他們決定不再讓 OpenAI Five 成為競爭對手,但社會進步和技術發展將繼續推動未來的研究,這也並非 DOTA 比賽研究的終點,他們認為 DOTA 比賽對 RL 開發來說是一個比現在使用的標準環境更有趣、更複雜、也更好理解的環境。
算力
與 DOTA2 在去年的 TI 表演賽的失利相比,OpenAI Five 在 4 月 14 日戰勝 OG 團隊的主要原因是其訓練的計算量增加了 8 倍。去年比賽後,OpenAI 團隊將項目中的絕大部分計算用於訓練 OpenAI Five 模型,同時還增加了訓練時間。
OpenAI Five 的 TrueSkill,由於已經使用了額外的訓練計算,所以用線來劃分主要的系統變化。這張圖的走向大致是線性的,意味著 OpenAI Five 不斷從額外計算中獲益。
總之 ,OpenAI Five 的當前版本已經訓練了 800 petaflop/s /天,並且在10個實時月的時間內進行相當於人類大約 45000 年時長的 DOTA 遊戲自我訓練,相當於人類每天平均有 250 年的模擬訓練。OpenAI Five 的最終版本與 TI 版本相比,勝率是 99.9%。
18 個英雄
從訓練 5 名英雄到 18 名英雄時的訓練進度幾乎沒有放緩,他們已經假設同樣的情況如果發生在更多的英雄身上會怎樣。TI比賽後,又花了很多精力去整合新的英雄。
他們花了幾周時間去訓練多達 25 個英雄的英雄池,將這些英雄帶到大約 5k MMR(大約是95% DOTA 玩家的水平)。雖然在進步,但學習速度不夠快,無法在決賽前達到職業水平。研究人員還沒有時間去找到原因,但後來發現模型容量不足,需要更好的匹配來擴展英雄池,還需要更多的訓練時間來讓新英雄趕上老英雄。但想像一下,當一個人掌握了自己的英雄時,再去學習一個新英雄是多麼困難。
對了,這裡明明說訓練了 18 個英雄,但為什麼在與 OG 比賽時只放了 17 個英雄?因為還有一個英雄在 DOTA v7.20 版本中出現了明顯變化,所以就沒用。
最後,這麼好的機會,要不要去體驗下被機器人在 DOTA 中碾壓的酸爽感?
(本文為AI科技大本營整理文章,轉載請微信聯繫1092722531)
※00後的AI開發者進階之道:從入門到鏖戰MIT編程大賽 | 人物誌
※開源即為自由與免費? | 暢言
TAG:CSDN |