Dota2人類靠「手段」贏下AI一局!AI最終以2:1戰勝Dota2頂尖玩家團隊,劍指職業隊
北京時間 8 月 6 日凌晨,OpenAI的AI系統又跟人類打了三場Dota 2比賽,最終2:1 戰勝了人類隊伍!
此次比賽旨在檢驗 AI 系統是否具備在TI8(2018 年 Dota2 國際邀請賽)上與頂尖職業強隊一較高低的水平。如此看來,OpenAI 又將邁向新的征程。
這次代表人類出戰的是 Blitz,Cap,Fogged,Merlini 和MoonMeander,他們是歐美 Dota 圈耳熟能詳的主播、解說和前職業選手和現役職業選手,其中 Merlini 更是 Dota 1 的宙斯冠名者,經典的「繞樹林三殺」引無數玩家傳頌。據 OpenAI 官網介紹,他們的平均水平超過了 99.95% 的 Dota2 玩家,不過5人並沒有在一起訓練過,默契程度有限。
DOTABUFF 的數據顯示,他們都進入了超凡入聖天梯排行榜,其中天梯排名最高的是現役 Complexity 隊員 MoonMeander,美服第 40 名,排名最低的是解說 Capitalist,美服第 1054 名。
與一個多月前的 5V5 鏡像英雄 Dota2 比賽不同,這一次,OpenAI 不僅擴大了英雄池,允許雙方以隨機徵召模式挑選英雄(無禁用),而且將 AI 系統的反應速度從 80ms 增加到了 200ms,更接近人類的反應速度,同時還移除了此前多種對人類不利的限制:
圖丨比賽限制
相比之下,最大的變化就是新的規則允許選手插眼、隱身(使用隱刀或詭計之霧等)和打 Roshan。這些限制的解除代表著人類可以獲得更多的信息和發展空間,運用更多的戰術和策略,比如利用刁鑽的偵察守衛獲得更多的信息,彌補技能銜接失誤和反應速度較慢的弱點。
圖 | OpenAI Five 打 Roshan
這也意味著 AI 在短短一個多月的時間裡掌握了這些英雄、操作和相應的對策。此前,一些解說和 Reddit 論壇的大部分聲音均認為,掌握這些複雜的遊戲機制還有很長的路要走,至少要 1-2 年的時間。但是,人類被人工智慧打臉的事情可沒少出現過。
在正式較量之前,AI 系統和現場的 5 名觀眾進行了一場熱身賽。只過了 13 分鐘,觀眾隊伍就以4:21的懸殊人頭數輸掉了比賽。AI 在遊戲中表現出了強烈的進攻慾望和壓迫性,各種越塔強殺,繞塔 Gank,鑽樹林 TP,只用了 10 分鐘就站在了人類玩家的高地上為所欲為。
圖丨第一局陣容
不過這種情況在正式比賽中有所好轉,因為玩家的水平有了極大提升。在第一局的對線期,人類選手的補刀並沒有落下 AI 多少,AI 的沖塔慾望也收斂了許多,因為選手的走位和耗血都更加慎重。同時人類的優勢路拉野技巧也讓 AI 不知所措,這也是它控制的英雄第一次出現原地轉圈的情況。
然而好景不長,AI 對技能和血量的精準計算使得它們在小規模交戰中佔盡優勢,幾次交戰人類選手不僅沒有佔到優勢,還被打出多次 3 人小團滅,甚至被 AI 火槍手繞樹林反殺。自此,AI 開始佔據人頭和經濟優勢,並且展示出了十分明顯的抱團推進策略,經常會出現殺人拿塔的「完美節奏」。
人類隊伍在影魔做出隱刀後稍稍穩住了局面,幾次成功的抓人和互換暫緩了 AI 的殺人節奏。這時的 AI 並沒有展現出傳統 Bot 的無腦抱團推進,它們開始展開 2-3 人的小型抓人,同時大哥火槍和直升機偶爾鑽野補發育。不難看出,AI 系統其實已經形成了對遊戲的「理解」,即在不同局面下做出不同的選擇。
此後局面持續失控,人類隊伍面對 AI 的兇狠 Gank 和抱團拿塔毫無辦法,畢竟火槍的狙擊和直升機的高射炮隨隨便便就能秒殺輔助。在 AI 隊伍殺上下路高地時,人類的死靈法被秒,但是第一時間選擇買活,AI 隊伍居然像人類玩家一樣選擇了撤退,尋找下一次更好的時機。之後再次衝擊高地時,人類神牛跳大被萊恩秒羊,這不僅預示著團戰的潰敗,高地的失守,也奠定了此後遊戲的走向。最終人類無力抵抗,24 分鐘打出 GG。
圖丨第二局陣容
第二局比賽的總體走向和第一局十分相似,人類隊伍拿出隱刺試圖打出更多信息,增加更多的不確定性,影響 AI 的判斷。最初雖然打出了一定的效果,但是 AI 的總體思路並沒有改變,通過剛三壓制人類大哥的發育,積極的遊走、換路和 TP 破壞人類選手的擊殺和推塔。
雖然隱刺、神牛和影魔的配合打出了一定的積極效果,多次成果擊殺 AI 的火槍和輔助,但在人類乘勝追擊時,AI 總是會找到突破口反殺人類。值得一體的是,第一局中人類選手因為遊戲延遲暫停了遊戲,而第二局中 AI 系統也暫停了一次,這似乎證明了 AI 在學習人類的行為,儘管它不明白背後的理由。
圖 | 比賽現場
遊戲進行到15分鐘左右,隨著人類中路的失守,局勢再一次被AI所掌控。最終AI隊伍在24分鐘拿下次局。
在2:擊敗人類隊伍後,OpenAI的CTO Greg Brockman宣布,「我們的系統已經準備好在TI8上面對頂尖職業隊伍了!」
圖丨OpenAI CTO 推文
隨後進行的第三局頗有些為人類挽回最後尊嚴的意思,因為雙方的陣容是由觀眾選出的,AI只負責在遊戲中操作。最後我們可以看出 OpenAI 對觀眾選出的陣容十分「不滿」,只給出了2.9%的賽前勝率預測。
第三局的走向也證明了OpenAI的賽前預測,沒有了前兩局的順風順水和完美節奏。在遊戲初期,AI 操刀的斧王選擇了雙圓盾出門,配合除隱刺外的3名隊友強行壓制人類優勢路,不過效果並不理想,畢竟斯溫和小魚雙核在沒有裝備支撐的情況下效果有限。
在喪失了分路知識和熟悉的節奏後,AI 英雄在 10 到 25 分鐘在地圖的各個地方頻頻被抓,5 個英雄各自為戰,無法組織有效的反擊、防禦和遊走。比賽也進入了人類的節奏,此後 OpenAI 下路高地被破,我們也看到了很多莫名的舉動,比如小魚人胡亂使用暗影之舞, 女王對著風杖吹起的死亡先知放大,斯溫和斧王在敵方塔下亂走等。AI 系統還在遊戲中給出了1%的絕望勝率。
人類在 33 分鐘攻上了 AI 的中路高地,在 BKB 的直升機面前,AI 並沒有做出多少有效的抵抗就被擊潰。最終人類扳回一局,守住尊嚴。同時也揭示了現階段 AI 系統的不足—從逆風局中學習的知識還不夠多,無法有效應對局面不利的情況。
事實上,在此前擊敗人類業餘隊伍後,OpenAI 承認,他們在項目最初也沒有料到,全無基礎的強化學習會達到如此高度。
圖丨OpenAI Five 的網路架構圖
OpenAI 的 Dota 2 人工智慧系統名為「OpenAI Five」。根據OpenAI 此前的論文,該系統基於機器學習和神經網路技術,在256 個 GPU 和 12.8 萬個 CPU(谷歌雲平台)的加持下,通過近端策略優化(PPO)演算法,24 小時不間斷地進行自主對抗,其每日訓練量等同於 180 年的遊戲時間。
訓練全程未使用人類選手的數據,也沒有搜索和觀看人類遊戲的錄像,全靠自學成才。不過目前英雄的出裝和技能選擇都是人類編寫的腳本,AI 在每局遊戲中會隨機選擇一套。
由於 AI 系統要「操控」5 位英雄,OpenAI 為每位英雄分配了一個長短期記憶遞歸神經網路(LSTM RNN Network)。網路之間沒有直接的溝通渠道,只有在同一局遊戲中,5 個網路才會通過「團隊精神」的超參數值互相協調。該參數介於 0 和 1 之間,用於協調個人和團隊的利益分配比重。最終這一數值被設定為 0.97,促使每個網路將團隊利益放在首位。
在訓練中,OpenAI 團隊使用了獎懲機制來定義每名英雄獲得的「得分」:補刀和破塔等行為被視為獎勵,而死亡被視為懲罰。
有意思的是,在 GitHub 開源的獎勵機制文檔中,殺死對方英雄的比重是-0.6,這是因為「擊殺」所得到的金錢和經驗會增加很多分數,為了平衡「擊殺」帶來的獎勵,故而將其行為本身設為「懲罰」,降低其帶來的分數收益,防止 AI 過分追求擊殺。
圖丨AI系統計算個人獎勵比重
以上的種種機制不僅印證了 Dota 2 的本質是「推塔」,而不是「擊殺」,更重要的是向我們展現了一個理智的決策機制,是如何進行短期利益和長期利益之間的博弈的。
本質上講,通過強化學習訓練的AI系統是在不斷尋找和計算一個「最優解」,可以是局部最優,亦或是全局最優。而比賽中的細節顯示,AI系統的確會放棄當下的利益,轉而為局勢和整體發展著想。
因此 OpenAI 認為,「我們的系統確實在向著長遠的方向優化。」
縱觀全局,AI 系統展現的戰術成長、溝通、協調和取捨可以簡單地概括為「為達最終目標的長期規劃」。無論是 OpenAI Five 之於 Dota 2,還是 DeepMind Alpha Go之於圍棋,人工智慧都做出了一些人類難以理解的舉動,其中不乏完全沒有意義和必要的操作,這歸根結底是從零開始學習的結果,AI 系統仍然在摸索並逐步完善。不過事實已經證明,無數個類似的舉動最終帶來了勝利,也啟發了人類。
國外解說 Purge 和 Pixel 在比賽中多次提到,人類選手可以從 AI 身上學到很多技巧,比如仇恨分擔和轉移。這也是 OpenAI 系統的正確使用方式,人類目前對AI 系統的套路和策略並不了解,相信在多次練習和對戰中,人類對抗 AI 的能力一定會有所提高。這反過來也可以用來提升人類玩家的水平。
正如 OpenAI 聯合創始人兼 CTO Greg Brockman 所說,因為 OpenAI 背後也是人類智慧的結晶,「無論結果如何,勝利(受益)的一方都是人類。」
-End-
※考古學家稱,一種古代石幣系統是當今加密貨幣的前身
※徹底擊碎轉基因致癌謠言?歷時六年、耗資過億的三大研究發布結果
TAG:DeepTech深科技 |