人類在 Dota2 國際大賽上打敗 OpenAI，但 AI 贏回來也只是時間問題

科技 08-27

在理解遊戲目標和制定戰略這件事上，人類玩家是主動的，而人工智慧是被動的。

OpenAI 曾在 2017 年戰勝 Dota2 世界頂級玩家 Dendi，本月初戰勝了由職業選手和解說員組成的半職業戰隊，這一系列出彩的表現提升了人們對人工智慧再次奪冠的期望。8 月 22 日在溫哥華舉行的 TI8 上，OpenAI 聯合創始人兼 CTO 格雷格·布羅克曼（Greg Brockman）帶著全新的 OpenAI Five 如期而至，卻接連兩場輸給巴西站隊和中國戰隊，據悉，巴西戰隊目前世界排名第 14 位，這至少說明一直想挑戰人類「最強」的人工智慧，目前還不能在 Dota2 電競場上打敗人類。

機器的短板

正如專註於遊戲領域 AI 研究的邁克·庫克在 Twitter 上所說，「機器人在即時即地的反應上做得很好，但宏觀層面決策的表現卻很糟糕。」Open AI 計劃在當地時間周三、周四、周五連比三場，由於比賽採取三局兩勝制，OpenAI 在輸給中國戰隊之後，就結束 TI8 之旅。

兩場比賽分別持續了 51 分鐘和 45 分鐘，從數據來看，OpenAI Five 在比賽開始的前 20-35 分鐘內確實有很大的勝算。以 AI 的計算能力來看，OpenAI Five 不乏出彩的表現，比如「圍剿」孤立的英雄，近距離進行技能釋放，血量計算等。在與巴西戰隊 paiN 的較量中，AI 也拿到比對手更多的「人頭」。畢竟，人工智慧就是一台機器，可以獲取遊戲後端給予的精確的數字反饋，比如英雄狀態和英雄間距離等信息。但是在戰略上，人工智慧遠不及人類，執著於擊打 Roshan、莫名其妙的在家、塔下插眼、在沒有對手的時候放大收野。

這種精準的計算和不穩定的戰略恰好反映了 AI 是如何學會打 Dota 的，OpenAI 使用強化學習訓練 AI 從頭自學，在一遍遍嘗試中堅持下來有效的動作。因此也導致了 OpenAI Five 在面對訓練中沒有遇到的情況時束手無策，從事 OpenAI Dota 項目的軟體工程師蘇珊·張表示，「如果 AI 在比賽中遇見了之前從未有過的情況，很難立即調整。同時，在訓練過程中，機器人在判斷採取何種行動時，最多會提前 14 分鐘。沒有任何一種機制讓機器人部署超過 14 分鐘的長期戰略。」所以，AI 的這一缺陷，在兩場比賽中展露無遺。

在比賽開始前，格雷格·布羅克曼曾對 The Verge 表示，公司曾進行一場內部員工投票，認為 OpenAI Five 獲勝的可能性不到 50%，這是普遍的共識。但是他補充說，真正重要的是 AI 的進步速度。AI 在接近某戰隊水平時，就與他們打比賽，一、兩周之後，AI 就能超過他們，這樣的事情已經「驗證」很多次了。

不可否認的是 AI 強大的學習能力，即便完敗巴西、中國戰隊，OpenAI 的 AI 選手也遠遠超越早期的電子競技機器人。

「OpenAI Five」

在體育和遊戲中，人工智慧與人類的對抗有著悠久的歷史。IBM 開發的深藍計算機在 1996 年成為了第一個與世界象棋冠軍較量並贏得比賽的電腦系統。戰勝越來越具有挑戰性的人類冠軍則慢慢成為衡量人工智慧進步的標準。

2016 年 3 月，AlphaGo 與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰，以 4：1 的總比分勝出；之後，AlphaGo 以網路圍棋手「Master」的身份為與中日韓數十位圍棋高手進行對決，以 60 勝零負收場。此後，DeepMind 團隊公布全新強化學習演算法——AlphaZero，僅僅通過自我對弈的方式就達到超越人類的水平。

去年，谷歌旗下的 DeepMind 和馬斯克創建的非盈利研究實驗室 OpenAI 合作研究一種根據人類反饋進行強化學習的新方法，並發表論文《Deep reinforcement learning from human preferences》（根據人類偏好進行的深度強化學習）。要建立一個安全的 AI 系統，其中很重要的一步是不再讓人類給 AI 系統寫目標函數，因為這都可能導致 AI 行為偏離軌道或引發危險。新演算法只需要人類逐步告訴 AI，兩種 AI 推薦的動作中哪一種更好，AI 由此推測人類的需求進行學習，比如新演算法用來自人類評價員的 900 次二選一反饋學會了後空翻。OpenAI 和 DeepMind 希望通過新演算法來提高人工智慧的安全性。

DeepMind 憑藉 AlphaGo 不負眾望，同樣專註在強化學習領域的 OpenAI 則是放眼於 Dota2 上，因為在數學計算上，電競遊戲比象棋或者圍棋更複雜。這件看似「不正經」的事情，對於人工智慧來說卻是巨大的挑戰，遊戲中需要 AI 團隊協同作戰、布局長期戰略、制定複雜決策。如果賦予 AI 的這些技能可以通過遊戲磨練「精進」，便可以加以運用到現實生活中。這也恰巧符合 OpenAI 的建立初衷——吸取所有的人類優點，建立安全的通用機器人。

OpenAI 曾在 2017 年 1v1 戰勝 Dota2 世界頂級玩家 Dendi，並於今年 6 月 25 日宣布能在 5V5 對戰上打敗頂級業餘玩家。OpenAI 開發了一套名為「OpenAI Five」的演算法，把 AI 放進虛擬環境中，從自我對抗中學習，程序員設置獎勵機制，讓 AI 一遍一遍地訓練自己，據悉 OpenAI Five 每天的訓練量相當於玩 180 年的遊戲。而從此前 OpenAI Five 戰勝半職業戰隊的戰績來看，這套訓練方法似乎取得了一定成效。

可是在面對頂級玩家時，OpenAI Five 則沒那麼幸運，雖然格雷格表示，「周三晚上的比賽，證實了 OpenAI Five 已經很接近人類的電競能力。」但是 OpenAI 的技術人員菲利普·沃爾斯基也承認了面對職業選手，OpenAI 會稍顯「底氣不足」。他還說到，在準備整個項目時，團隊經歷了很多不眠之夜。就算回家休息的時候，也在擔心是否上傳了正確的參數。但是 OpenAI 的 Dota 之旅還遠沒有結束，「我們想要機器人在越來越少的限制下玩遊戲。」

AI 在這幾場比賽中所缺失的也正凸顯了目前機器學習的局限性，在看似「不起眼」的策略、規劃制定上，人工智慧貌似還差得很遠。格雷格曾在 8 月初 OpenAI Five 戰勝半職業戰隊之後發推祝賀，「已經準備好迎戰 TI8」，但是現在看來 OpenAI 在 Dota2 上要走的路還有很長。

參考：

PRO GAMERS FEND OFF ELON MUSK-BACKED AI BOTS—FOR NOW

（http://t.cn/RkuxlX4）

AI bots trained for 180 years a day to beat humans at Dota 2

（http://t.cn/RrxmWiS）

Dota 2 pro players win match against Elon Musk』s AI bots

（http://t.cn/RkuxDwH）

OpenAI, DeepMind double team to make future AI machines safer

（http://t.cn/RkuJLYv）

責任編輯：宋德勝

頭圖來源：OpenAI