2：0！谷歌 AI 「AlphaStar「虐殺職業星際玩家

科技 01-25

作者 | 若名

出品 | AI科技大本營（ID:rgznai100）

剛剛，在更複雜的《星際爭霸 II》遊戲中，DeepMind AI 以總比分 2:0 分別戰勝兩位職業人類選手。這或許是自 2017 年 AlphaGo 在圍棋上戰勝人類後，再次讓人類刷新 AI 認知的人機大戰。

此次與人類對戰的 AI 是 AlphaGo 兄弟：AlphaStar。開賽前幾個小時，DeepMind CEO 在 Twitter 上公布了這一名字。而在開賽前一天，DeepMind 宣布 AI 將與人類在《星際爭霸 II》中公開對戰的消息，並表示在《星際爭霸 II》遊戲的瘋狂難度模式下，其 AI 的勝率為 50%。

需要說明的是，正如之前打 Dota 的 OpenAI 受到的降低反應速度一樣，DeepMind 此次將 AlphaStar 的反應速度「限制」到 APM 180，大致相當於星際中等職業玩家的水平。就 AlphaStar 的表現來看，雖然最終在現場 PK 時輸了最後一局比賽，但整體上還是完虐人類。

比賽開始，與 AlphaStar 對戰的第一個職業選手是 TLO，其世界排名為第 68 位。此次人機大戰是五局三勝制，TLO 雖然不是頂級星際選手，但讓人足夠驚嘆的是，AlphaStar 最終在約五十分鐘內結束戰鬥，以 3:0 的成績獲勝，人類職業選手似乎毫無還手之力。

先來簡單回顧下人機大戰第一場：AlphaStar 第一局一開始就表現的很有全局觀，在 PvP 兩礦打一礦的情況下，TLO 很快被擊敗；第二局一度打得很焦灼，但 AlphaStar 依然以 2:0 再贏一局；十分鐘後，TLO 潰敗給 AlphaStar，有網友說選手太初級，批評 TLO 作為職業選手在瞎打，沒有尊重熬夜看人機大賽的觀眾。不過，也有人說 AI 很可怕。

如果說第一回合 AlphaStar 戰勝的是「初級」選手，那隨後與其對戰的職業選手是世界排名第 19 位的 MaNa ，其職業水平至少是中上游。

上圖顯示的是 AlphaStar 的決策過程，具體比賽過程就不說了，結果是 MaNa 在大約 35 分鐘內連輸四局被 AlphaStar 斬落馬下。

前一個職業選手 TLO 在 MaNa 輸掉前四局後稱，「相信我, 和一個像 AlphaStar 這樣的對手比賽是非常困難的, 它的打法和人類完全不同，是你以前從未有過的經驗。 AlphaStar 給人留下了極深的印象, 這在遊戲 AI 中也是前所未有的。"

AlphaStar 遇神殺神，乾脆利落。這次應該沒人責怪 MaNa 打得不好，他顯然拼盡了全力，而網友發出的慨嘆是希望終結者不會來那麼快。

但最後一局讓網友們為人類命運緊張的情緒稍稍放鬆，與 MaNa 現場對戰的 AlphaStar 一著不慎，讓 MaNa 贏回一局，最終以 1:4 輸掉比賽。

AlphaStar 的來歷

早在 2016 年，谷歌 DeepMind 的 AI 研究人員已經開始關注暴雪娛樂的《星際爭霸 II》。通過遊戲來確定 AI 是否可以勝過人類相對簡單的複雜任務是 DeepMind 的研究人員長期以來都在嘗試的項目。同年 11 月，DeepMind 曾在暴雪嘉年華上宣布與暴雪達成合作協議，將在《星際爭霸》系列遊戲中進行合作，將在遊戲平台中引入機器學習方法，進行人工智慧研究。

2017 年 8 月，Deepmind 與暴雪共同發布了合作計劃的首個成果：基於《星際爭霸 II》的人工智慧研究環境 SC2LE，它允許研究者在 Linux 系統中接入遊戲 API，開放了 65000 場比賽的數據緩存用於訓練 AI，並將添加 50 萬場遊戲數據到緩存中。

2018 年，同樣在暴雪嘉年華上，他們分享了人工智慧模型在《星際爭霸》遊戲中的突破。人工智慧模型能執行基本的宏觀戰略，還能防禦像 Tower Rush 這樣的激進戰術。而剛剛結束的「星際爭霸」賽則是是一項「重大挑戰」，因為這要求 AI 智能體「實現和平衡一些子目標」，以便最終擊敗人類選手。

例如，雖然遊戲的目標是擊敗對手，但玩家還必須考慮平衡多個子目標，比如收集資源（水晶和氣礦）或建築。此外，一場比賽的時間通常為幾分鐘到一小時不等，這意味著遊戲中提早執行的行動會在很長時間不見成效。最後，由於玩家智能看到部分地圖，這意味著智能體必須結合記憶與規劃才能成功。

AlphaStar 背後的 AI 技術

在圍棋任務中，對手間可以看到整個棋盤，但《星際爭霸 II》與此不同，我們通常無法看到整個地圖，需要派小兵出去偵查。而且遊戲是不間斷進行的，整個遊戲甚至會有超過 5000 步的操作。

DeepMind 科學家 Oriol Vinyals 曾在去年的一場以《AI 對戰星際爭霸勝算幾何？》的演講中提到，這個遊戲基本上就是建造一些建築物以及單位，在同一個地圖裡與不同的組織相互競爭。在這個遊戲中，哪怕只是建造建築物，也需要做出許多決策。除此之外，他們還要不斷收集和利用資源、建造不同的建築物、不斷擴張，因此整個遊戲非常具有挑戰性。

他們在這個遊戲中使用的方法依舊是強化學習。他們要讓 AI 模仿人類玩這個遊戲的方式，但即使是模仿人類點擊滑鼠和敲擊鍵盤的行為也非常困難，需要收集整個《星際爭霸》玩家的行為進行分析。為此還引入了一個遊戲引擎。

DeepMind 還為遊戲過程設計了不同的指令和模式，這使得整個玩《星際爭霸》的過程變得獨一無二。如今，我們看到的 AlphaStar 正是上述想法的結晶。

現在的 AlphaStar 還是剛出生的嬰幼兒，不過以其極快的進化速度，你也能想到日後的進化版會是多麼無可匹敵。到現在，或許還有很多人期待 2 月 15 日 AlphaStar 與世界排名第一的 Serral 進行終極對決，但最終的結果可想而知。正如柯潔輸給 AlphaGo 時面臨的絕望一樣，人類可能不願意麵對這樣的現實：在更多複雜的場景中，人類可能正以難以想像的速度輸給 AI。

徵稿

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

※100多本Python書，免費喲
※AI刪庫，程序員背鍋？

TAG:AI科技大本營 |