AlphaStar 稱霸星際爭霸2!AI史詩級勝利,DeepMind再度碾壓人類
新智元報道
編輯:金磊、聞菲、張乾、索夫
【新智元導讀】DeepMind潛心兩年打造的AlphaStar,以5比0的比分,決定性地擊敗了世界上最強大的職業星際爭霸玩家之一,攻破了人類難度最高的遊戲,又一個里程碑!
AlphaStar橫空出世!
剛剛,DeepMind在推出AlphaGo之後,又把打造兩年的AlphaStar推上歷史的舞台,創造出第一個打敗星際爭霸2頂級職業選手的AI。
DeepMind昨晚放出在12月19日舉行的一系列測試比賽錄像,AlphaStar在與隊友達里奧·溫施(Dario " TLO " Wunsch)進行了一場成功的基準測試後,以5比0的比分,決定性地擊敗了世界上最強大的職業星際爭霸玩家之一。
雖然在像雅達利、馬里奧、雷神爭霸3競技場和Dota 2這樣的電子遊戲中,AI已經取得了巨大的成功,但直到現在,AI仍在努力應對星際爭霸的複雜性。
《星際爭霸2》由暴雪娛樂公司出品,故事背景設定在一個虛構的科幻世界中,具有豐富的多層次遊戲玩法,旨在挑戰人類的智力。因為高度複雜性和策略性,這款遊戲成為史上規模最大、最成功的遊戲之一,玩家在電子競技比賽中競爭了20多年。
這次AI擊敗頂級選手,真正攻破了人類智力的最後陣地!
10段錄像見證AlphaStar大殺特殺,人類玩家現場絕地反擊
賽前,DeepMind召集了兩位人類職業玩家選手,每位選手分別與AlphaStar對戰五回合。而後在現場,人類與AI進行了最終的博弈,挽回了顏面,我們一起來看下。
這次終極1V1人機大戰採用的地圖是Catalyst LE,遊戲版本為4.6.2。
與AlphaStar對戰的人類選手,分別是TLO和MaNa。
TLO是現役職業選手德國人Dario Wünsch,所屬荷蘭戰隊 「Team Liquid」。他在2018年WSC Circuit中排名44。由於經常全力在Twitch直播,TLO在玩家中很出名。
另一位對戰選手,是今年25歲的現役職業玩家「MaNa」,有波蘭王牌之稱。MaNa慣用神族,在剛剛結束的IEM科隆站比賽中,MaNa在小組賽中以2:1戰勝了韓國選手Jaedong。
MaNa目前在2018 WSC Circuit上排名第13,他在去年WCS Austin中獲得亞軍,在2015年WCS第三季中也獲得亞軍。更早一些,MaNa得過Dreamhack2012夏季賽的冠軍。
接下來是10場比賽錄像中的精彩片段,以及現場的精彩打鬥。
Round 1:7分鐘,AlphaStar終結人類頂級玩家
開局,人類玩家率先派出農民一位,在AI家裡來回探路。
2分50秒,人類玩家派出2名高階聖堂開始了第一波騷擾,AlphaStar派出部分壯丁對其進行狙擊剿滅。
隨後人類玩家騷擾不斷,與此同時AI也開始了反擊,派出了一名追蹤者攻擊主基地。
而不知不覺中,AI已經攢出了6個追蹤者,並大步邁向人類玩家分基地。
雙方開始了第一波GANK,但LTO派出家裡老少還算抵禦住了這次攻擊。然而,AI的補給兵已經到達戰場。LTO已是無力回天。
Round2:人類玩家侵略性強,AI步步為營,精準計算
依舊,雙方前期小打小鬧不斷,6分鐘左右,AlphaStar率先派出10名追蹤者對LTO進行攻擊,人類玩家防禦成功。
在此期間,AlphaStar做出了減少氣體採集的策略。
而後,人類玩家和AI都各自發展經濟、製造兵種,在全場小範圍迂迴作戰。
在14分時,致勝點出現了,看似人類玩家追打AI,卻突然被其它兩路而來的兵源切割,慘遭毒手。
人類玩家無力回天,AlphaStar再次取勝。
Round3-5:AlphaStar兵臨城下,各路圍剿,簡直虐待
接下來播放的視頻是另一位頂級人類玩家MaNa的戰況。
來看下錄播視頻中的三段完虐場景吧。
遛著農民絞殺。
快推一波流。
三路圍剿,兵敗峽谷。
現場較量:人類玩家絕地大反擊,將AI趕盡殺絕
可能是因為AI太厲害,人類需要證明自己的實力。最後,職業玩家MaNa在現場與AlphaStar實時較量了一場。
與錄像相比,此次人類選手採取了較為保守的策略,選擇發展經濟、「招兵買馬」;而AlphaStar則率先發起挑釁。
而且迂迂迴回不斷進行騷擾,基地周邊以及探路的農民也遭到射殺。
在保守打法的基礎上,MaNa已經積攢了一定的兵力,在發現AlphaStar兵力出巢瞬間,立即發動兵力進行攻擊。同時也不忘建分基地,雙線操作,十分穩。
而此時,AlphaStar的兵力並沒有及時趕回救場,MaNa藉此機會直接拆掉了分基地。
面對剛剛趕回的AlphaStar兵團,MaNa一頓操作猛如虎,直接擊退其兵力,而後果斷直搗黃龍。
最終,人類絕地反擊,戰勝了AI。
來自全球的看官瞬間不淡定了,評論區已然炸成鍋——為人類的獲勝歡呼雀躍——這或許也是為了挽回人類最後的顏面。
AlphaStar煉成記:每個代理使用16個TPU
AlphaStar的行為是由一個深層神經網路生成的,該網路接收來自原始遊戲interface的輸入數據(單元及其屬性的列表),並輸出構成遊戲內操作的指令序列。更具體地說,神經網路體系結構對單元應用一個轉換器軀幹,結合一個LSTM核心、一個帶有指針網路的自回歸策略頭和一個集中的值基線。
DeepMind相信,這種先進的模型將有助於解決機器學習研究中涉及長期序列建模和大輸出空間(如翻譯、語言建模和視覺表示)的許多其他挑戰。
AlphaStar還使用了一種新的多智能體學習演算法。神經網路最初是由暴雪公司發布的匿名人類遊戲中的監督學習訓練出來的。這使得AlphaStar能夠通過模仿StarCraft ladder上玩家使用的基本微觀和宏觀策略。這個最初的代理在95%的遊戲中擊敗了內置的「精英」AI關卡——即人類玩家的黃金關卡。
然後用它們來建立一個多主體強化學習過程。一個連續的聯盟被創造出來,聯盟的代理——競爭者——相互之間玩遊戲,就像人類在StarCraft ladder玩遊戲一樣。
新的競爭者通過從現有競爭者中進行分支,動態地添加到聯盟中;然後每個代理從與其他競爭對手的遊戲中學習。這種新的訓練形式將基於人群的強化學習理念進一步發揚光大,創造了一個不斷探索《星際爭霸》遊戲玩法巨大戰略空間的過程,同時確保每個競爭對手都能在最強的戰略面前表現出色,並且不會忘記如何擊敗較早的戰略。
隨著聯賽的發展和新的競爭對手的產生,新的對抗策略出現了,能夠擊敗以前的策略。當一些新的競爭者執行一個僅僅是對以前的策略的改進的策略時,另一些人發現了包含全新構建訂單、單元組合和微觀管理計劃的全新策略。
例如,在AlphaStar聯盟早期,一些「俗套」的策略,如使用光子炮或黑暗聖堂武士進行非常快速的快攻,受到了玩家的青睞。隨著訓練的進行,這些冒險的策略被拋棄了,產生了其他的策略:例如,通過過度擴張擁有更多工人的基地來獲得經濟實力,或者犧牲兩個神諭來破壞對手的工人和經濟。這一過程類似於《星際爭霸》發行多年以來玩家發現新策略並能夠擊敗之前所青睞的方法的過程。
為了鼓勵聯盟的多樣性,每個代理都有自己的學習目標:例如,這個代理的目標應該是打敗哪些競爭對手,以及影響代理如何發揮的任何其他內部動機。一個代理可能有打敗某個特定競爭對手的目標,而另一個代理可能必須打敗整個競爭對手分布,但這是通過構建更多特定的遊戲單元來實現的。這些學習目標在培訓過程中得到了調整。
最好的結果可能是通過手工製作系統的主要元素,對遊戲規則施加重大限制,賦予系統超人的能力,或者在簡化的地圖上進行遊戲。即使有了這些改進,也沒有一個系統能與職業選手的技術相媲美。相比之下,AlphaStar在星際爭霸2中玩的是完整的遊戲,它使用的深度神經網路是通過監督學習和強化學習直接從原始遊戲數據中訓練出來的。
為了訓練AlphaStar,DeepMind使用谷歌的v3版本的TPU構建了一個高度可伸縮的分散式訓練設置,它支持大量代理從數以千計的星際爭霸2並行實例中學習。AlphaStar聯賽運行了14天,每個代理使用16個TPU。在訓練期間,每個代理都經歷了長達200年的星際爭霸實時遊戲。最終的AlphaStar代理由聯盟的Nash分布組成——換句話說,已經發現的最有效的策略組合——運行在單個桌面GPU上。
另外,這項工作的論文也即將發布。
AlphaStar實戰技巧分析
講完AlphaStar的訓練過程,再來分析下實戰過程。
像TLO和MaNa這樣的職業星際爭霸玩家,平均每分鐘可以做數百個操作(APM)。這遠遠少於大多數現有的機器人,它們獨立控制每個單元,並始終保持數千甚至數萬個APM。
在與TLO和MaNa的比賽中,AlphaStar的平均APM約為280,遠低於職業選手,不過它的動作可能更精確。
造成APM較低的部分原因是AlphaStar使用回放開始訓練,因此模仿了人類玩遊戲的方式。此外,AlphaStar的反應在觀察和行動之間的平均延遲350ms。
在與TLO和MaNa對弈過程中,AlphaStar通過原始界面與星際爭霸2引擎連接,這就意味著它可以直接在地圖上觀察自己的屬性和對手的可見單位,而無需移動相機。
相比之下,人類玩家必須明確管理「注意力經濟(economy of attention)」,並決定在哪裡對焦相機。
然而,對AlphaStar遊戲的分析表明,它管理著一種隱性的注意力焦點。平均而言,智能體每分鐘「切換內容」約30次,類似於MaNa或TLO的操作。
此外,在比賽之後,DeepMind還開發了AlphaStar的第二個版本。和人類玩家一樣,這個版本的AlphaStar會選擇何時何地移動攝像頭,它的感知僅限於屏幕上的信息,行動地點也僅限於它的可視區域。
DeepMind訓練了兩個新智能體,一個使用raw interface,另一名必須學會控制攝像頭,以對抗AlphaStar League。
每個智能體最初都是通過從人類數據中進行監督學習,然後按照強化學習過程進行訓練的。使用攝像頭界面的AlphaStar版本幾乎和raw interface一樣強大,在DeepMind內部排行榜上超過了7000 MMR。
在表演賽中,MaNa用camera interface擊敗了AlphaStar的一個原型版本,這個interface只訓練了7天。
這些結果表明,AlphaStar對MaNa和TLO的成功實際上是由於優越的宏觀和微觀戰略決策,而不是快速的操作、更快的反應時間或raw interface。
人類挑戰20年,AI攻下星際爭霸有五大困難
遊戲規則規定,玩家必須選擇三種不同的外星「種族」中的一種——蟲族、神族或人族,它們都有各自的特點和能力(儘管職業玩家往往只專註於一種種族)。每個玩家從一些工作單元開始,收集基本資源來構建更多的單元和結構並創造新技術,這些反過來又允許玩家獲取其他資源,建立更複雜的基地和結構,並開發新的能力,可以用來智勝對手。
遊戲的難度在於,要想取勝,玩家必須在宏觀經濟的宏觀管理和微觀個體的控制之間保持謹慎的平衡。
平衡短期和長期目標以及適應意外情況的需要對往往脆弱和缺乏靈活性的系統提出了巨大的挑戰。要想解決這個問題,需要突破AI研究的幾個挑戰,包括:
遊戲理論:《星際爭霸》是一款像剪刀石頭布一樣是沒有最佳策略的遊戲。因此,AI過程需要不斷探索和拓展戰略知識的前沿。
不完全信息:不像國際象棋或圍棋那樣,玩家什麼信息都能看到,關鍵信息對星際玩家是隱藏的,必須通過「偵察」來主動發現。
長期規劃:像許多現實世界中的問題一樣,因果關係不是瞬間產生的。遊戲也可以在任何地方花費一個小時完成,這意味著在遊戲早期採取的行動可能在很長一段時間內都不會有回報。
實時:不像傳統的棋類遊戲,玩家在接下來的動作之間交替,《星際爭霸》玩家必須隨著遊戲時間的推移不斷地執行動作。
大型活動空間:數百個不同的單元和建築必須同時被實時控制,從而形成一個可能性組合空間。
正是由於這些巨大的挑戰,星際爭霸已經成為人工智慧研究的「大挑戰」。自2009年發布BroodWar API以來,《星際爭霸》和《星際爭霸2》的競賽一直在進行,包括AIIDE星際爭霸AI競賽、CIG星際爭霸競賽、學生星際爭霸AI競賽和《星際爭霸2》AI階梯賽。
DeepMind在2016年和2017年與暴雪合作發布了一套名為PySC2的開源工具,其中包括有史以來最大的一組匿名遊戲回放。
現在,經過兩年的打造,繼AlphaGo之後,DeepMind剛剛問世的AlphaStar已經取得了飛速進展。
【加入社群】
新智元AI技術 產業社群招募中,歡迎對AI技術 產業落地感興趣的同學,加小助手微信號:aiera2015_2入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。
※2018年度盤點:機器學習開源項目及框架
※AI專業將達200個?專家:將「智能科學與技術」專業改名為「人工智慧」專業
TAG:新智元 |