DeepMind 首席科學家獲2019年ACM 計算獎，智能體Agent57在所有經典Atari 遊戲中吊打人類

科技 04-01

新智元推薦

來源：venturebeat等

編輯：夢佳、白峰

4月1日，美國計算機學會（ACM）宣布，將 2019 年 ACM 計算獎授予 AlphaGo 研發團隊領導者 David Silver，以表彰其在計算機遊戲方面取得突破性進展。Silver 現任倫敦大學學院（UCL）教授、DeepMind 首席科學家。作為深度強化學習領域的領軍人物，Silver 曾領導AlphaGo 團隊，在圍棋比賽中擊敗世界冠軍。Alphago 是AI研究的里程碑，被《新科學家》雜誌評為過去十年間最偉大的十大發明之一。

自20世紀50年代以來，訓練電腦程序玩遊戲一直是AI研究的核心實踐。早在1997年，ACM 贊助的比賽中，IBM 的 DeepBlue 就成功擊敗了國際象棋冠軍。2013年，Silver 和他在 DeepMind 的同事推出了一個在50個 Atari 遊戲上能夠戰勝人類的程序。

在DeepMind 本周發表的一篇博客中，闡述了其最新研發的RL智能體Agent57。這是 Arcade Learning Environment 環境下第一個在所有 57 款 Atari 遊戲中表現優於人類的系統。

目前 ALE 中支持的超過50種遊戲

在 57 種經典 Atari 遊戲中擊敗人類

可以說 Agent57 為目前來講最優質的人工智慧決策模型奠定了基礎。這對於企業來講是一個福音，企業可以通過實現工作場所自動化來提升生產力; 想像一下，AI 不僅能自動完成數據輸入一類的日常重複的任務，而且還能對其所在的環境進行推理。

「通過 Agent57，我們已經成功地構建了一個表現更優秀的智能體，它在 Atari57 基準中的所有任務上的表現都超過了人類」，該研究的合著者寫道。

「Agent57 能夠隨著計算量的增加性能逐步提升: 訓練的時間越長，得分越高。」

NGU 玩滑雪遊戲

Agent57 玩滑雪遊戲

Deepmind 自己的 Deep Q-Networks 是第一個在大量 Atari 2600 遊戲中實現人類水平的演算法。隨後，OpenAI 和 DeepMind 的 AI 系統在 Pong 和 Enduro 遊戲測試中實現了超過人類的表現; Uber 模型完成了視頻遊戲蒙特祖瑪復仇的闖關; DeepMind 的 MuZero 通過自學在 51 個遊戲中表現超越了人類。但迄今為止，還沒有一種演算法能夠在 ALE 的所有 57 個遊戲中取得如此優異的表現。

強化學習玩遊戲有哪些挑戰？

為了實現最先進的性能，DeepMind 的 Agent57 在多台計算機上並行執行，並啟用 RL 驅動的智能體採取行動，使得獎勵的效果最大化。RL 在視頻遊戲領域顯示出了巨大的潛力--OpenAI 的 OpenAI Five 和 DeepMind 自己的 AlphaStar RL 智能體分別擊敗了 99.4% 的 Dota 2 玩家和 99.8% 的星際爭霸 2 玩家，然而正如研究人員所說，它並不是百分百完美的。

這裡存在一個長期的信用分配問題，或者說確定哪些是最值得信任的結果，當獎勵被延遲並且需要在較長的序列上分配信用時尤其困難。然後是探索和災難性的遺忘，在看到第一個肯定的獎勵之前，可能需要在遊戲中執行數百個動作，並且智能體很容易陷入困境，無法在隨機數據中尋找到模式，或者在學習新信息時突然忘記先前學到的信息。

為了解決這個問題，DeepMind 團隊開發了 NGU（Never Give Up），該技術是公司內部開發的一種技術，它使用了內部產生的兩個層次上的新穎性來增強獎勵信號：短時間內的新穎性和長時間的新穎性。NGU 通過使用情景記憶來學習一個探索和開發可用的政策，最終目標是在開發政策下獲得最高分。

NGU 玩 Pitfall

Agent57 玩 Pitfall

NGU 的一個缺點是，無論其對學習進度的貢獻如何，NGU 每條策略都會收集相同數量的經驗，但是 DeepMind 的最新實驗會在智能體全生命周期內調整其探索政策。這樣一來，它就可以專註於正在學習的特定遊戲。

Agent57 是如何構建的？

Agent57 通過讓許多參與者進入一個供學習者進行採樣的集中存儲庫（重播緩衝區）來收集數據，重播緩衝區包含定期修剪的過渡序列，這些過渡序列來自與遊戲環境獨立的 actor 進程。

Deepmind 團隊使用了兩種不同的 AI 模型來估算每個狀態行動值，這個值代表了每個 AI 代理在給定策略的狀態下執行特定動作的好壞，從而使 Agent57 能夠根據獎勵的情況進行調整。他們還合併了一個元控制器，在每個參與者上獨立運行，可以自適應地選擇在訓練和評估時使用哪些策略。

正如研究人員解釋的那樣，元控制器有兩個優點。在訓練期間，Agent57 會分配更多的網路給優先考慮的政策。除此之外，在評估期間，Agent57 提供了一個自適應的方式來選擇最好的政策。

遊戲水平全面超越人類

為了對 Agent57 進行評估，DeepMind 團隊將其與最先進的演算法進行了對比，包括 MuZero、 R2D2 和 NGU 等。報告顯示，雖然 MuZero 在所有 57 場比賽中取得了最高的平均分(5661.84)和中值(2381.51) ，但在 Venture 這樣的遊戲中，它卻遭遇慘敗，分數和隨機政策的情況差不多。實際上，相對於 R2D2(96.93)和 MuZero (89.92) ，Agent57 顯示出了更高的平均性能(100) ，在 51 個遊戲以 50 億幀的成績超越了人類玩家，在滑雪遊戲（Skiiing）中以 780 億幀的成績超越人類。

研究人員接著分析了使用元控制器的效果。其本身與 R2D2 相比，它的性能提高了近 20%，甚至在像 Solaris 和 Skiing 這樣的長期信用分配遊戲中也是如此。在這些遊戲中，AI 智能體必須花費較長時間收集信息，以獲取反饋強化訓練。

最適合強化學習研究的平台ALE

Arcade Learning Environment (ALE)是一個簡單的面向對象框架，允許研究人員和業餘愛好者為 Atari 2600 遊戲開發 AI 代理。它構建在 Atari 2600 模擬器 Stella 之上，並將模擬的細節與代理設計分離開來。

ALE 將模擬的核心組件從渲染和聲音模塊解耦，使得庫依賴大大減少，能夠快速實現智能體和內核的通信，自動提取遊戲得分和遊戲結束的信號來評估策略的效果，跨平台支持 Java、Python、C 等編程語言，開發人員只需要專註自己的策略調優而無需關注和遊戲內部的通信。

為什麼採用 Atari 作為評估基準

為什麼是 Atari 2600 遊戲？主要有以下幾點原因

遊戲多種多樣，具有普遍性;

足夠有趣，可以代表實踐中可能面臨的各種環境;

由獨立第三方創造，因此不帶有實驗者的偏見。

ALE 環境下的 Atari 遊戲多種多樣，對於智能體來說是個更普遍性的挑戰，因此常用 Atari 中的得分來衡量智能體的性能。之前的研究人員會用平均分來衡量智能體在一系列任務中的表現，初看好像是合理的，隨著時間的推移，平均性能越來越好，但平均分並不能展示出它在哪些任務上表現好，哪些表現不好，難以衡量一個智能體的普適性。

舉個例子，考慮一個由二十個任務組成的基準測試。假設代理 a 在 8 項任務中得分 500% ，在 4 項任務中得分 200% ，在 8 項任務中得分 0% (平均為 240%) ，而代理 b 在所有任務中得分 150% (平均為 150%)。平均而言，代理 a 比代理 b 執行得更好。然而，代理 b 擁有更一般的能力: 它比代理 a 在更多任務上超過了人類水平。（0%表示智能體隨機水平，100%代表人類水平）

「Agent57 在最難和最簡單的遊戲中都獲得了超過人類水平的表現。」

強化學習的應用不止在 Atari 遊戲，而且強化學習的技術本身也在不斷進化，我們人類在遊戲領域的優勢會逐步喪失，但反過來看，技術的進步也在促進人類文明的發展，強化學習的未來還有很多未知，讓我們共同期待吧！

鏈接：

https://github.com/mgbellemare/Arcade-Learning-Environment

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※拋棄台積電？英偉達7nm安培GPU或選擇三星代工
※為什麼說不能絲毫放鬆對疫情的警惕？Python模擬實驗告訴你