當前位置:
首頁 > 科技 > DeepMind 首席科學家獲2019年ACM 計算獎,智能體Agent57在所有經典Atari 遊戲中吊打人類

DeepMind 首席科學家獲2019年ACM 計算獎,智能體Agent57在所有經典Atari 遊戲中吊打人類

新智元推薦

來源:venturebeat等

編輯:夢佳、白峰

4月1日,美國計算機學會(ACM)宣布,將 2019 年 ACM 計算獎授予 AlphaGo 研發團隊領導者 David Silver,以表彰其在計算機遊戲方面取得突破性進展。Silver 現任倫敦大學學院(UCL)教授、DeepMind 首席科學家。作為深度強化學習領域的領軍人物,Silver 曾領導AlphaGo 團隊,在圍棋比賽中擊敗世界冠軍。Alphago 是AI研究的里程碑,被《新科學家》雜誌評為過去十年間最偉大的十大發明之一。

自20世紀50年代以來,訓練電腦程序玩遊戲一直是AI研究的核心實踐。早在1997年,ACM 贊助的比賽中,IBM 的 DeepBlue 就成功擊敗了國際象棋冠軍。2013年,Silver 和他在 DeepMind 的同事推出了一個在50個 Atari 遊戲上能夠戰勝人類的程序。

在DeepMind 本周發表的一篇博客中,闡述了其最新研發的RL智能體Agent57。這是 Arcade Learning Environment 環境下第一個在所有 57 款 Atari 遊戲中表現優於人類的系統。

目前 ALE 中支持的超過50種遊戲

在 57 種經典 Atari 遊戲中擊敗人類

可以說 Agent57 為目前來講最優質的人工智慧決策模型奠定了基礎。這對於企業來講是一個福音,企業可以通過實現工作場所自動化來提升生產力; 想像一下,AI 不僅能自動完成數據輸入一類的日常重複的任務,而且還能對其所在的環境進行推理。

「通過 Agent57,我們已經成功地構建了一個表現更優秀的智能體,它在 Atari57 基準中的所有任務上的表現都超過了人類」,該研究的合著者寫道。

「Agent57 能夠隨著計算量的增加性能逐步提升: 訓練的時間越長,得分越高。」

NGU 玩滑雪遊戲

Agent57 玩滑雪遊戲

Deepmind 自己的 Deep Q-Networks 是第一個在大量 Atari 2600 遊戲中實現人類水平的演算法。隨後,OpenAI 和 DeepMind 的 AI 系統在 Pong 和 Enduro 遊戲測試中實現了超過人類的表現; Uber 模型完成了視頻遊戲蒙特祖瑪復仇的闖關; DeepMind 的 MuZero 通過自學在 51 個遊戲中表現超越了人類。但迄今為止,還沒有一種演算法能夠在 ALE 的所有 57 個遊戲中取得如此優異的表現。

強化學習玩遊戲有哪些挑戰?

為了實現最先進的性能,DeepMind 的 Agent57 在多台計算機上並行執行,並啟用 RL 驅動的智能體採取行動,使得獎勵的效果最大化。RL 在視頻遊戲領域顯示出了巨大的潛力--OpenAI 的 OpenAI Five 和 DeepMind 自己的 AlphaStar RL 智能體分別擊敗了 99.4% 的 Dota 2 玩家和 99.8% 的星際爭霸 2 玩家,然而正如研究人員所說,它並不是百分百完美的。

這裡存在一個長期的信用分配問題,或者說確定哪些是最值得信任的結果,當獎勵被延遲並且需要在較長的序列上分配信用時尤其困難。然後是探索和災難性的遺忘,在看到第一個肯定的獎勵之前,可能需要在遊戲中執行數百個動作,並且智能體很容易陷入困境,無法在隨機數據中尋找到模式,或者在學習新信息時突然忘記先前學到的信息。

為了解決這個問題,DeepMind 團隊開發了 NGU(Never Give Up),該技術是公司內部開發的一種技術,它使用了內部產生的兩個層次上的新穎性來增強獎勵信號:短時間內的新穎性和長時間的新穎性。NGU 通過使用情景記憶來學習一個探索和開發可用的政策,最終目標是在開發政策下獲得最高分。

NGU 玩 Pitfall

Agent57 玩 Pitfall

NGU 的一個缺點是,無論其對學習進度的貢獻如何,NGU 每條策略都會收集相同數量的經驗,但是 DeepMind 的最新實驗會在智能體全生命周期內調整其探索政策。這樣一來,它就可以專註於正在學習的特定遊戲。

Agent57 是如何構建的?

Agent57 通過讓許多參與者進入一個供學習者進行採樣的集中存儲庫(重播緩衝區)來收集數據,重播緩衝區包含定期修剪的過渡序列,這些過渡序列來自與遊戲環境獨立的 actor 進程。

Deepmind 團隊使用了兩種不同的 AI 模型來估算每個狀態行動值,這個值代表了每個 AI 代理在給定策略的狀態下執行特定動作的好壞,從而使 Agent57 能夠根據獎勵的情況進行調整。他們還合併了一個元控制器,在每個參與者上獨立運行,可以自適應地選擇在訓練和評估時使用哪些策略。

正如研究人員解釋的那樣,元控制器有兩個優點。在訓練期間,Agent57 會分配更多的網路給優先考慮的政策。除此之外,在評估期間,Agent57 提供了一個自適應的方式來選擇最好的政策。

遊戲水平全面超越人類

為了對 Agent57 進行評估,DeepMind 團隊將其與最先進的演算法進行了對比,包括 MuZero、 R2D2 和 NGU 等。報告顯示,雖然 MuZero 在所有 57 場比賽中取得了最高的平均分(5661.84)和中值(2381.51) ,但在 Venture 這樣的遊戲中,它卻遭遇慘敗,分數和隨機政策的情況差不多。實際上,相對於 R2D2(96.93)和 MuZero (89.92) ,Agent57 顯示出了更高的平均性能(100) ,在 51 個遊戲以 50 億幀的成績超越了人類玩家,在滑雪遊戲(Skiiing)中以 780 億幀的成績超越人類。

研究人員接著分析了使用元控制器的效果。其本身與 R2D2 相比,它的性能提高了近 20%,甚至在像 Solaris 和 Skiing 這樣的長期信用分配遊戲中也是如此。在這些遊戲中,AI 智能體必須花費較長時間收集信息,以獲取反饋強化訓練。

最適合強化學習研究的平台ALE

Arcade Learning Environment (ALE)是一個簡單的面向對象框架,允許研究人員和業餘愛好者為 Atari 2600 遊戲開發 AI 代理。它構建在 Atari 2600 模擬器 Stella 之上,並將模擬的細節與代理設計分離開來。

ALE 將模擬的核心組件從渲染和聲音模塊解耦,使得庫依賴大大減少,能夠快速實現智能體和內核的通信,自動提取遊戲得分和遊戲結束的信號來評估策略的效果,跨平台支持 Java、Python、C 等編程語言,開發人員只需要專註自己的策略調優而無需關注和遊戲內部的通信。

為什麼採用 Atari 作為評估基準

為什麼是 Atari 2600 遊戲?主要有以下幾點原因

遊戲多種多樣,具有普遍性;

足夠有趣,可以代表實踐中可能面臨的各種環境;

由獨立第三方創造,因此不帶有實驗者的偏見。

ALE 環境下的 Atari 遊戲多種多樣,對於智能體來說是個更普遍性的挑戰,因此常用 Atari 中的得分來衡量智能體的性能。之前的研究人員會用平均分來衡量智能體在一系列任務中的表現,初看好像是合理的,隨著時間的推移,平均性能越來越好,但平均分並不能展示出它在哪些任務上表現好,哪些表現不好,難以衡量一個智能體的普適性

舉個例子,考慮一個由二十個任務組成的基準測試。假設代理 a 在 8 項任務中得分 500% ,在 4 項任務中得分 200% ,在 8 項任務中得分 0% (平均為 240%) ,而代理 b 在所有任務中得分 150% (平均為 150%)。平均而言,代理 a 比代理 b 執行得更好。然而,代理 b 擁有更一般的能力: 它比代理 a 在更多任務上超過了人類水平。(0%表示智能體隨機水平,100%代表人類水平)

「Agent57 在最難和最簡單的遊戲中都獲得了超過人類水平的表現。」

強化學習的應用不止在 Atari 遊戲,而且強化學習的技術本身也在不斷進化,我們人類在遊戲領域的優勢會逐步喪失,但反過來看,技術的進步也在促進人類文明的發展,強化學習的未來還有很多未知,讓我們共同期待吧!

鏈接:

https://github.com/mgbellemare/Arcade-Learning-Environment

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

拋棄台積電?英偉達7nm安培GPU或選擇三星代工
為什麼說不能絲毫放鬆對疫情的警惕?Python模擬實驗告訴你