當前位置:
首頁 > 新聞 > 谷歌提出強化學習新演算法SimPLe,模擬策略學習效率提高2倍

谷歌提出強化學習新演算法SimPLe,模擬策略學習效率提高2倍

新智元AI技術峰會倒計時1

新智元將於3月27日在北京泰富酒店舉辦「2019新智元AI技術峰會——智能雲?芯世界」,聚焦智能雲和AI晶元發展,重塑未來AI世界格局。

同時,新智元將現場權威發布若干AI白皮書,聚焦產業鏈的創新活躍,助力中國在世界級的AI競爭中實現超越。

參會二維碼:

新智元報道

來源:Google AI

編輯:肖琴

【新智元導讀】谷歌最近提出一種新的強化學習演算法:模擬策略學習 (SimPLe) ,使用遊戲模型來學習選擇動作的策略,在兩款Atari遊戲中獲得了最高分數,並且效率比以前的最先進方法高出2倍以上。

深度強化學習 (RL) 技術可用於從視覺輸入中學習複雜任務的策略,並已成功地應用於經典的 Atari 2600 遊戲。最近在這一領域的工作表明,即使在具有挑戰性的探索體系中,例如《蒙特祖瑪的復仇》遊戲,AI 也可以獲得超越人類的表現。

然而,許多最先進的方法都有的一個限制是,它們需要與遊戲環境進行大量的交互,通常比人類學習如何玩好遊戲所需要的交互要多得多

為什麼人類能更有效地學習這些任務?一個可能的假設是,他們能夠預測自己行為的影響,從而隱式地學習了一個關於哪些動作序列將導致理想結果的模型。

這種一般性的想法 —— 構建一個所謂的遊戲模型,並使用它來學習選擇行動的良好策略—— 是基於模型的強化學習(model-based reinforcement learning, MBRL) 的主要前提。

Google 的研究人員最近提出一種新的 MBRL 演算法 ——模擬策略學習 (Simulated Policy Learning, SimPLe),使用遊戲模型來學習選擇動作的質量策略。

SimPLe 比當前最先進的技術更高效,並且僅使用了~100K與遊戲的交互即可顯示出有競爭力的結果 (相當於一個人約 2 小時的實時玩遊戲)。

研究人員在論文 「Model-Based Reinforcement Learning for Atari」 中描述了該演算法,並已將代碼作為 tensor2tensor 開源庫的一部分開源。該版本包含一個預訓練的世界模型,可以使用簡單的命令行運行,並且可以使用類似於 Atari 的界面播放。

學習一個 SimPLe 世界模型

SimPLe 背後的想法是在學習遊戲行為的世界模型和在模擬遊戲環境中使用該模型優化策略 (使用 model-free 強化學習) 之間進行交替。該演算法的基本原理已經在 Sutton 的「Dyna, an integrated architecture for learning, planning, and reacting」 中很好地建立起來,並且已經應用到許多最近的基於模型的強化學習方法中。

SimPLe 的主循環。1) agent 開始與真實環境交互。2) 收集的觀測結果用於更新當前的世界模型。3) agent 通過學習世界模型更新策略。

為了訓練一個玩 Atari 遊戲的模型,我們首先需要在像素空間中生成合理的未來版本。換句話說,我們通過將一系列已經觀察到的幀和給到遊戲的命令 (如 「左」、「右」 等) 作為輸入,來試圖預測下一幀會是什麼樣子。在觀察空間中訓練一個世界模型的一個重要原因在於,它實際上是一種自我監督的形式,在我們的例子中,觀察 (像素) 形成了一個密集且豐富的監督信號。

如果成功地訓練了這樣一個模型 (如一個視頻預測器),則基本上有了一個遊戲環境的學習模擬器 (learned simulator),可用於生成用來訓練良好策略的軌跡,即選擇一系列使智能體的長期獎勵最大化的動作。

換句話說,我們不是在真實遊戲的操作序列上訓練策略,這在實踐和計算上都非常密集,而是在來自世界模型 / 學習模擬器的序列之上訓練策略

我們的世界模型是一個前饋卷積網路,它接收 4 個幀,並預測下一幀以及獎勵 (見上圖)。然而,在 Atari 遊戲的情況下,只考慮 4 幀的視界的話,未來是非確定性的。例如,遊戲中的暫停時間就已經超過四幀,比如在《乒乓球》(Pong) 遊戲中,當球掉出框時,可能會導致模型無法成功預測後續的幀。我們使用一種新的視頻模型架構來處理諸如此類的隨機性問題,在這種情況下能做得更好。

當 SimPle 模型應用於《成龍踢館》(Kung Fu Master) 遊戲時,可以看到一個由隨機性引起的問題的例子。在動畫中,左邊是模型的輸出,中間是 groundtruth,右邊是兩者之間的像素差異。在這裡,模型的預測由於產生了不同數量的對手而偏離了真實遊戲。

在每次迭代中,在訓練好世界模型之後,我們使用這個 learned simulator 來生成用於使用近似策略優化 (PPO) 演算法改進遊戲策略的rollouts(即動作、觀察和結果的樣本序列)。

SimPLe 工作的一個重要細節是,rollouts 的採樣是從實際數據集幀開始的。由於預測錯誤通常會隨著時間的推移而增加,使長期預測變得非常困難,因此 SimPLe 只使用中等長度的 rollouts。幸運的是,PPO 演算法也可以從其內部價值函數中學習動作和獎勵之間的長期影響,因此有限長度的 rollouts 對於像《Freeway》這樣獎勵稀疏的遊戲來說也是足夠的。

SimPLe 的效率:比其他方法高2倍以上

衡量成功的一個標準是證明該模型是高效的。為此,我們在與環境進行了 100K 次交互之後,評估了我們的策略輸出,這相當於一個人玩了大約兩個小時的實時遊戲。

我們將SimPLe 方法與兩種最先進的 model-free RL 方法:RainbowPPO,進行了比較。在大多數情況下,SimPLe 方法的採樣效率比其他方法高出兩倍以上。

和我們 SimPLe 方法取得的得分匹配的話,兩種 model-free 演算法所需的交互次數(左 - Rainbow; 右 -PPO)。紅線表示我們的方法使用的交互次數。

SimPLe 的成功:2款遊戲獲得最高分

SimPLe 方法的一個令人興奮的結果是,對於 Pong 和 Freeway 這兩款遊戲,在模擬環境中訓練的智能體能夠獲得最高分數。下面是智能體使用為 Pong 遊戲學習的模型玩遊戲的視頻:

對於 Freeway、 Pong 和 Breakout 這 3 款遊戲,SimPLe 可以生成 50 步以內的近乎完美的像素預測,如下圖所示。

SimPLe 可以在 Breakout(上圖) 和 Freeway(下圖) 生成幾乎完美的像素預測。在每個動畫中,左邊是模型的輸出,中間是 groundtruth,右邊是兩者之間的像素差異。

SimPLe 的局限

SimPLe 的預測並不總是正確的。最常見的失敗是由於世界模型沒有準確地捕獲或預測小但高度相關的對象。

例如:(1) 在《Atlantis》和《Battlezone》遊戲中,子彈是如此之小,以至於它們往往會消失不見;(2)《Private Eye》遊戲中, agent 穿越不同的場景,從一個場景傳送到另一個場景。我們發現,我們的模型通常很難捕捉到如此巨大的全局變化。

在《Battlezone》中,我們發現模型很難預測小但高度相關的部分,比如子彈。

結論

model-based 的強化學習方法的主要前景是在交互要麼成本高昂、速度緩慢,要麼需要人工標記的環境中,比如許多機器人任務。在這樣的環境中,一個 learned simulator 能夠更好地理解智能體的環境,並能夠為執行多任務強化學習提供新的、更好、更快的方法。

雖然 SimPLe 還沒有達到標準的 model-free RL 方法的性能,但它的效率要高很多。我們期望未來的工作能夠進一步提高 model-based 的技術的性能。

論文:

https://arxiv.org/abs/1903.00374

更多閱讀


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

極簡AI:10張幻燈片看懂AI/機器學習
華為晶元大動作:英國投資3億圈地劍橋,緊鄰ARM自建工廠

TAG:新智元 |