谷歌 AI 最新博文：視頻模型中的模擬策略學習

新聞 03-27

雷鋒網 AI 科技評論按，深度強化學習（RL）技術可用於從視覺輸入中學習複雜任務的策略，並已成功應用於經典的 Atari2600 遊戲中。最近在這一領域的研究表明，即使在像 Montezuma"s Revenge 這樣的遊戲所展示的具有挑戰性的探索機制中，它也可能獲得超人的表現。然而，目前許多最先進方法的局限之一是，它們需要與遊戲環境進行大量的交互，且這些交互通常比人類去學習如何玩得好要多得多。

近日，谷歌 AI 發布了一篇博文，討論了他們的視頻模型中的模擬策略學習模型，雷鋒網 AI 科技評論編譯整理如下。

解釋為什麼人們能更有效地學習這些任務的一個假設是，他們能夠預測自己行動的效果，從而含蓄地學習一個模型，其行動順序將導致理想的結果。其一般思想是，建立所謂的博弈模型並用它學習一個選擇行為的良好策略，這是基於模型的強化學習（MBRL）的主要前提。

在「基於模型的 Atari 強化學習」中，我們引入了模擬策略學習（SimPLe）演算法，這是一個 MBRL 框架，用於訓練 Atari 遊戲機的代理，其效率顯著高於當前最先進的技術，只需要使用與遊戲環境的約 100K 交互（相當於真人 2 小時的遊戲時間）就能顯示出有競爭力的結果。此外，我們已經將相關代碼作為 Tensor2Tensor 開源代碼庫的一部分進行了開源。這個版本包含了一個預訓練的 world 模型，可以用一個簡單的命令行運行，也可以使用類似於 Atari 的界面來播放。

學習 SimPLe world 模型

總的來說，SimPLe 背後的思想是交替學習遊戲行為的 world 模型，並使用該模型在模擬遊戲環境中優化策略（使用無模型強化學習）。該演算法的基本原理已經很好地建立起來，並在許多基於模型的強化學習方法中得到應用。

谷歌 AI 最新博文：視頻模型中的模擬策略學習

SimPLe 的主循環：1）代理開始與真實環境交互。2）收集的觀測數據用於更新當前的 world 模型。3）代理通過學習 world 模型更新策略。

為了訓練一個 Atari 遊戲模型，我們首先需要在像素空間中生成合理的未來世界。換言之，我們試圖通過輸入一系列已經觀察到的幀以及對遊戲發出的命令（如「左」、「右」等）來預測下一幀將是什麼樣子。在觀察空間中訓練 world 模型的一個重要原因是，它實際上是一種自我監督的形式，其中，觀察像素在我們的例子中形成密集而豐富的監控信號。

如果成功地訓練了這樣一個模型（例如視頻預測器），那麼一個人基本上擁有一個學習過的遊戲環境模擬器，可以選擇一系列行動，使遊戲代理的長期回報最大化。換言之，我們通過來自 world 模型/學習模擬器的序列對策略進行訓練，而不是對來自真實遊戲的序列進行策略訓練，因為後者在時間和計算量上花費都非常大。

我們的 world 模型是一個前饋卷積網路，它接受四幀數據，預測下一幀以及反饋（見上圖）。然而，在 Atari 中，未來是不確定的，因為只知道前面四幀數據。在某些情況下，例如，在遊戲中暫停超過四幀的時間、當乒乓球從幀中消失時，都可能導致模型無法成功預測後續幀。我們用一種新的視頻模型架構來處理隨機性問題，這種架構在這個環境中做得更好，這是受到先前工作的啟發。

當 SimPle 模型應用到功夫大師身上時，就會看到一個由隨機性引起的問題的例子。在動畫中，左邊是模型的輸出，中間是事實，右邊的面板是兩者之間的像素差異。

在每一次迭代中，在 world 模型經過訓練後，我們使用這個學習過的模型來生成動作、觀察和結果的樣本序列，使用近端策略優化（PPO）演算法改進遊戲策略。其中的一個重要細節是，數據採樣從實際的數據集幀開始。SimPle 只使用中等長度的數據集，這是因為預測錯誤通常會隨著時間的推移而疊加，這使得長期預測非常困難。幸運的是，PPO 演算法也可以從其內部數值函數中學習行動和反饋之間的長期關係，因此有限長度的數據對於反饋稀少的遊戲（如高速公路）來說是足夠的。

SimPLe 的效率

成功的一個衡量標準是證明模型是高效的。為此，我們評估了模型與環境進行 10 萬次交互後的策略輸出，這 10 萬次交互相當於一個人進行大約兩小時的實時遊戲。我們在 26 款不同的遊戲中比較了我們的 SimPLe 方法和兩種最先進的無模型 RL 方法——Rainbow 和 PPO。在大多數情況下，SimPLe 方法的採樣效率比其他方法高 2 倍以上。

谷歌 AI 最新博文：視頻模型中的模擬策略學習

兩個無模型演算法（左：Rainbow，右：PPO）所需的交互次數，以及使用我們的 SimPLe 訓練方法獲得的分數。紅線表示我們的方法使用的交互次數。

SimPLe 的成功

SimPLe 方法的結果令人振奮：對於其中兩個遊戲，Pong 和 Freeway，在模擬環境中訓練的代理能夠達到最高分數。以下是我們的代理使用我們為 Pong 訓練的模型玩遊戲的視頻：

對於 Freeway、Pong 和 Breakout 來說，SimPLe 可以生成最多 50 步接近像素級的完美預測，如下圖所示。

SimPLe 可以做出接近像素的完美預測。在每個動畫中，左邊是模型的輸出，中間是基本事實，右邊的窗格是兩個動畫之間的像素差異。

SimPLe 的驚喜

然而，SimPLe 並不總是做出正確的預測。最常見的失敗是由於 world 模型不能準確地捕獲或預測小的但高度相關的對象。比如，在 Atlantis 戰區，子彈是如此的小，以至於它們往往會消失。

在戰場上，我們發現模型難以預測小的相關部分，例如子彈。

結論

基於模型的強化學習方法的主要用在交互成本高、速度慢或需要人工標記的環境中，例如用在多機器人任務中。在這樣的環境中，經過學習的模擬器能夠更好地理解代理的環境，並能夠為多任務強化學習提供更新、更好、更快的方法。雖然 SimPLe 還達不到標準的無模型 RL 方法的性能要求，但它實際上更有效，我們希望將來能夠進一步提高基於模型的技術的性能。

如果你想開發你自己的模型和實驗，請移步我們的知識庫和colab，在那裡你可以找到關於如何使用預先訓練過的 world 模型一起重現我們工作的說明。

相關論文地址：https://arxiv.org/abs/1903.00374

via：https://ai.googleblog.com/2019/03/simulated-policy-learning-in-video.html

雷鋒網雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※短視頻及直播行業的暗流涌動
※宜人貸2018財報：Q4凈收入較同期降30%，COO兼CTO曹陽將離職

TAG:雷鋒網 |