谷歌 AI 最新博文:視頻模型中的模擬策略學習
雷鋒網 AI 科技評論按,深度強化學習(RL)技術可用於從視覺輸入中學習複雜任務的策略,並已成功應用於經典的 Atari2600 遊戲中。最近在這一領域的研究表明,即使在像 Montezuma"s Revenge 這樣的遊戲所展示的具有挑戰性的探索機制中,它也可能獲得超人的表現。然而,目前許多最先進方法的局限之一是,它們需要與遊戲環境進行大量的交互,且這些交互通常比人類去學習如何玩得好要多得多。
近日,谷歌 AI 發布了一篇博文,討論了他們的視頻模型中的模擬策略學習模型,雷鋒網 AI 科技評論編譯整理如下。
解釋為什麼人們能更有效地學習這些任務的一個假設是,他們能夠預測自己行動的效果,從而含蓄地學習一個模型,其行動順序將導致理想的結果。其一般思想是,建立所謂的博弈模型並用它學習一個選擇行為的良好策略,這是基於模型的強化學習(MBRL)的主要前提。
在「基於模型的 Atari 強化學習」中,我們引入了模擬策略學習(SimPLe)演算法,這是一個 MBRL 框架,用於訓練 Atari 遊戲機的代理,其效率顯著高於當前最先進的技術,只需要使用與遊戲環境的約 100K 交互(相當於真人 2 小時的遊戲時間)就能顯示出有競爭力的結果。此外,我們已經將相關代碼作為 Tensor2Tensor 開源代碼庫的一部分進行了開源。這個版本包含了一個預訓練的 world 模型,可以用一個簡單的命令行運行,也可以使用類似於 Atari 的界面來播放。
學習 SimPLe world 模型
總的來說,SimPLe 背後的思想是交替學習遊戲行為的 world 模型,並使用該模型在模擬遊戲環境中優化策略(使用無模型強化學習)。該演算法的基本原理已經很好地建立起來,並在許多基於模型的強化學習方法中得到應用。
SimPLe 的主循環:1)代理開始與真實環境交互。2)收集的觀測數據用於更新當前的 world 模型。3)代理通過學習 world 模型更新策略。
為了訓練一個 Atari 遊戲模型,我們首先需要在像素空間中生成合理的未來世界。換言之,我們試圖通過輸入一系列已經觀察到的幀以及對遊戲發出的命令(如「左」、「右」等)來預測下一幀將是什麼樣子。在觀察空間中訓練 world 模型的一個重要原因是,它實際上是一種自我監督的形式,其中,觀察像素在我們的例子中形成密集而豐富的監控信號。
如果成功地訓練了這樣一個模型(例如視頻預測器),那麼一個人基本上擁有一個學習過的遊戲環境模擬器,可以選擇一系列行動,使遊戲代理的長期回報最大化。換言之,我們通過來自 world 模型/學習模擬器的序列對策略進行訓練,而不是對來自真實遊戲的序列進行策略訓練,因為後者在時間和計算量上花費都非常大。
我們的 world 模型是一個前饋卷積網路,它接受四幀數據,預測下一幀以及反饋(見上圖)。然而,在 Atari 中,未來是不確定的,因為只知道前面四幀數據。在某些情況下,例如,在遊戲中暫停超過四幀的時間、當乒乓球從幀中消失時,都可能導致模型無法成功預測後續幀。我們用一種新的視頻模型架構來處理隨機性問題,這種架構在這個環境中做得更好,這是受到先前工作的啟發。
當 SimPle 模型應用到功夫大師身上時,就會看到一個由隨機性引起的問題的例子。在動畫中,左邊是模型的輸出,中間是事實,右邊的面板是兩者之間的像素差異。
在每一次迭代中,在 world 模型經過訓練後,我們使用這個學習過的模型來生成動作、觀察和結果的樣本序列,使用近端策略優化(PPO)演算法改進遊戲策略。其中的一個重要細節是,數據採樣從實際的數據集幀開始。SimPle 只使用中等長度的數據集,這是因為預測錯誤通常會隨著時間的推移而疊加,這使得長期預測非常困難。幸運的是,PPO 演算法也可以從其內部數值函數中學習行動和反饋之間的長期關係,因此有限長度的數據對於反饋稀少的遊戲(如高速公路)來說是足夠的。
SimPLe 的效率
成功的一個衡量標準是證明模型是高效的。為此,我們評估了模型與環境進行 10 萬次交互後的策略輸出,這 10 萬次交互相當於一個人進行大約兩小時的實時遊戲。我們在 26 款不同的遊戲中比較了我們的 SimPLe 方法和兩種最先進的無模型 RL 方法——Rainbow 和 PPO。在大多數情況下,SimPLe 方法的採樣效率比其他方法高 2 倍以上。
兩個無模型演算法(左:Rainbow,右:PPO)所需的交互次數,以及使用我們的 SimPLe 訓練方法獲得的分數。紅線表示我們的方法使用的交互次數。
SimPLe 的成功
SimPLe 方法的結果令人振奮:對於其中兩個遊戲,Pong 和 Freeway,在模擬環境中訓練的代理能夠達到最高分數。以下是我們的代理使用我們為 Pong 訓練的模型玩遊戲的視頻:
對於 Freeway、Pong 和 Breakout 來說,SimPLe 可以生成最多 50 步接近像素級的完美預測,如下圖所示。
SimPLe 可以做出接近像素的完美預測。在每個動畫中,左邊是模型的輸出,中間是基本事實,右邊的窗格是兩個動畫之間的像素差異。
SimPLe 的驚喜
然而,SimPLe 並不總是做出正確的預測。最常見的失敗是由於 world 模型不能準確地捕獲或預測小的但高度相關的對象。比如,在 Atlantis 戰區,子彈是如此的小,以至於它們往往會消失。
在戰場上,我們發現模型難以預測小的相關部分,例如子彈。
結論
基於模型的強化學習方法的主要用在交互成本高、速度慢或需要人工標記的環境中,例如用在多機器人任務中。在這樣的環境中,經過學習的模擬器能夠更好地理解代理的環境,並能夠為多任務強化學習提供更新、更好、更快的方法。雖然 SimPLe 還達不到標準的無模型 RL 方法的性能要求,但它實際上更有效,我們希望將來能夠進一步提高基於模型的技術的性能。
如果你想開發你自己的模型和實驗,請移步我們的知識庫和colab,在那裡你可以找到關於如何使用預先訓練過的 world 模型一起重現我們工作的說明。
相關論文地址:https://arxiv.org/abs/1903.00374
via:https://ai.googleblog.com/2019/03/simulated-policy-learning-in-video.html
雷鋒網雷鋒網
※短視頻及直播行業的暗流涌動
※宜人貸2018財報:Q4凈收入較同期降30%,COO兼CTO曹陽將離職
TAG:雷鋒網 |