DeepMind新論文提出循環環境模擬器:可適應多種不同環境
機器之心編譯
參與:吳攀、黃小天、蔣思源
圍棋、視頻遊戲、迷宮……DeepMind 的人工智慧在玩遊戲方面可謂是得心應手。DeepMind 又發布了一篇論文介紹了他們在這方面的另一項新研究:循環環境模擬器(recurrent environment simulator)。據介紹,該方法可以被用來改進探索(exploration)過程,還能適應多種不同的環境(包括 Atari 遊戲、3D 賽車和迷宮)。本論文已經被 ICLR 2017 接收。機器之心對本論文進行了簡單編譯介紹,更多詳情請點擊文末「閱讀原文」查閱原論文。
可以模擬環境(environment)響應動作(action)的方式的模型可以被代理用來進行有效的規劃和行動。我們通過引入能夠做出未來數百個時間步驟的時間和空間連貫預測(coherent prediction)的循環神經網路(recurrent neural network)而改進了之前的來自高維像素觀察的環境模擬器。我們對性能影響因素進行了深度的分析,為推動對這些模型的性質的理解提供了最廣泛的嘗試。我們使用一種模型解決了計算效率低下的問題——該模型不需要在每一個時間步驟都生成一個高維圖像。我們表明我們的方法可以被用來改進探索(exploration),並且可以適應多種不同的環境,即 10 種 Atari 遊戲、一個 3D 賽車環境和複雜的 3D 迷宮。
圖 1:(a) 在 Oh et al. (2015) 中使用的循環結構的圖模型,(b) 我們的循環結構的圖模型。填充節點和空節點分別代表被觀察的和隱藏的變數
2 循環環境模擬器
環境模擬器是一種模型;給定一個動作序列 a1, . . . , aτ?1 ≡ a1:τ?1 及其對應的環境觀察 x1:τ,該模型可以預測後續動作的影響
,比如,構建對環境的預測
或狀態表徵
我們的起點是 Oh et al. (2015) 中的循環模擬器(recurrent simulator),其在模擬帶有視覺觀察(幀)和離散動作的確定性環境上的表現是當前最佳的。該模擬器是一個帶有以下主幹結構的循環神經網路:
在這個等式中,st 是環境的隱藏狀態表徵,f 是一個非線性的確定狀態轉移函數。I 符號表示預測的幀
和真實的幀 xt?1 的選擇,其會產生兩種類型的狀態轉換,分別稱為依賴於預測的轉換(prediction-dependent transition)和依賴於觀察的轉換(observation-dependent transition)。C 是一個由一系列卷積構成的編碼函數,D 是一個將狀態 st 和動作 at-1 通過一個乘法交互組合起來的解碼函數,它然後使用一系列全卷積來將其構建出預測的幀
該模型被訓練用來最小化被觀察的時間序列及其預測
之間的均方誤差,其對應於其環境的演化。在一個概率框架中,這相當於如圖 1(a) 所示的圖模型的對數似然的最大化。在這個圖 中,x?t 到 xt 的鏈接表示隨機依賴,因為 xt 是通過向 x^t 添加一個 0 均值和單位方差的高斯雜訊項而構成的,而其它剩下的鏈接都表示確定依賴。虛線表示這兩個鏈接中僅有一個是活動的,這要看其狀態轉換是依賴於預測還是依賴於觀察。
該模型使用隨機梯度下降訓練,其中每個 mini-batch 由一個隨機從 x1:τ+τ 0 子採樣的長度 τ + T 的片段集組成。對於 mini-batch 中的每個片段,模型使用最初的 τ 觀察來進化狀態,並僅形成最新的 T 觀察的預測。訓練包括使用預測依賴轉換或觀察依賴轉換(第一個 τ 轉換之後)和預測長度 T 的值三個階段。在第一個階段,模型使用觀察依賴轉換並預測 T = 10 個時間步。在第二和第三個階段,模型使用預測依賴轉換並分別預測 T = 3 和 T = 5 個時間步。在評估或使用期間,模型只能使用預測依賴轉換。
動作依賴狀態轉換
上述 Oh et al. (2015) 的模型的一個鮮明特徵是動作僅通過預測或者觀測間接地影響狀態轉換。允許動作直接地調節狀態轉換可潛在地使模型與動作信息更有效地合作。因此我們提出了如下這一核心結構:
在圖像模型表徵上,這與圖 1(b) 中使用從 at?1 到 st 的連接替代從 at?1 到 x?t 的連接相符合。
短期 vs 長期準確度
上述 Oh et al. (2015) 訓練計劃的最後兩個階段被用於解決低精確度問題,低精確度由循環神經網路在被要求提前預測幾個時間步時僅通過使用觀測依賴轉換顯示而獲得。然而,論文並沒有分析或討論替代性訓練計劃。
原則上講,最高精確度應該通過如下方式獲得:最大可能地接近模型被使用的方式訓練模型,進而通過使用儘可能接近模型被要求預測的時間步數量的大量的預測依賴轉換。然而,預測依賴轉換增加了目標函數的複雜度以至於替代性計劃常被使用(Talvitie, 2014; Bengio et al., 2015; Oh et al., 2015)。目前訓練方法的指導理念是使用 xt?1 觀察而不是 x?t?1 預測來形成狀態 st 將對減少預測造成的錯誤的傳播產生影響,其在更早的訓練階段更高,使得模型可以從時間步 t?1 所構成的錯誤中糾正自己。例如,根據驗證選擇的一個日程表,Bengio et al. (2015)引入了一種預定採樣方法,其中在每個時間步中,從伯努利分布(Bernoulli distribution)採樣的狀態轉換類型帶有從對應於僅使用觀察依賴轉換的初始值退火到對應於僅使用預測依賴轉換的最終值的參數。
我們對 Atari 不同訓練計劃的分析考慮了預熱長度 τ 、預測長度 T 和預測依賴轉換之間的相互作用,分析表明,觀察依賴轉換不但沒有校正效應,而且還會限制模型考慮其預測能力的時間間隔,並因此集中資源。事實上我們發現,連續預測依賴轉換的數量越多,對模型聚焦於學習環境的整體動態的鼓勵就越多,這帶來了更高的長期精確性。最高的長期精確性常常通過一個甚至是在訓練早期階段僅使用預測依賴轉換的訓練計劃獲得。聚焦於學習整體動態以從學習幀的精確細節轉移模型資源為代價來降低短期精確性。因此,對於不能獲得合理的長期精確性的複雜遊戲,優選混合預測依賴和觀察依賴轉換的訓練計劃。從這一分析得出,當制定訓練計劃時,應該考慮連續預測依賴轉換的比例,而不僅僅是這種轉換的比例。
根據這一觀點,通過被考慮任務類型的區別可以解釋 Bengio et al. (2015) 僅使用預測依賴轉換獲得的差強人意的結果。確實,在我們的情況中,模型可以在某種程度上容忍諸如早期預測的模糊等錯誤;Bengio et al. (2015) 考慮的離散問題與我們的情況不同,早期時間步的預測錯誤可以嚴重影響後期時間步的預測,因此模型需要很高的短期精確性以獲得合理的長期精確性。另外,Bengio et al. (2015) 把形成 st 的預測作為一個定量而不是作為 st?1 的一個函數來對待,因此並不執行精確的最大似然法。
獨立於預測的狀態轉換
除了潛在地令模型更高效地包含動作信息外,允許動作直接影響動態狀態的另一個關鍵優點:它允許考慮不依賴於框架的狀態轉換情況,即st = f(st?1, at?1)形式,其對應於移除從x?t?1和xt?1到st(圖1b)。我們稱這種模型為獨立預測模擬器(prediction-independent simulator),其代表著不使用預測的情況下演變狀態的能力。Srivastava et al. (2015)也考慮了獨立於預測的狀態轉換在高維的觀察值問題。
獨立預測模擬器能顯著提高計算效率,尤其是在智能體對一系列動作而不是單個動作的影響感興趣的情況下。實際上,這樣的模型並不需要通過一系列卷積從低維狀態空間映射到高維觀察空間,在每一時間步反之亦然。
圖2: 在(a)-(b) Bowling 和 (c) Fishing Derby上對於不同的訓練方案的10,000個序列預測誤差平均值。在所有圖表中使用相同的顏色和線代碼。(a)模型看過2億幀之後的預測誤差和時間步。(b)-(c):模型在時間步10和100時預測誤差和看過的幀數。
圖3:(a) Pong 和 (b) Seaquest在不同訓練方案的預測誤差。
圖7:從使用我們的模擬器和人類玩家採取的動作所生成的(a)500幀Pong和(b)350幀Breakout中提取的關鍵幀。
圖8:從使用我們的模擬器和人類玩家採取的動作所生成的700幀TORCS提取強調一致性的關鍵幀。
圖9:在時間步1、25、66、158和200從測試數據採用的動作預測(left)與真實(right)幀。
圖10:使用我們的模擬器和人類玩家採取的動作所生成360度旋轉後的牆面布局關鍵幀。
圖11:(a)隨機智能體和使用我們模型的智能體訪問的10個迷宮區域(陰影部分為68%置信區間)的平均比率。(b)隨機智能體(左)我們的智能體(右)的典型路徑樣本。
※「冷撲大師」強勢戰贏人類牌手,博弈論落地商業應用有幾分可能
※解讀|通過拳擊學習生成對抗網路的基本原理
※基於TensorFlow的簡單故事生成案例:帶你了解LSTM
※業界:開源硬體挑戰 GPU 計算極限
TAG:機器之心 |
※巧設publicPath,優雅適配生產環境要求
※輕鬆應對各種嚴苛環境:Lexar推出JumpDrive Tough?移動快閃記憶體
※DeepMind論文三連發:如何在模擬環境中生成靈活行為
※Docker Mesos在生產環境的應用
※McAllister動漫環境場景構架插畫設計
※使用Docker環境快速搭建靶機環境
※TensorFlow+Docker我的DL開發環境,你的呢?
※Highcharts 環境配置
※python+selenium自動化測試環境安裝
※Teacher stretches beyond classroom into culture 「學好英語需要真實的語言環境」
※selenium+python環境的搭建的自動化測試
※四方框框|Mike Dempsey~在現實環境挑戰重力的照片
※意法半導體(ST)與Wurth Elektronik合作提升在線電源應用設計環境
※適合爐石環境 Stancifka奪屍賊
※特殊的光環境:俄羅斯 Bato Dugarzhapov 油畫作品
※追求時尚的同時還可以保護環境!NOAH全新Watermans Club系列不容忽視
※Dynatrace雲戰略專家Brandon Neo:數字化時代下如何監控動態雲環境
※Instagram整治平台環境:限制垃圾評論
※Docker下搭建Jenkins構建環境