DeepMind強化學習進展：可執行多個任務的高度可擴展智能體——IMPALA

最新 02-11

來源：DeepMind

編譯：Bot

編者按：從機器人的持續控制問題，到棋類遊戲和雅達利遊戲，深度強化學習（DeepRL）已經在多個領域取得了顯著成果，但是，這些成就都還僅限於為每項任務單獨訓練智能體，也就是說，它們還都只是個人任務。近日，DeepMind又在一篇新論文中介紹了團隊在深度強化學習方面的進展，這次他們主要帶來了3個成果：

發布一個多任務集合DMLab-30；
推出一個高度可擴展的、基於分散式架構的智能體IMPALA；
提出一種名為V-trace的off-policy學習演算法。

以下是博客和論文中的一些具體介紹。

在近期的工作中，我們對如何訓練單個智能體完成多項任務做了不少探討。今天，我們正式開源DMLab-30，這是一個多任務集合，允許研究人員同時觀看智能體在多個任務環境中的具體表現。由於訓練單個智能體執行多種任務會涉及巨大的數據吞吐量，為了高效利用每個數據點，我們開發了一種新型智能體IMPALA（Importances Weighted Actor-Learner Architectures），它基於分散式框架，簡單而又高度可擴展，因此數據處理效率更高（250K frames/s VS 50K frames/s）。

此外，因為IMPALA受A3C架構啟發，它通過用多個分散式actor獲得參數，然後將參數作為經驗匯總給總的learner來實現學習，因此actor有時會落後於learner。為了彌補兩者的差異，我們在IMPALA中加入了一種新的off-policy學習演算法V-trace，發現這樣做的效果較A3C架構更優。

DMLab-30

DMLab-30是我們用開源RL環境DeepMind Lab設計一個新的任務集合，其中後者是我們不久前剛發布的人工智慧研究實驗平台，它提供了一系列富有挑戰性的3D導航和解題任務，特別適合深度強化學習系統的部署。而DMLab-30的意義就在於能使研究人員在大量有趣的任務上測試自己的RL系統。

GIF

DMLab-30的任務設計十分多元化。以目標劃分，它有學習、記憶、導航等任務；以時間劃分，它有黎明、正午、夜晚等場景；以視覺感受劃分，它有色彩鮮明、現代風紋理、沙漠風（棕綠色調）等不同風格；以地形劃分，它也可被分為開闊的山地、直角迷宮和開放的圓形空間等……此外，部分環境中還包含有機器人。

需要注意的一點是，由於這是一個多任務集合，各任務的獎勵目標也是不同的。在這個場景下，可能智能體的目標是聽從命令並用鑰匙開門，但在下一個環境中，它也許就得外出覓食，去野外采蘑菇，甚至是繪製複雜的行進路線，思考如何在不回頭的情況下到達目的地。

然而，從基礎層面上說，這些任務中智能體的動作空間和觀察空間都是相同的，也就是說，這其實就是讓單個智能體在高度變化的環境中訓練，使它最後可以適應每個環境。

IMPALA

為了解決DMLab-30中的任務，我們開發了一種新型分散式智能體IMPALA，它通過使用TensorFlow的高效分散式體系結構來最大化數據吞吐量。

IMPALA受流行的A3C架構啟發，它有多個actor，負責從任務中學習智能體的各項參數。這些參數來自各任務的策略π和基線函數（baseline function）Vπ，actor通過訓練找出最佳組合，然後把學習經驗匯總給智能體，也就是更新learner中的各項參數。不同的是，A3C的actor需要計算新的梯度，並把它返回給learner，但IMPALA的actor不用計算梯度，它返回的只是觀察結果。

也就是說，在訓練之初，actor用策略π更新初始策略μ，並在當前任務中進行幾輪迭代。迭代完成後，它再把當前的狀態、動作和獎勵 x1, a1, r1, . . . , xn, an, rn，以及相應的策略分布μ(atxt)、初始LSTM狀態排列成組，逐個輸入learner。利用這些由多個actor收集的數據，learner能不斷更新策略π。

A2C每次學習都需要暫停，而IMPALA是連續的

GPU優化：(a)一個正常的LSTM；(b)將batch用於輸入層和輸出層；(c)將batch融合進整個網路

這個簡單的架構使得learner可以在多個機器上並行計算（各actor不用排隊），大大提高了GPU的利用率。但是，在更新參數時，由於learner的策略π可能比actor的策略μ提前做了幾次SGD，因此兩者間存在策略滯後的問題。

V-trace

在這種分離的分散式actor-learner架構中，由於actor產生動作和learner估計策略梯度之間存在差異，所以使用off-policy學習演算法是十分重要的。為此，我們專為learner引入了一種新型演算法V-trace。

首先，我們定義：

我們把這個問題看作是馬爾可夫決策（MDP）中的discounted infinite-horizon RL問題，它的目標是找到一個策略π，能使未來獎勵的總和，即

最大化。而off-policy學習演算法的思路是根據動作策略μ來學習另一個策略，如策略π（μ和π可能不同）的價值函數Vπ，我們也把π稱為目標策略。

詳細的數學計算可以在論文中找到，這裡我們簡要介紹3點創新：

隨著時間s不斷推進，價值參數θ會隨vs的梯度值不斷更新：

同時，價值函數ω也會隨策略梯度的變化不斷更新：

為了防止函數過早收斂，我們模仿A3C，在裡面加入了一個和軌跡方向一致的熵：

智能體的參數就是通過總結這三個不斷更新獲得的係數進行調整的，簡而言之，這是系統計算超參數的方法。

小結

由於IMPALA經過多重優化，和其他類似智能體相比，它處理的數據量能比它們高出一到兩個數量級，這也為它在多種任務環境中的良好表現奠定了基礎。我們把IMPALA和當前幾種頗為流行的基於A3C的方法進行了比較，發現除了在速度上有明顯提升，IMPALA的數據吞吐量也呈現線性增長，這說明分散式架構和V-trace演算法為實現處理大規模強化學習問題提供了一種可能性。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

※飛呀飛呀，飛的驕傲放縱
※SpaceX獵鷹重型火箭的成功與中國航天的戰略定力

TAG:全球大搜羅 |