當前位置:
首頁 > 最新 > DeepMind強化學習進展:可執行多個任務的高度可擴展智能體——IMPALA

DeepMind強化學習進展:可執行多個任務的高度可擴展智能體——IMPALA

來源:DeepMind

編譯:Bot

編者按:從機器人的持續控制問題,到棋類遊戲和雅達利遊戲,深度強化學習(DeepRL)已經在多個領域取得了顯著成果,但是,這些成就都還僅限於為每項任務單獨訓練智能體,也就是說,它們還都只是個人任務。近日,DeepMind又在一篇新論文中介紹了團隊在深度強化學習方面的進展,這次他們主要帶來了3個成果:

  • 發布一個多任務集合DMLab-30;

  • 推出一個高度可擴展的、基於分散式架構的智能體IMPALA;

  • 提出一種名為V-trace的off-policy學習演算法。

以下是博客和論文中的一些具體介紹。

在近期的工作中,我們對如何訓練單個智能體完成多項任務做了不少探討。今天,我們正式開源DMLab-30,這是一個多任務集合,允許研究人員同時觀看智能體在多個任務環境中的具體表現。由於訓練單個智能體執行多種任務會涉及巨大的數據吞吐量,為了高效利用每個數據點,我們開發了一種新型智能體IMPALA(Importances Weighted Actor-Learner Architectures),它基於分散式框架,簡單而又高度可擴展,因此數據處理效率更高(250K frames/s VS 50K frames/s)。

此外,因為IMPALA受A3C架構啟發,它通過用多個分散式actor獲得參數,然後將參數作為經驗匯總給總的learner來實現學習,因此actor有時會落後於learner。為了彌補兩者的差異,我們在IMPALA中加入了一種新的off-policy學習演算法V-trace,發現這樣做的效果較A3C架構更優。

DMLab-30

DMLab-30是我們用開源RL環境DeepMind Lab設計一個新的任務集合,其中後者是我們不久前剛發布的人工智慧研究實驗平台,它提供了一系列富有挑戰性的3D導航和解題任務,特別適合深度強化學習系統的部署。而DMLab-30的意義就在於能使研究人員在大量有趣的任務上測試自己的RL系統。

GIF

DMLab-30的任務設計十分多元化。以目標劃分,它有學習、記憶、導航等任務;以時間劃分,它有黎明、正午、夜晚等場景;以視覺感受劃分,它有色彩鮮明、現代風紋理、沙漠風(棕綠色調)等不同風格;以地形劃分,它也可被分為開闊的山地、直角迷宮和開放的圓形空間等……此外,部分環境中還包含有機器人。

需要注意的一點是,由於這是一個多任務集合,各任務的獎勵目標也是不同的。在這個場景下,可能智能體的目標是聽從命令並用鑰匙開門,但在下一個環境中,它也許就得外出覓食,去野外采蘑菇,甚至是繪製複雜的行進路線,思考如何在不回頭的情況下到達目的地。

然而,從基礎層面上說,這些任務中智能體的動作空間和觀察空間都是相同的,也就是說,這其實就是讓單個智能體在高度變化的環境中訓練,使它最後可以適應每個環境。

IMPALA

為了解決DMLab-30中的任務,我們開發了一種新型分散式智能體IMPALA,它通過使用TensorFlow的高效分散式體系結構來最大化數據吞吐量。

IMPALA受流行的A3C架構啟發,它有多個actor,負責從任務中學習智能體的各項參數。這些參數來自各任務的策略π和基線函數(baseline function)Vπ,actor通過訓練找出最佳組合,然後把學習經驗匯總給智能體,也就是更新learner中的各項參數。不同的是,A3C的actor需要計算新的梯度,並把它返回給learner,但IMPALA的actor不用計算梯度,它返回的只是觀察結果。

也就是說,在訓練之初,actor用策略π更新初始策略μ,並在當前任務中進行幾輪迭代。迭代完成後,它再把當前的狀態、動作和獎勵 x1, a1, r1, . . . , xn, an, rn,以及相應的策略分布μ(atxt)、初始LSTM狀態排列成組,逐個輸入learner。利用這些由多個actor收集的數據,learner能不斷更新策略π。

A2C每次學習都需要暫停,而IMPALA是連續的

GPU優化:(a)一個正常的LSTM;(b)將batch用於輸入層和輸出層;(c)將batch融合進整個網路

這個簡單的架構使得learner可以在多個機器上並行計算(各actor不用排隊),大大提高了GPU的利用率。但是,在更新參數時,由於learner的策略π可能比actor的策略μ提前做了幾次SGD,因此兩者間存在策略滯後的問題。

V-trace

在這種分離的分散式actor-learner架構中,由於actor產生動作和learner估計策略梯度之間存在差異,所以使用off-policy學習演算法是十分重要的。為此,我們專為learner引入了一種新型演算法V-trace。

首先,我們定義:

我們把這個問題看作是馬爾可夫決策(MDP)中的discounted infinite-horizon RL問題,它的目標是找到一個策略π,能使未來獎勵的總和,即

最大化。而off-policy學習演算法的思路是根據動作策略μ來學習另一個策略,如策略π(μ和π可能不同)的價值函數Vπ,我們也把π稱為目標策略。

詳細的數學計算可以在論文中找到,這裡我們簡要介紹3點創新:

隨著時間s不斷推進,價值參數θ會隨vs的梯度值不斷更新:

同時,價值函數ω也會隨策略梯度的變化不斷更新:

為了防止函數過早收斂,我們模仿A3C,在裡面加入了一個和軌跡方向一致的熵:

智能體的參數就是通過總結這三個不斷更新獲得的係數進行調整的,簡而言之,這是系統計算超參數的方法。

小結

由於IMPALA經過多重優化,和其他類似智能體相比,它處理的數據量能比它們高出一到兩個數量級,這也為它在多種任務環境中的良好表現奠定了基礎。我們把IMPALA和當前幾種頗為流行的基於A3C的方法進行了比較,發現除了在速度上有明顯提升,IMPALA的數據吞吐量也呈現線性增長,這說明分散式架構和V-trace演算法為實現處理大規模強化學習問題提供了一種可能性。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

飛呀飛呀,飛的驕傲放縱
SpaceX獵鷹重型火箭的成功與中國航天的戰略定力

TAG:全球大搜羅 |