當前位置:
首頁 > 新聞 > DeepMind最新研究動向,幫助實現單智能體多任務強化學習

DeepMind最新研究動向,幫助實現單智能體多任務強化學習

深度強化學習(DeepRL)在很多任務中取得了成功,從機器人的連續控制問題到圍棋、Atari 等遊戲。不過這些領域中的進步還限制在單個任務,即在單個任務中對智能體進行調整和訓練。DeepMind 最近提出的 IMPALA 開始嘗試利用單智能體同時處理多個任務,其架構性能超越此前方法數倍,具有強大的可擴展性,同時也展示了積極的遷移性質。與新架構同時提出的還有任務集合 DMLab-30。

  • 項目 GitHub:https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30

DeepMind 近期的研究嘗試探索在多個任務上訓練單個智能體。

今天,DeepMind 發布了新的任務集合 DMLab-30,其包含公共動作空間的視覺統一環境中的多種挑戰性任務。想訓練在多個任務中表現良好的智能體,我們需要高吞吐量和高效利用每個數據點的演算法架構。因此,DeepMind 開發了一種可用於分散式訓練的具備高擴展性的新型智能體架構 IMPALA(Importances Weighted Actor-Learner Architectures),該架構使用一種新型離策略修正演算法 V-trace。

DMLab-30

DMLab-30 是使用 DeepMind 的開源強化學習環境 DeepMind Lab 設計出的新型任務集合。任意 DeepRL 研究者都可以使用這些環境在大量有趣的任務或多任務設置中測試系統。

DeepMind最新研究動向,幫助實現單智能體多任務強化學習

設計者使這些任務儘可能多樣化。它們具備不同的目標,從學習、記憶到導航等等。從視覺上來看它們也是不同的——從亮度、現代風格的紋理,從綠到淺棕色等等。它們包括不同的物理設置,從開放的多山地帶到直角迷宮,再到開放的圓形房間。

此外,一些環境包括「bots」,可以執行內部的目標導向動作。同樣重要的是,不同級別的任務目標和獎勵也不同,從遵循語言命令、使用鑰匙開門、采蘑菇,到繪畫、沿著一條複雜、不可逆的路徑行走。

但是,從動作和觀察空間來看,這些環境基本上是一樣的,允許單個智能體在該高度變化的任務集合的每一個環境中進行訓練。關於環境的更多細節,詳見:https://github.com/deepmind/lab。

IMPALA:Importance-Weighted Actor-Learner Architectures

為了解決智能體在 DMLab-30 中進行訓練的問題,DeepMind 開發了一種新型分散式智能體 IMPALA,它利用高效的 TensorFlow 分散式架構最大化數據吞吐量。

IMPALA 受流行的 A3C 架構的啟發,A3C 架構使用多個分散式 actor 來學習智能體的參數。在此類模型中,每個 actor 使用策略參數在環境中動作。actor 周期性地暫停探索,和中央參數伺服器共享它們計算出的梯度,用於梯度更新(見下圖)。

DeepMind最新研究動向,幫助實現單智能體多任務強化學習

IMPALA 的 actor 不用於計算梯度,而是用於收集經驗,然後傳輸至可計算梯度的中央學習器,生成一個具備完全獨立的 actor 和 learner 的模型。為了利用現代計算系統,IMPALA 可使用單個學習器或執行同步更新的多個學習器來實現。用這種方式分離學習和動作可以有效地提高整個系統的吞吐量,因為 actor 不再需要等待學習步(像 batched A2C 架構中那樣)。這使得我們可以在多個有趣的環境中訓練 IMPALA,無需經歷幀渲染時間的變動或耗時的任務重啟。

DeepMind最新研究動向,幫助實現單智能體多任務強化學習

與其他需要在每個學習步驟上暫停的架構不同,IMPALA 是持續學習的

但是,決策與學習的分離會導致 actor 中的策略落後於學習器。為了彌補這一差異,DeepMind 引入了一種原則性離策略優勢 actor critic 演算法——V-trace,它通過 actor 的離策略彌補了軌跡。關於 V-trace 的具體細節可參考論文《IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures》(見文末)。

DeepMind最新研究動向,幫助實現單智能體多任務強化學習

由於 IMPALA 的優化模型相對於類似智能體而言,可以處理一到兩個數量級的更多經驗,讓複雜環境中的學習變為可能。DeepMind 比較了 IMPALA 與幾種流行的 actor-critic 方法,發現新方法的速度有顯著提高。此外,使用 IMPALA 的吞吐量增長與 actor 和 learner 的增加呈線性關係,這意味著分散式智能體模型和 V-trace 演算法可以處理大規模實驗,上千台機器都沒有問題。

在 DMLab-30 的測試中,IMPALA 處理數據的效率是分散式 A3C 的 10 倍,最終得分是後者的 2 倍。另外,IMPALA 在多任務設置的訓練中,相比單任務訓練還展示了正向遷移的性質。

論文:IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

DeepMind最新研究動向,幫助實現單智能體多任務強化學習

論文鏈接:https://arxiv.org/abs/1802.01561

摘要:在本研究中,我們專註於使用單一強化學習智能體與單一參數集解決大型任務集合的問題。在這樣的條件下,最主要的挑戰是處理越來越大的數據量和不斷增加的訓練時間——這在單一任務學習中已經是一個挑戰。我們開發了一種新的分散式智能體 IMPALA(Importance-Weighted Actor Learner Architecture),它可以擴展到數千台機器上,每秒吞吐量高達 25 萬幀。我們通過結合決策和學習分離與新型離策略修正方法 V-trace,達到了很高的吞吐量,實現了穩定學習,這對於學習的穩定性至關重要。我們展示了 IMPALA 在 DMLab-30(DeepMind Lab 環境中一組 30 個任務的集合)和 Atari-57(Arcade Learning Environment 中所有可用的 Atari 遊戲)中進行多任務強化學習的有效性。我們的結果展示了 IMPALA 的性能優於之前的智能體,使用的數據更少,更重要的是新方法可以在多任務中展現出積極的遷移性質。

原文鏈接:https://deepmind.com/blog/impala-scalable-distributed-deeprl-dmlab-30/

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

Petuum研究提出形義感知型Grad-GAN:可基於遊戲生成真實城市場景

TAG:機器之心 |