斯坦福聯合DeepMind提出將強化學習和模仿學習相結合

科技 03-01

原文來源：arXiv

作者：Yuke Zhu、Ziyu Wang、Josh Merel、Andrei Rusu、Tom Erez、Serkan Cabi、Saran Tunyasuvunakool、Janos Kram ′ ar、Raia Hadsell、Nando de Freitas、Nicolas Heess

「雷克世界」編譯：嗯~阿童木呀

我們提出了一種無模型的深度強化學習方法，利用少量演示數據以輔助一個強化學習智能體。我們將這種方法應用於機器人操控任務中，並對能夠直接從RGB攝像機輸入映射到關節速度的端到端視覺運動策略進行訓練。我們的實驗結果證明，我們的方法可以解決各種各樣的視覺運動任務，對於這些視覺運動來說設計一個腳本控制器會很費力。我們的實驗結果表明，我們的強化和模仿智能體的性能表現要遠遠比單獨使用強化學習或模仿學習進行訓練的智能體好得多。我們還舉例說明，這些以大量視覺和動態變化進行訓練的策略可以在零次學習模擬—真實（sim2real）的遷移方面取得初步成功。有關此研究的簡短視覺描述可以點擊鏈接查看。

模型的概述。我們模型的核心是深度視覺運動策略，它將攝像機觀察和本體感受特性作為輸入，併產生下一個關節速度

在本文中，我們提出了一種無模型深度強化學習方法，可以直接從像素輸入中解決各種機器人操控任務。我們的主要見解是：

（1）通過利用少量的人為演示來減少連續空間探索的難度。

（2）利用若干新技術，在訓練期間利用特權和特定任務的信息，以加速和穩定多階段任務中的視覺運動策略的學習。

（3）通過增加訓練條件的多樣性改進泛化能力。因此，這些策略在系統動力學、目標外觀、任務長度等具有顯著變化的情況下，運行良好。此外，我們展示了兩個任務上非常有發展前景的初步結果，其中，在模擬中進行訓練的策略能夠實現零次學習遷移到一個真實機器人中。

我們對六種操作任務的方法進行了評估，包括提升、堆疊、澆注等。這組任務包括多階段和長時間任務，並且它們需要直接從像素中進行完整的9-DoF關節速度控制。控制器需要能夠處理顯著的形狀和外觀變化。

在我們的實驗中對六個操作任務的可視化

為了應對這些挑戰，我們的方法將模仿學習與強化學習融合到一個統一的訓練框架中。我們的方法以兩種方式對演示數據加以利用：首先，它使用一種混合獎勵，將任務獎勵與基於生成式對抗模仿學習的模仿獎勵相結合。這有助於探索，同時仍然使得最終的控制器能夠在任務上優於人類演示者。其次，它使用演示軌跡來構建一個狀態課程（a curriculum of states），以便在訓練期間對事件進行初始化。這使得智能體能夠在早期的訓練階段了解任務的後期階段，從而有助於解決長期任務。因此，我們的方法解決了所有六項任務，而對於這些任務而言，單獨使用強化學習和模擬學習基線都不能得以解決。

為了避開實際硬體訓練中所存在的局限性，我們採用了最近顯示出非常有發展前景的sim2real模式。通過使用物理引擎和高吞吐量的強化學習演算法，我們可以模擬機器人手臂的並行副本，以在一個富含接觸點的環境中執行數百萬次複雜的物理交互，同時消除機器人的安全性和系統重置的實際問題。此外，在訓練期間，我們可以使用一些新技術以利用關於真實系統狀態的特權和特定任的務信息，包括學習單一模式中策略和值、以目標為中心的GAIL鑒別器，以及視覺模塊中的輔助任務。這些技術可以穩定和加速策略學習，而不會在測試時對系統施加任何約束。

最後，我們將諸如視覺外觀、目標幾何形狀和系統動力學等訓練條件進行多樣化。這改善了不同任務條件下的泛化能力以及從模擬到現實的遷移。我們使用相同的模型和相同的演算法，只對訓練設置進行小規模的特定於任務的修改，以學習六個不同機器人手臂操作任務的視覺控制器。如圖1所示，從收集人類演示到在模擬中進行學習，並通過sim2real策略遷移返回到實際世界中的部署，這實例化了一個視覺運動學習管道。

我們的研究結果已經證明，將強化和模仿學習結合起來能夠在相當大的程度上提高我們訓練系統的能力，這些系統能夠從像素上解決具有挑戰性的靈活操控任務。我們的方法實現了機器人技能學習的完整三個階段：首先，我們收集了少量演示數據以簡化勘探問題；其次，我們依靠物理模擬來進行大規模的分散式機器人訓練；第三，我們執行了實際的部署的sim2real遷移。在今後的研究工作中，我們將試圖提高學習方法的樣本效率，並利用現實際問題中的經驗彌補策略轉移的現實差距。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷克世界 的精彩文章:

※谷歌大腦提出MaskGAN，可更好地實現文本生成
※谷歌2017AI年度報告

TAG:雷克世界 |