Train the Trainer：利用強化學習優化基於模型的強化學習演算法

最新 07-01

Train the Trainer：

利用強化學習優化基於模型的強化學習演算法

李元龍 I 文

董林森 I 技術審稿

深層強化學習(DRL)將強化學習(RL)和深層神經網路(DNN)相結合，在解決圍棋等複雜決策問題上表現出色[1]。最近的一系列突破也表明，DRL演算法如深度確定性策略梯度(DDPG)和信任區域策略優化(TRPO)，同樣可以很好地解決連續控制問題[2][3]。

DRL雖顯示了極強的能力，但其高昂的訓練成本也成為實踐中的一個嚴重問題。例如，在引用[4]一書中，作者表明，經過大約100萬次訓練，DRL訓練的一個簡化的足球運動員才能實現高效的射門得分。這麼大的時間/資源成本在實際的控制問題中是很難接受的。在[5]一書中作者指出強化學習最大的挑戰就是「大量的雜訊數據，對真實機器人的緩慢訓練和測試，模擬器與現實世界之間的實際差距」。

現有的解決這一問題的方法主要是基於模型的強化學習方法。基於模型的RL是指利用從現實系統中採集的數據來訓練系統動力學模型，進而用於生成訓練控制器(值/策略函數)的綜合數據來降低在物理系統中進行採樣的消耗。該類方法已應用於機器人手臂訓練[6]，和基於在線樹搜索的規劃[7][8][9]。

這類方法可降低訓練成本，因為在真實的物理環境中的訓練通常比在任何學習或預先構建的虛擬環境中的訓練要昂貴得多。雖然基於模型的RL提供了一種可行的方法來解決與DRL相關的採樣成本問題，但在當前的研究和開發工作中還沒有對以下關鍵問題進行充分的研究：

1)基於模型的方法的有效性取決於底層系統動力學模型的學習速度是否快於相應的價值/策略函數。因此，並非所有的網路模擬器都有幫助。

2)在現有的基於模型的RL方法中，採用了人工調整超參數的隨機抽樣策略，使得演算法在實際應用中存在一定的困難。例如，一些聲稱能降低訓練成本的演算法，往往在整個訓練過程中並未考慮到調整參數所需的成本。

為解決這些問題，開發一種實用的、基於模型的DRL演算法，我們提出了一種成本敏感的、智能DRL訓練框架[10]。該框架可在線學習最優控制參數和採樣策略。

不同於已有的將訓練器和目標控制器混合在一起的方法，我們提出的這一方法將基於模型的DRL訓練過程封裝為一個稱為訓練過程環境(TPE)的標準RL環境，並實現以一個RL代理作為智能訓練師來優化TPE系統。這個RL訓練師通過在線學習的方式來優化TPE中封裝的、基於模型的RL的訓練過程。整個系統的框架如圖一所示。

圖一框架整體架構

我們依靠訓練師控制三個行動來優化TPE內部的訓練過程。這些行動旨在影響如何在真實和虛擬環境中進行抽樣和訓練。

第一個動作幫助我們設置在現實和虛擬環境中進行採樣的初始點。例如，在虛擬環境中訓練師可選擇從真實環境中採集到的一個樣本開始新的採樣，以進一步利用搜索該狀態的附近空間；也可選擇從隨機狀態開始，以利於探索新的狀態空間。這一行動影響到局部和全局搜索之間的平衡。

第二個動作決定我們應該從虛擬環境中採集多少數據，而第三個動作決定用虛擬數據訓練的概率。這兩種行為會影響我們如何有效地利用虛擬數據。如果虛擬數據的效果不好，就減少虛擬數據的使用。如果效果好，就增加虛擬數據的使用。在一般的基於模型的RL方法中，這些操作通常是手動調整的；在我們的方法中，我們試圖利用訓練師在訓練中選擇正確的操作。

該框架在OpenAI Gym中的五個測試任務上進行了測試。測試的例子包括Pendulum (V0), Mountain Car (Continuous V0), Reacher (V1), Half Cheetah, 和 Swimmer (V1)。

與一般的基於模型的RL基準演算法相比，該演算法在四項任務上取得了顯著的表現。圖二中展示了我們的演算法和基準演算法在5個問題上測試結果的對比。測試數據來自於10次獨立訓練測試，圖片中展示了在訓練的不同階段我們的訓練得到的控制agent跟基準演算法得到的控制agent的平均reward（越大越好）。

圖二智能訓練師和基準演算法的對比結果。

在降低採樣的消耗上，我們也取得了顯著的成果，如表1所示。

表1 訓練達到目標時所節省的在真實環境中採樣的節省比例。無窮大表示基準演算法因為固定的參數設置二未能達到目標表現。

總之，該框架旨在降低基於模型的RL演算法的調整代價，使基於模型的RL演算法更適用於實際。我們的框架已經開源，感興趣的讀者可以訪問地址：

https://bitbucket.org/RLinRL/intelligenttrainerpublic/。

希望我們已經實現的框架可以擴展到解決基於模型的DRL演算法中的其他問題。

參考文獻

[1] V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, and M. Riedmiller, 「Playing atari with deep reinforcement learning,」 arXiv preprint arXiv:1312.5602, 2013.

[2] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, and D. Wierstra, 「Continuous control with deep reinforcement learning,」 arXiv preprint arXiv:1509.02971, 2015.

[3] J. Schulman, S. Levine, P. Abbeel, M. Jordan, and P. Moritz, 「Trust region policy optimization,」 in International Conference on Machine Learning, 2015, pp. 1889–1897.

[4] M. Hausknecht and P. Stone, 「Deep reinforcement learning in parameterized action space,」 in Proceedings of the International Conference on Learning Representations (ICLR), May 2016.

[5] M. Wiering and M. Van Otterlo, 「Reinforcement learning,」 Adaptation, learning, and optimiza- tion, vol. 12, 2012.

[6] M. P. Deisenroth, C. E. Rasmussen, and D. Fox, 「Learning to control a low-cost manipulator using data-efficient reinforcement learning,」 2011.

[7] X. Guo, S. Singh, H. Lee, R. L. Lewis, and X. Wang, 「Deep learning for real-time atari game play using offline monte-carlo tree search planning,」 in Advances in neural information processing systems, 2014, pp. 3338–3346.

[8] T. Weber, S. Racanière, D. P. Reichert, L. Buesing, A. Guez, D. J. Rezende, A. P. Badia, O. Vinyals, N. Heess, Y. Li et al., 「Imagination-augmented agents for deep reinforcement learning,」 arXiv preprint arXiv:1707.06203, 2017.

[9] R. Pascanu, Y. Li, O. Vinyals, N. Heess, L. Buesing, S. Racanière, D. Reichert, T. Weber, D. Wierstra, and P. Battaglia, 「Learning model-based planning from scratch,」 arXiv preprint arXiv:1707.06170, 2017.

[10] Yuanlong Li, Linsen Dong, Yonggang Wen and Kyle Guan, 「Intelligent Trainer for Model-Based Reinforcement Learning,」 arXiv preprint arXiv:1805.09496, 2018.

本文版權歸作者所有。

新加坡南洋理工CAP組

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 南洋理工CAP組 的精彩文章:

TAG:南洋理工CAP組 |