DeepMind發布通用強化學習新範式，自主機器人可學會任何任務

新聞 03-02

新智元報道

來源：DeepMind

編譯：Marvin

【新智元導讀】DeepMind今天發表博客文章，提出一種稱為SAC-X（計劃輔助控制）的新學習範式，旨在解決讓AI以最少的先驗知識，從頭開始學習複雜控制問題的挑戰。這在真實環境中成功讓機械臂從頭開始學習拾放物體。研究者認為，SAC-X是一種通用的強化學習方法，未來可以應用於機器人以外的更廣泛領域。

讓孩子（甚至成年人）在使用物品之後自己收拾可能是頗有挑戰性的事情，但我們面臨一個更大的挑戰：試圖讓我們的AI也這樣做。成功與否取決於AI是否掌握幾個核心的視覺運動技能：接近一個物體，抓住並舉起它，然後打開一個盒子並把物體放進裡面。使事情更複雜的是，這些技能還必須用正確的順序做。

控制任務（control tasks），例如整理桌子或堆放物體，要求agent能夠確定如何、何時以及在哪裡協調它的模擬手臂和手指的9個關節，以正確地移動物體，實現它的目標。在任何給定一段時間裡，可能的運動組合數量會非常龐大，並且需要執行一系列正確的操作，這就構成了一個嚴峻的探索性問題——使得這成為強化學習研究的一個特別有趣的領域。

獎賞塑形（reward shaping）、學徒學習（apprenticeship learning）以及示範學習等技巧可以幫助解決這個問題。但是，這些方法依賴於大量的關於任務的知識——以最少的先驗知識，從頭開始學習複雜控制問題，仍然是一個公開的挑戰。

DeepMind近日發表的新論文「Learning by Playing - Solving Sparse Reward Tasks from Scratch」提出一種新的學習範式，稱為「Scheduled Auxiliary Control (SAC-X)」（計劃輔助控制），旨在解決這個問題。SAC-X的想法是要從頭開始學習複雜的任務，那麼agent必須先學習探索和掌握一套基本的技能。就像嬰兒在學會爬行和走路之前必須先發展協調和平衡的能力一樣，向agent提供一些與簡單的技能相對應的內部（輔助）目標可以增加它理解和成功執行更複雜任務的機會。

我們在幾個模擬的和真實的機器人任務中演示了SAC-X的方法，包含各種任務，例如不同類物體的堆疊問題，場地整理問題（需要將物體放入盒子）。我們定義的輔助任務遵循一個總原則：它們鼓勵agent去探索它的感知空間（ sensor space）。例如，激活它的手指上的觸摸感測器，感知其手腕受到的力，使其本體感受感測器（ proprioceptive sensors）中的關節角度達到最大，或強制物體在其視覺相機感測器中移動。如果達到了目標，每個任務會關聯到一個簡單的獎勵，否則獎勵為零。

圖2：agent學習的第一件事是激活手指上的觸摸感測器，並移動兩個物體。

圖3：模擬agent最終掌握了「堆疊」物體這個複雜任務。

然後，agent就可以自行決定它當前的「意圖」（intention），即接下來的目標。目標可以是輔助任務或外部定義的目標任務。更重要的是，agent可以通過充分利用off-policy learning來檢測並從其他任務的獎勵信號學習。例如，在拾取或移動一個物體時，agent可能會順便把它堆疊起來，從而得到「堆疊」的獎勵。由於一系列簡單的任務可以導致觀察到罕見的外部獎勵，所以將「意圖」進行安排（schedule）的能力是至關重要的。這可以根據所收集到的所有相關知識創建一個個性化的學習課程。

事實證明，這是在如此大的一個領域中充分利用知識的一種有效方法，而且在只有很少的外部獎勵信號的情況下尤其有用。我們的agent通過一個 scheduling 模塊來決定遵循那個意圖。在訓練過程中，scheduler通過一個meta-learning演算法進行優化，該演算法試圖使主任務的進度最大化，從而顯著提高數據效率。

圖4：在探索了許多內部輔助任務之後，agent學習如何堆疊和整理物體。

我們的評估顯示，SAC-X能夠解決我們從頭設置的所有任務——使用相同的底層輔助任務集。更令人興奮的是，我們在實驗室的一個真實的機械臂上直接利用SAC-X，成功地從頭開始學會了拾取和放置任務。過去，這一點特別具有挑戰性，因為真實世界中機器人的學習需要數據效率，所以主流的方法是在模擬環境中預訓練（pre-train）一個agent，然後將agent轉移到真實的機械臂。

圖5：在真正的機械臂上，SAC-X學習如何從頭開始拾取和移動綠色方塊。它此前從未見過這一任務。

我們認為SAC-X是從頭開始學習控制任務的重要一步，只需指定一個總體目標。SAC-X允許你任意定義輔助任務：可以基於一般性認識（例如在個實驗中是故意激活感測器），但最終可以包含研究人員認為重要的任何任務。從這個角度看，SAC-X是一種通用的強化學習方法，不止是控制和機器人領域，可以廣泛應用於一般的稀疏強化學習環境。

這一工作由以下研究者共同完成：Martin Riedmiller, Roland Hafner, Thomas Lampe, Michael Neunert, Jonas Degrave, Tom Van de Wiele, Volodymyr Mnih, Nicolas Heess and Tobias Springenberg.

論文地址：https://arxiv.org/pdf/1802.10567.pdf

【2018 新智元 AI 技術峰會倒計時28天】大會早鳥票已經售罄，現正式進入全額票階段。

2017 年，作為人工智慧領域最具影響力的產業服務平台——新智元成功舉辦了「新智元開源 · 生態技術峰會」和「2017AIWORLD 世界人工智慧大會」。憑藉超高活動人氣及行業影響力，獲得2017 年度活動行「年度最具影響力主辦方」獎項。

其中「2017AIWORLD 世界人工智慧大會」創人工智慧領域活動先河，參會人次超 5000；開場視頻在騰訊視頻點播量超 100 萬；新華網圖文直播超 1200 萬；

2018 年的 3 月 29 日，新智元再匯 AI 之力，共築產業躍遷之路，將在北京舉辦 2018 年中國 AI 開年盛典——2018 新智元 AI 技術峰會。本次峰會以「產業 · 躍遷」為主題，特邀諾貝爾獎評委德國人工智慧研究中心創始人兼 CEO Wolfgang Wahlster 親臨現場與谷歌、微軟、亞馬遜、BAT、科大訊飛、京東和華為等企業重量級嘉賓，共同研討技術變革，助力領域融合發展。

新智元誠摯邀請關心人工智慧行業發展的各界人士 3 月 29 日親臨峰會現場，共同參與這一跨領域的思維碰撞。

關於大會，請關注新智元微信公眾號或訪問活動行頁面：http://www.huodongxing.com/event/8426451122400

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※【愛可可獨家秘籍】僅需四步，教你高效閱讀arXiv論文
※慎對「量子霸權」：5到50量子比特，量子計算基礎問題從未解決

TAG:新智元 |