DeepMind提出DQfD：可從真實世界演示中進行強化學習

新聞 04-14

機器之心編譯

參與：吳攀

深度強化學習（RL）在困難的控制問題上已經實現了一些眾人矚目的成功。但是，這些演算法通常需要海量的數據才能達到合理的表現水平。實際上，它們在學習過程中的表現非常糟糕。對於模擬器來說，這可能還能接受，但這嚴重地限制了深度強化學習在許多真實世界任務上的應用——在真實世界任務中，智能體（agent）必須要在真實環境中學習。在這篇論文中，我們研究了一種智能體可以從系統之前的控制中獲取數據的設置方法。我們提出了一種名叫「學習演示的深度 Q 學習（DQfD：Deep Q-learning from Demonstrations）」的演算法，該演算法可以利用這種數據來實現學習過程的大幅提速，即使只有相對較少的演示數據也可以。DQfD 的工作方式是將時間差分更新（temporal difference update）和演示者（demonstrator）的動作的大邊際分類（large-margin classification）結合起來。我們表明 DQfD 在 42 種 Atari 遊戲中的 40 種上都有比深度 Q 網路（DQN）更好的初始表現，而且其在這 42 種 Atari 遊戲中的 27 種上都得到了更優的平均獎勵。我們還表明即使給出的演示數據很差，DQfD 也能學得比 DQN 更快。

3 學習演示的深度 Q 學習（DQfD：Deep Q-learning from Demonstrations）

在許多真實世界的強化學習設置中，我們可以獲取其之前的控制者操作該系統的數據，但我們無法獲得一個該系統的準確模擬器。因此，在一個智能體被應用到真實系統之前，我們想要智能體能儘可能地從演示數據中學習。這個預訓練階段的目標是學習使用一個價值函數（value function）來模擬該演示者（demonstrator），該價值函數滿足貝爾曼方程（Bellman equation），因此當該智能體開始與其環境交互時，其就可以通過時間差分（TD：temporal difference）更新的方式被更新。在這個預訓練階段，該智能體會從演示數據中採樣 mini-batch，並通過應用三種損失來更新該網路，它們分別是：雙重 Q 學習損失（double Q-learning loss）、監督式大邊際分類損失（supervised large margin classification loss）和在網路的權重和偏置上的 L2 正則化損失（L2 regularization loss）。其中監督式損失被用於對該演示者的動作的分類，而 Q 學習損失能確保該網路滿足貝爾曼方程，且可被用作是 TD 學習的起點。

要讓這樣的預訓練有效，該監督式損失是至關重要的。因為演示數據必然僅覆蓋了一小部分狀態空間（state space），沒有涵蓋所有的可能動作，所以許多「狀態-動作」不會被包含進來，也沒有數據將它們落實到真實的值上。如果我們打算僅使用 Q 學習更新來訓練該網路以得到下一個狀態的最大值，那麼該網路就會向著這些未落實的變數的最高值更新，這樣該網路就會通過該 Q 函數來傳播這些值。加入一個大邊際分類損失能將這些從未見過的動作的值落實成合理的值，使得由價值函數引起的貪婪策略（greedy policy）可以模擬其演示者（Piot et al., 2014a）：

DeepMind提出DQfD：可從真實世界演示中進行強化學習

其中 aE 是該專家演示者在狀態 s 時所採取的動作，l(s, aE, a) 是一個邊際函數（當 a=aE 時，其值為 0；其它情況則為正值）。這個損失會迫使其它動作的值至少比演示者的值低一個邊界（margin）。如果該演算法僅使用這種監督式損失進行預訓練，那麼就沒有什麼可以約束這些連續狀態之間的值，而該 Q 網路就無不能滿足貝爾曼方程，但這又是使用 TD 學習來在線提升策略所需的。

我們也增加了應用於該網路的權重和偏置的 L2 正則化損失以幫助防止其過擬合於相對較小的演示數據集。

用於更新該網路的整體損失是這三種損失的結合：

DeepMind提出DQfD：可從真實世界演示中進行強化學習