我在谷歌大腦工作的 18 個月中，是怎樣研究強化學習的？

新聞 04-08

雷鋒網 AI 科技評論按：在強化學習領域，谷歌大腦的研究內容一直是業界重點關注的對象。Marc G. Bellemare 是谷歌大腦的研究員，研究方向為分散式強化學習、表徵學習等。他將自己在谷歌大腦 18 個月中研究經歷和心得寫成了文章並進行發表。雷鋒網 AI 科技評論全文編譯如下。雷鋒網

時間回溯到 2017 年夏天，在歐洲一段時間的告別旅行中，我被當時在蒙特利爾新成立的谷歌大腦團隊錄用（當時我進行遠程辦公）。我在家裡的辦公室可以看到倫敦北部貝爾塞斯公園（Belsize Park）的絕美景色，而且還曾招待了谷歌蒙特利爾的整個強化學習團隊，這是真的。

從那以後，我搬到了另一個大陸，在 AI 實習生、學生研究者和全職谷歌員工三重角色中轉換。現在，谷歌團隊的規模有了相當大的擴展（而且還在繼續擴展：Marlos C. Machado也加入了我們）。事後看來，2018 年是相當多產的一年。這篇博客回顧了這段時間我們的科研產出，以一個全景視角介紹了蒙特利爾谷歌大腦團隊在強化學習方面研究進展以及我們所參與過的非常棒的合作，從而讓我們對不遠的未來有了一個認識。

分散式強化學習

「它很好。但它如何實現呢?」

在強化學習中，分散式的方法認為我們應該預測隨機收益的分布，而不是預測它們的期望值 (Bellemare, Dabney, Munos, ICML 2017)。然而，大多數分散式智能體仍然通過將行動值（action value）分布提取還原為它們各自的期望值，然後選擇期望值最高的操作來運行。預測，然後提取。那麼，為什麼它在實踐中表現得如此出色呢?

為了回答這個問題，我們開發了一種正式語言來分析分散式強化學習方法，尤其是基於樣本的方法（Rowland 等，AISTATS 2018）。通過這一形式，我們發現原來的分散式演算法（稱為 C51）隱式地最小化了概率分布之間的距離（Cramér 距離）。但是我們的一些結果表明，分散式演算法應該最小化分布之間的 Wasserstein 距離，而不是 Cramér 距離。我們（我指的是 Will Dabney）用一種叫做分位數回歸（quantile regression,）的技術重新修正了大部分的 C51，在一定程度上最小化了 Wasserstein 距離。由此產生的智能體（這個稱為 QR-DQN）在 Atari 2600 基準上表現出強大的性能（Dabney et al.，AAAI 2018）。另一個令人興奮的結果是， Mark Rowland 最近發現了分散式強化學習中統計量和樣本之間的一個有趣的失配，這就解釋了為什麼這些演算法有效，而其他演算法註定會失敗（Rowland et al.，2019）。

根據 Mark 對 C51 的分析，我們從基本原理推導出了一個分散式演算法——在本例中，使用的是更容易處理的 Cramér 距離。我們的目標是開發出一項能顯式地對分配損失執行梯度下降（C51 和 QR-DQN 都沒有這樣做）的分配演算法，而最終開發出來的是一項我們命名為 S51 的演算法（Bellemare 等人，AISTATS 2019）；「S」代表「有符號的」，因為演算法可能會輸出有效的負概率。由於其相對簡單，我們能夠證明，當與線性函數近似（linear function approximation）結合時，S51 能夠保證收斂性。在此過程中，我們還收集了一些證據，證明在一些病態的例子中，預測+提取的方法比直接預測期望值的表現更糟糕。這是一位評論者所提到的「更容易出現模型錯誤識別」所導致的自然而然的結果。

此後，我們也證明了將預測+提取的方法結合到表格表徵中實際上是無效的，同時證實了如果將該方法結合到線性表示中，其性能可能比預期的強化學習更差（Lyle, Castro, Bellemare, AAAI 2019）。這使我們排除了不依賴於表徵選擇的常見解釋，如「分散式強化學習減少方差」或「平均分散式預測導致更準確的值估計」。這些解釋某種程度上錯誤地引用了 Holmes 先生的話，一旦你排除了不可能，剩下的一定是真相：分散式強化學習一旦與深層網路結合，似乎就會變得有用。

為了收集這方面的進一步證據，我們在 Cartpole 域中訓練了智能體，要麼使用固定的低維表示（一階傅里葉基），要麼使用類似的深度網路。結果（總結如下面的圖表所示）相當有說服力：在固定表徵的情況下，分散式方法的性能比基於預期的方法差；但使用深度表徵後，它們就表現得更好了。這篇論文還表明，基於 Cramér 的方法應該輸出累積分布函數（cumulative distribution function），而不是概率質量函數（probability mass function，PMFs）。

我在谷歌大腦工作的 18 個月中，是怎樣研究強化學習的？

一名深度學習實踐者會很自然地得出這樣的結論：分散式強化學習是有用的，因為「它有助於更好地學習表徵」。但這在形式上意味著什麼呢？如何證明或反駁這種說法呢？這些問題促使我們研究了一個非常熱門的話題：將表徵學習應用於強化學習。

表徵學習

去年夏天，Will Dabney 和我為強化學習中的表徵學習設計了一個我們稱之為「蘋果派」（apple pie）的實驗：用一個簡單的設置去研究學習好的表徵意味著什麼。這個實驗包括 1）一個綜合環境（四室域）；2）訓練一個非常大的深度網路； 3）做出各種預測。我們將表徵定義為從狀態到 d 維特徵向量的映射，之後又將這些特徵向量線性映射到預測。在所有的實驗中，d 都小於狀態數。這個設置允許我們回答這樣的問題：「當我們訓練網路預測 X 時，得到的表徵是什麼？」，其中 X 可能是值函數、值分布或一些輔助任務。

我在谷歌大腦工作的 18 個月中，是怎樣研究強化學習的？

通過對這個小問題的不斷探索，我們意識到可以為表徵制定一個最優準則。該準則指出，最優表徵應該最小化所有「可實現」值函數的近似誤差。這裡我用「可實現」表示「由某些策略生成」（Bellemare et al.，2019）。事實上，我們只需要考慮此類值函數的一個非常特殊的子集，即對偶值函數（adversarial value functions，AVFs），以反映最優性準則的極小值特徵。因為這些參數基本上是幾何化的，得出的這些結果也很有趣。在整個過程中，我們發現值函數的空間本身是高度結構化的：雖然還存在著一些不直觀的特徵，但它整體來看是一個多面體（Dadashi et al .，2019）。

我在谷歌大腦工作的 18 個月中，是怎樣研究強化學習的？

我們使用「用於表徵的 FMRI 」（見上）來可視化該方法的效果（上圖；Marlos C. Machado 提供代碼）。這裡，每個單元格將特徵的歸一化激活描述為輸入狀態的函數。圖中對比了網路被訓練用來預測單個值函數或多個 AVFs 時的情況。在僅使用值表徵的時候，得出的結果有點不令人滿意：單個特徵要麼在狀態之間不活躍，要麼是預測值函數的副本；此外，在激活模式中還存在雜訊。相比之下，AVFs 方法產生的結構很漂亮。

我們可以使用相同的工具來確認分散式強化學習確實學習了更豐富的表徵。下圖是使用 C51（左）或使用 QR-DQN（右）預測隨機策略值分布時學到的特性的可視化情況。分位數回歸得到的特徵提供了一系列的響應，從目標附近的高度峰值（左下角第二行）到相對分散（右上角）。這兩組特性都比剛剛前面提到強化學習在學習值函數時更加結構化（前面的圖左）。

我在谷歌大腦工作的 18 個月中，是怎樣研究強化學習的？

作為這些結果的補充，我們可視化了 Atari 2600 遊戲智能體中隱藏單位的激活。這些構成了與 Pablo Samuel Castro、Felipe Such、Joel Lehman 以及其他許多人在「Atari Zoo」項目中非常出色的合作的一部分（如 et al.，Deep RL Workshop at NeurIPS, 2018）。為了強調其中一個結果，分散式演算法（該演算法是Hessel等人對 C51 的擴展，叫做 Rainbow）學習到的卷積特性通常比非分散式 DQN 學習到的卷積特性更詳細、更複雜，如下面的 Seaquest 遊戲示例所示：

我在谷歌大腦工作的 18 個月中，是怎樣研究強化學習的？

同樣重要的是，我們發現預測多個折扣率的值函數也是在 Atari 2600 遊戲中製作輔助任務的一種簡單而有效的方法（Fedus et al.，2019）。

毫無疑問，不同的強化學習方法會產生不同的表徵形式，並且在深度學習和強化學習之間會發生複雜的交互作用。如果幸運的話，在接下來的一年，我們也會找出這些表徵與智能體的經驗表現之間的關係。

軟體

如果你曾參加我去年的一次演講，你可能會看到我的演講內容如下:

我在谷歌大腦工作的 18 個月中，是怎樣研究強化學習的？

根據發行日期，時間軸按時間順序對 Arcade Learning Environment 提供的 60 款遊戲進行排列。每個標題標出了（主觀）估計的性能最好的學習智能體：超人的（黑色格），近似人類的（紅白格），最後也為遊戲中的 AI 不為完成遊戲，而純粹以得分為目的遊戲打出了分值（灰色格）。時間軸顯示，前面標上「超人的」標籤的遊戲，比重要高於後面的遊戲。我認為，這證明了早期遊戲要比後期遊戲更容易，部分原因在於電子遊戲體驗的轉變：從反應性遊戲（Pong）轉變為認知性遊戲（Pitfall!）

注意，時間表是從 2017 年年中開始的，現在有點過時了，經過調整，我們也考慮到了其他的遊戲，例如 Montezuma"s Revenge 通過運用模仿學習（Hester et al.，2017；Aytar et al., 2018）和非參數方案（Ecofett et al.，2019）在性能上實現了巨大進步，不過即使是這樣，我們或許還是遺漏了很少一部分有代表性的遊戲。鑒於 ALE 在推動深度強化學習研究復興方面發揮了重要的作用，因此在強化學習領域應該積極尋找「下一個 Atari」。

但這張圖表也幫我說明了另一點：ALE 現在是一個成熟的基準，應該區分對待它和新出現的挑戰。用 Miles Brundage的話來說就是：Atari 遊戲，「如果你在意樣本效率，那麼它可以作為強化學習基準」。深度強化學習本身也在不斷成熟：想要更好地了解當前的技術，請參閱Vincent Fran?ois-Lavet"s review (2019)。在取得令人興奮的早期成功後，深度強化學習可能準備回歸基礎。

這種成熟的結果之一是對 ALE 論文進行二次更新，這項工作由我當時的學生 Marlos C. Machado 主導，新的成果與新的代碼一同發布。該代碼的發布解鎖了額外的難度級別（flavours），這證明新成果是對遷移學習研究非常有用的（Machado et al.，2018）。在這篇論文中有太多的好東西要列出，但是首先要討論的是如何評估學習 Atari-playing 演算法的重複性和公平性。在 Go-Explore 博客發布的 Twitter-eddies 中可以看到一個關於社區如何接受這一點的很好的例子：經過討論之後，作者們重新使用我們推薦的「粘性行為」評估方案來評估他們的方法。(如果你感興趣，這是 Jeff Clune 的一條推特)。

去年 8 月，我們還發布了開源強化學習框架，Dopamine（白皮書：Castro et al.，2018）。我們想從簡單的 Dopamine 入手，堅持開發對強化學習研究有用的一小部分核心功能。因此，框架的第一個版本由大約 12 個 Python 文件組成，並為 ALE 提供了一個單 GPU、最先進的 Rainbow 智能體。Dopamine 2.0（2 月 6 日 Pablo Samuel Castro 的博客文章）擴展了第一個版本，更廣泛地支持離散操作域。我們最近幾乎所有的強化學習研究都使用 Dopamine。

最後同樣值得一提的是，我們最近還與 DeepMind 合作發布了一個基於熱門紙牌遊戲 Hanabi（Bard et al.，2019）的人工智慧方法新研究平台。Hanabi 是獨一無二的，因為它結合了合作（而不是競爭！）和部分可觀察性。代碼中包含一個基於 Dopamine 的智能體，因此你可以隨時將代碼用起來。我已經在另一篇博文中對此進行了更多的討論，但最後我想說，這是這段時間以來我研究的最有趣的問題之一。順便說一下：分散式強化學習和非分散式強化學習之間似乎存在很大的性能差距，如下面的學習曲線所示。這是一個小小的謎團。

我在谷歌大腦工作的 18 個月中，是怎樣研究強化學習的？

結語

這篇文章沒有討論如何探索強化學習，儘管這個話題對我來說仍然很重要。值得注意的是，通過 Adrien Ali Taiga，我們在理解偽計數如何幫助我們探索方面取得了一些進展（Ali Taiga, Courville, Bellemare, 2018）。很高興看到強化學習的越來越多的研究者們迎接挑戰，致力於解決 Montezuma』s Revenge 等艱難的探索問題。儘管 epsilon-貪婪（epsilon-greedy）演算法和熵正則化（entropy regularization）在實踐中仍然佔據主導地位，但我認為我們離顯著提高演算法樣本效率的集成解決方案，也不遠了。

儘管蒙特利爾市中心的風景可能與倫敦北部不盡相同，但我在谷歌大腦這段時間的研究經歷絕對令人興奮。蒙特利爾和加拿大是多位世界上最優秀的深度強化學習研究人員的家鄉，能與這麼多本地和谷歌大腦團隊的人才交流，我感到很不勝榮光。

via：marcgbellemare

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※史上最全 OpenCV 活體檢測教程！

TAG:雷鋒網 |