智能體只想看電視？谷歌新型好奇心方法讓智能體離開電視繼續探索

知識 10-25

選自Google AI Blog

作者：Nikolay Savinov、Timothy Lillicra

機器之心編輯

參與：路、張倩、王淑婷

近日，來自谷歌大腦、DeepMind 和蘇黎世聯邦理工學院的研究人員提出一種新型好奇心強化學習方法，利用情景記憶（episodic memory）形成對新穎性的獎勵。具體方法是基於當前觀測結果與記憶中的觀測結果的環境步距離來對比二者的差異，確定當前觀測結果是否新穎，進而確定是否提供額外獎勵，從而解決了大部分強化學習演算法的稀疏獎勵問題。

強化學習（RL）是機器學習領域最活躍的研究方向之一。在強化學習中，如果人工智慧體執行合適的行為，它將獲得正面獎勵，否則將獲得負面獎勵（懲罰）。這種獎懲制度非常簡單、通用，它幫助 DeepMind 教 DQN 演算法玩 Atari 遊戲，還被用於教 AlphaGoZero 學下圍棋的過程中。OpenAI 教 OpenAI-Five 演算法玩 Dota、谷歌教機械臂抓取新物品的原理也是如此。然而，儘管強化學習取得了很多成就，但要成為一項有效的技術還面臨著一系列挑戰。

在《Episodic Curiosity through Reachability》（谷歌大腦團隊、DeepMind 和 ETH Zürich 的研究人員共同發表）一文中，研究者提出了一種基於情景記憶（episodic memory）的新型 RL 獎懲模式，類似於好奇心，這種模式有助於探索環境。研究者希望智能體不僅可以探索環境，還能解決原始任務，所以他們在原始稀疏任務獎勵的基礎上增加了由新模型提供的額外獎勵。疊加獎勵不再稀疏，可以讓標準 RL 演算法從中學習。因此，這一新型好奇心方法拓寬了 RL 的適用範圍。

藉助可達性（Reachability）的情景好奇心：將觀測結果添加到記憶中，根據當前觀測結果與記憶中最相似的情景之間的差距來計算獎勵。當智能體當前看到的情景尚未出現在記憶中時，它會得到更多獎勵。

該新方法的核心理念是將智能體對環境的觀測結果存儲在情景記憶中，在智能體發現記憶中不存在的情景時對其進行獎勵。新方法將「不在記憶中」定義為「新」（novelty），尋找這種觀測結果意味著尋找不熟悉的事物。這將把人工智慧體帶到新的地點，避免其在環境中轉圈，並最終幫它找到目標。正如接下來將要討論的，谷歌的方法可以避免一些其他方法容易出現的不良行為。出人意料的是，這些行為存在一些共性，也就是外行所說的「延誤」（procrastination）。

之前的好奇心方法

過去有很多工作嘗試使用好奇心方法 [1][2][3][4]，本文著重介紹在近期論文《Curiosity-driven Exploration by Self-supervised Prediction》（通常被稱之為 ICM 方法）中發現的一種非常流行的自然方法：基於預測驚訝的好奇心。要說明驚訝如何引起好奇心，我們還要用到超市裡尋找乳酪的例子。

by Indira Pasko（圖源：https://www.behance.net/gallery/71741137/Illustration-for-an-article-in-aigoogleblogcom）

你在超市中漫步時會嘗試預測（「現在我在肉類區，拐過這個彎應該是魚類區，這家超市裡這兩類區域往往是挨著的）。如果你的預測錯誤，則你會感到驚訝（「天啊，竟然是蔬菜區。真是沒想到！）並因此得到獎勵。這會使你未來更有動力四處晃悠，探索新的區域，只為看看自己的期望與現實是否相符（希望能夠偶遇乳酪）。

類似地，ICM 方法對這個世界的動態構建了一個預測模型，並在模型預測錯誤時（標誌是驚訝或新穎性）給予智能體獎勵。注意：探索沒見過的區域不屬於 ICM 好奇心。對於 ICM 方法，訪問這些區域僅僅是獲取「驚訝」的方式，從而最大化整體獎勵。事實證明，在某些環境中會出現其他帶來驚訝的方式，導致未曾預料的結果。

具備基於驚訝的好奇心的智能體在遇到電視時就被絆住了。（圖源：https://www.youtube.com/watch?v=C3yKgCzvE_E&feature=youtu.be）

「延誤」的風險

在論文《Large-Scale Study of Curiosity-Driven Learning》中，ICM 方法的作者和 OpenAI 的研究人員一起展示了「驚訝」最大化的隱藏風險：智能體能夠學習放任類似延誤的行為，而不是為手邊的任務做些什麼。為了查看原因，考慮一下作者稱之為「noisy TV problem」的常見實驗，實驗中智能體被放入迷宮，任務是找到獎勵最高的物體（類似於前面超市例子中的「乳酪」。環境中還有一台電視，智能體可以用遙控器換台。電視上的頻道有限（每個頻道的節目不同），遙控器上的每個按鍵可轉換到隨機頻道。智能體在這樣的環境中會有什麼行為呢？

對於基於驚訝的好奇心（surprise-based curiosity），換頻道將帶來大的獎勵，因為每次換台的結果是不可預測、令人驚訝的。關鍵是，即使在所有頻道換過一遍之後，隨機頻道選擇也能確保之後的每次換台結果出人意料，智能體會對換台後的頻道做出預測，預測很可能是錯誤的，並帶來驚訝。重要的是，即使智能體已經看過每個頻道的節目，換台結果仍然是不可預測的。因此，灌輸了基於驚訝的好奇心的智能體將一直待在電視前面，而不是去尋找高獎勵的物體，這種行為類似於延誤。那麼，不會導致此類延誤行為的好奇心應該如何定義呢？

情景好奇心（Episodic Curiosity）

谷歌在論文《Episodic Curiosity through Reachability》中探索了基於情景記憶的好奇心模型，該模型較少「沉迷於」即時滿足。為什麼？還以上面的實驗為例，所有頻道都換過後，所有的電視節目都將存儲在記憶里。因此，電視對智能體而言不再具備吸引力：即使電視節目出現順序是隨機且不可預測的，但所有節目都存在記憶里了！這是它與基於驚訝的好奇心的主要區別：谷歌的方法甚至不去嘗試預測難以（甚至不可能）預測的未來。而是檢查過去的記憶，了解它是否見過與當前場景類似的觀測結果。因此谷歌的智能體不會被開著的電視機帶來的即時滿足感吸引走太多的注意力。它會探索電視機以外的環境，以得到更多獎勵。

但是如何確定智能體看到的場景已經存在於記憶中呢？精確匹配是無意義的：在現實環境中，智能體很少兩次看到同樣的事物。例如，即使智能體返回同樣的房間，它仍然會以不同於已有記憶的角度來看待這個房間。

因此谷歌研究人員不檢查當前場景與記憶中的場景是否完全匹配，而是使用一個深度神經網路來衡量兩種體驗的相似度。為了訓練該網路，研究人員讓它猜測兩種觀測結果的體驗時間是否接近。時間接近（temporal proximity）是判斷兩種體驗是否屬於同樣經驗的有效手段。這種訓練導致了一種基於可及性（reachability）的新穎性（novelty）的通用概念，如下圖所示。

可及性圖將決定新穎度。事實上，這個圖是很難達到的，所以訓練神經網路逼近器來估計觀察之間的步數。

實驗結果

為了比較好奇心模型不同方法的性能，谷歌在兩個視覺豐富的 3D 環境 ViZDoom 和 DMLab 中測試了它們。在那些環境里，智能體有很多不同的任務，比如在迷宮中尋找目標或者收集好的並避免壞的東西。DMLab 給智能體提供的是類似激光的科幻小工具。在之前的研究中，DMLab 的標準設置是在所有任務中為智能體裝備這個工具，如果在某個特定任務中智能體不需要這個工具，它也可以不用。有趣的是，與之前描述的嘈雜 TV 實驗類似，基於好奇心模型的 ICM 方法實際上在大多數任務中都使用了這個工具，即使它對手頭的任務沒有幫助！當任務是在迷宮中尋找高回報物品時，智能體似乎更喜歡花時間標記牆壁，因為這樣會產生很多「好奇心」獎勵。理論上來說，預測標記結果是可能的，但實際上卻很難，因為這樣做需要更多的物理知識，而現有的標準智能體還達不到這個標準。

基於好奇心模型的 ICM 方法不斷標記牆壁，而不是探索迷宮。

相反，谷歌的方法在同樣的條件下學習合理的探索行為。因為它沒有預測自己的行為結果，而是去觀察，尋找那些已經在情景記憶中「難以」實現的觀察。換句話說，智能體暗中追求記憶中需要更多努力才能實現的目標，而不是單單做一個標記動作。

谷歌的方法展示了合理的探索

有趣的是，谷歌授予獎勵的方法懲罰了一個在轉圈跑的智能體。這是因為在完成第一圈後，智能體沒有進行新的觀察（除了記憶中的那些），因此沒有獲得獎勵。

獎勵可視化：紅色表示消極獎勵，綠色表示積極獎勵。從左到右依次是：標有獎勵的地圖，標有記憶中位置的地圖，第一人稱視角

同時，谷歌的方法支持良好的探索行為。

獎勵可視化：紅色表示負面獎勵，綠色表示正面獎勵。從左到右：標有獎勵的地圖，標有記憶中位置的地圖，第一人稱視角

谷歌希望本項研究能夠幫助引出一波新的探索方法——不只是驚訝，還能學習更多的智能探索行為。若要深入分析谷歌的方法，請查看研究論文。

論文：Episodic Curiosity through Reachability

論文鏈接：https://arxiv.org/abs/1810.02274。

摘要：現實世界中的獎勵是稀疏的，目前大部分強化學習演算法受制於這種稀疏性。一種解決方案是允許智能體自己創建獎勵，從而使得獎勵更加密集、更適合學習。具體來說，受動物好奇行為的啟發，即觀察一些新穎的事物會得到獎勵。這種獎勵可以和真實任務的獎勵疊加到一起，使強化學習演算法從這一疊加獎勵中學習。我們提出了一種新型好奇心方法，利用情景記憶（episodic memory）形成對新穎性的獎勵。為了確定是否符合這一獎勵，需要把當前觀測結果與記憶中的觀測結果進行對比。關鍵是，該對比基於二者之間的環境步距離，其包括環境動態的豐富信息。這幫助我們克服了之前研究中的「沙發土豆」（couch-potato）問題——智能體利用帶來不可預測結果的動作尋求即時滿足。我們在 VizDoom 和 DMLab 中的視覺 3D 環境中對新方法進行了測試。在 VizDoom 中，我們的智能體學會成功導航至遠距離目標，且速度是當前最優的好奇心方法 ICM 的兩倍。在 DMLab 中，我們的智能體可很好地泛化至遊戲的新級別——到達目標。

參考文獻：

[1] Count-Based Exploration with Neural Density Models, Georg Ostrovski, Marc G. Bellemare, Aaron van den Oord, Remi Munos

[2] #Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning, Haoran Tang, Rein Houthooft, Davis Foote, Adam Stooke, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel

[3] Unsupervised Learning of Goal Spaces for Intrinsically Motivated Goal Exploration, Alexandre Péré, Sébastien Forestier, Olivier Sigaud, Pierre-Yves Oudeyer

[4] VIME: Variational Information Maximizing Exploration, Rein Houthooft, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※深度 | 傳說中的推土機距離基礎，最優傳輸理論了解一下
※NIPS 2018｜Spotlight論文：憑藉幻想的目標進行視覺強化學習

TAG:機器之心 |