谷歌提出元獎勵學習，兩大基準測試刷新最優結果

新聞 02-23

新智元報道

來源：Google Blog

編輯：元子

【新智元導讀】RL演算法由於獎勵不明確，智能體可能會收到「利用環境中的虛假模式」的正反饋，這就有可能導致獎勵黑客攻擊。谷歌提出了使用開發元獎勵學習（MeRL）來解決未指定獎勵的問題，通過優化輔助獎勵函數向智能體提供更精確的反饋。

強化學習（RL）為優化面向目標的行為,提供了統一且靈活的框架。

並且在解決諸如：玩視頻遊戲、連續控制和機器人學習等具有挑戰性的任務方面，取得了顯著成功。

RL演算法在這些應用領域的成功，往往取決於高質量和密集獎勵反饋的可用性。

然而，將RL演算法的適用性，擴展到具有稀疏和未指定獎勵的環境，是一個持續的挑戰。

需要學習智能體從有限的反饋中，概括例如如何學習正確行為的問題。

在這種問題設置中研究RL演算法性能的一種自然方法，是通過自然語言理解任務。

為智能體提供自然語言輸入，並且需要生成複雜的響應，以實現輸入過程中指定的目標，同時僅接收「成功-失敗」的反饋。

例如一個「盲」智能體，任務是通過遵循一系列自然語言命令（例如，「右，上，上，右」）到達迷宮中的目標位置。

給定輸入文本，智能體（綠色圓圈）需要解釋命令，並基於這種解釋採取動作以生成動作序列（a）。

如果智能體人達到目標（紅色星級），則獲得1的獎勵，否則返回0。

由於智能體無法訪問任何可視信息，因此智能體解決此任務，並概括為新指令的唯一方法，是正確解釋指令。

在這些任務中，RL智能體需要學習從稀疏（只有少數軌跡導致非零獎勵）和未指定（無目的和意外成功之間的區別）獎勵。

重要的是，由於獎勵不明確，智能體可能會收到「利用環境中的虛假模式」的正反饋，這就有可能導致獎勵黑客攻擊，在實際系統中部署時會導致意外和有害的行為。

在「學習從稀疏和未指定的獎勵中進行概括」中，使用開發元獎勵學習（MeRL）來解決未指定獎勵的問題，通過優化輔助獎勵函數向智能體提供更精確的反饋。

《Learning to Generalize from Sparse and Underspecified Rewards》論文地址：

https://arxiv.org/abs/1902.07198

MeRL與使用「新探索策略收集到成功軌跡」的記憶緩衝區相結合，從而通過稀疏獎勵學習。

這個方法的有效性在語義分析中得到證明，其目標是學習從自然語言到邏輯形式的映射（例如，將問題映射到SQL程序）。

本文研究了弱監督問題設置，其目標是從問答配對中自動發現邏輯程序，而不需要任何形式的程序監督。

例如下圖中找出「哪個國家贏得最多銀牌？」，智能體需要生成類似SQL的程序，以產生正確的答案（即「奈及利亞」）。

所提出的方法在WikiTableQuestions和WikiSQL基準測試中實現了最先進的結果，分別將先前的工作提升了1.2％和2.4％。

MeRL自動學習輔助獎勵函數，而無需使用任何專家演示（例如，ground-truth計劃），使其更廣泛適用並且與先前的獎勵學習方法不同。

高級概述：

元獎勵學習（MeRL）

MeRL在處理不明確獎勵方面發現，虛假軌跡和實現意外成功的程序，對智能體的泛化性能不利。

例如，智能體可能解決上述迷宮問題的特定實例。但是，如果它在訓練期間學會執行虛假動作，提供看不見的指令則可能導致其失敗。

為了緩解這個問題，MeRL優化了更精確的輔助獎勵函數，可以根據行動軌跡的特徵區分意外、或非意外的成功。

通過元學習最大化訓練的智能體在保持驗證集上的表現，來優化輔助獎勵。

從稀疏獎勵中學習

要從稀疏的獎勵中學習，有效的探索如何找到一組成功軌跡，至關重要。

論文通過利用Kullback-Leibler（KL）發散的兩個方向來解決這一挑戰，這是一種衡量兩種不容概率分布的方法。

在下面的示例中，使用KL散度來最小化固定雙峰（陰影紫色）和學習高斯（陰影綠色）分布之間的差異，這可以分別代表智能體的最優策略分布，和學習的策略的分布。

KL對象的一個學習方向，試圖覆蓋兩種模式的分布，而其他目標學習的分布，則在尋求特定模式（即，它更喜歡A模式而不是B模式）。

我們的方法利用模式覆蓋了KL關注多個峰值以收集多樣化的成功軌跡和模式的傾向，尋求KL在軌跡之間的隱含偏好，以學習強有力的策略。

結論

設計區分最佳和次優行為的獎勵函數對於將RL應用於實際應用程序至關重要。

這項研究在沒有任何人為監督的情況下向獎勵函數建模方向邁出了一小步。

在未來的工作中，我們希望從自動學習密集獎勵函數的角度解決RL中的信用分配問題。

致謝

這項研究是與Chen Liang和Dale Schuurmans合作完成的。我們感謝Chelsea Finn和Kelvin Guu對該論文的評論。

參考鏈接：

https://ai.googleblog.com/2019/02/learning-to-generalize-from-sparse-and.html

更多閱讀

【加入社群】

新智元AI技術產業社群招募中，歡迎對AI技術產業落地感興趣的同學，加小助手微信號：aiera2015_2入群;通過審核後我們將邀請進群，加入社群後務必修改群備註（姓名 - 公司 - 職位;專業群審核較嚴，敬請諒解）。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※LeCun：賦予機器「常識」，重新設計神經網路將是AI 研究重點

TAG:新智元 |