當前位置:
首頁 > 科技 > 前沿 | 一個AI,所有任務超越人類:DeepMind提出「歸一化」多任務學習法

前沿 | 一個AI,所有任務超越人類:DeepMind提出「歸一化」多任務學習法


選自

DeepMind


作者:Matteo Hessel等


機器之心編譯


參與:劉曉坤

、張倩





多任務學習使得單個智能體可以學習解決許多不同的問題,是人工智慧研究中的長期目標。最近,該領域取得了許多重大進展,DQN 等智能體可以使用相同的演算法玩不同的遊戲,包括「Breakout」和「Pong」遊戲。這些演算法用於訓練單個專家智能體完成每項任務。隨著人工智慧研究深入到更多複雜的現實世界領域,構建單個通用智能體(與多專家智能體相反)來學習完成多個任務將變得至關重要。然而,截至目前,這一任務依然是一個重大挑戰。




難點之一在於,強化學習智能體用來判斷成功的獎勵等級往往有所不同,導致他們將注意力集中在獎勵更高的任務上。例如,在 Atari 遊戲乒乓球(Pong)中,智能體每一步接收的獎勵可能是-1、0 或+1,但玩吃豆人(Ms. Pac-Man)遊戲的智能體可以在單個步驟中獲得數百或數千分。即使個體獎勵的大小可以比較,但隨著智能體不斷進化,獎勵的頻率可能會隨著時間發生變化。這意味著智能體更傾向於得分高的任務,導致其在某些任務上的表現越來越好,但在其他任務中卻越來越差。



為了解決此類問題,DeepMind 開發了 PopArt,這一技術可以調整每個遊戲中分值的大小,使得智能體認為每個遊戲都有同等的學習價值,無論每個特定遊戲中可以得到的獎勵有多大。開發人員將 PopArt 歸一化應用到一個擁有當前最佳性能的強化學習智能體中,得到一個可以玩 57 種 Atari 電子遊戲的單個智能體,該智能體在所有遊戲中的表現超過人類中等水平。




從廣義上來說,深度學習依賴於神經網路權重更新,其輸出不斷逼近理想目標輸出。神經網路用於深度強化學習中時也是如此。PopArt 通過估計這些目標的平均值和分布來工作(例如遊戲中的分數)。在被用於更新網路權重前,PopArt 利用這些統計數據歸一化目標。利用歸一化的目標使得學習更加穩定,並且對規模和變化更加魯棒。為了得到準確的估計(如預期未來分數),網路的輸出可以通過反轉歸一化過程縮放到真實目標範圍。如果結果理想,數據的每次更新都將改變所有未歸一化的輸出,包括那些已經很好的輸出。開發人員通過反向更新網路來避免這類情況的發生,只要更新統計數據,這種做法就可以進行。這意味著我們既可以獲得大規模更新的好處,又能保持以前學習到的輸出不變。正是出於這些原因,該方法被命名為 PopArt:它在運行中既能精確地保持輸出,又能自適應地重新縮放目標。




PopArt 作為修剪獎勵的替代方案



傳統上,研究者通過在強化學習演算法中使用獎勵修剪來克服變化獎勵範圍的問題。這種修剪方法將大的獎勵和小的獎勵分別轉換為 1 和-1,粗略地歸一化期望獎勵。儘管這使得學習過程變得更加容易,它也改變了智能體的目標。例如,在吃豆人(Ms. Pac-Man)遊戲中,智能體的目標是收集小球,收集一顆獎勵 10 分,而吃掉幽靈則獎勵 200 到 1600 分,如果使用獎勵修剪,則在吃掉小球和吃掉幽靈之間將不會有明顯的區別,導致智能體最終只吃小球,不會再想辦法捕捉幽靈,如下所示:







當移除獎勵修剪方案,並使用 PopArt 的適應性歸一化來穩定學習過程時,它出現了非常不同的行為,智能體開始主動捕捉幽靈,並得到更高的分數,如下所示:






利用 PopArt 進行多任務深度強化學習




DeepMind 將 PopArt 應用到重要性加權 Actor-Learner 架構(IMPALA)上,這是 DeepMind 最流行的深度強化學習智能體之一。在實驗中,與沒有使用 PopArt 的基線智能體相比,PopArt 顯著提升了智能體的性能。在結合修剪獎勵和未修剪獎勵的條件下,PopArt 智能體在遊戲中的中位數分數超越了人類玩家的中位數分數。這遠遠高於結合修剪獎勵的基線智能體,而未結合修剪獎勵的基線智能體完全無法達到有意義的性能,因為它無法有效地處理遊戲中獎勵規模的大範圍變化。






57 個 Atari 遊戲上的中位數標準化性能。每一條線對應單個智能體使用同一個神經網路在所有遊戲中得到的中位數性能。實線代表使用了獎勵修剪的智能體。虛線代表未使用獎勵修剪的智能體。




這是首次使用單個智能體在這種多任務環境中實現超越人類的表現,表明 PopArt 可以為這樣的開放性研究問題提供線索,即如何在沒有手動修剪或縮放獎勵的情況下平衡不同的目標函數。PopArt 實現在學習的同時自動適應歸一化的能力在應用 AI 到更加複雜的多模態領域時可能是很重要的,其中智能體必須學會權衡多個不同的具備變化獎勵的目標函數。




論文:Multi-task Deep Reinforcement Learning with PopArt







論文鏈接:https://arxiv.org/abs/1809.04474




摘要:

強化學習社區在設計能夠在特定任務上超越人類表現的演算法方面取得了很大進展。這些演算法大多用於訓練單項任務,每項新任務都需要訓練一個全新的智能體。這意味著學習演算法是通用的,但每個解決方案並不通用;每個智能體只能解決它所訓練的一項任務。在這項工作中,我們研究了學習掌握多個而不是一個序列決策任務的問題。多任務學習中的一個普遍問題是,如何在競爭單個學習系統的有限資源的多個任務需求之間找到平衡。許多學習演算法可能會被一系列任務中的某些待解決任務分散注意力。這樣的任務對於學習過程似乎更為突出,例如由於任務內獎勵的密度或大小的原因。這導致演算法以犧牲通用性為代價關注那些更突出的任務。我們建議自動調整每個任務對智能體更新的貢獻,以便所有任務對學習動態產生類似的影響。這讓智能體在學習玩 57 種不同的 Atari 遊戲時表現出了當前最佳性能。令人興奮的是,我們的方法僅學會一個訓練有素的策略(只有一套權重),卻超過了人類的中等表現。據我們所知,這是單個智能體首次超越此多任務域的人類級別性能。同樣的方法還在 3D 強化學習平台 DeepMind Lab 的 30 項任務中實現了當前最佳性能。




原文鏈接:https://deepmind.com/blog/preserving-outputs-precisely-while-adaptively-rescaling-targets/






本文為機器之心編譯,

轉載請聯繫本公眾號獲得授權



?------------------------------------------------


加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com


投稿或尋求報道:

content

@jiqizhixin.com


廣告 & 商務合作:bd@jiqizhixin.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

10篇論文+5項第一,記曠視科技ECCV之旅
在工程領域中,機器學習的數學理論基礎尤為重要

TAG:機器之心 |