DeepMind最新ICML論文:價值分布方法超越所有傳統強化學習
1新智元編譯
設想一位每天乘坐列車通勤的人。大多數早晨,她的列車都能準時發車,她能輕鬆有備地趕上早會。但她清楚一旦有一點點意外發生:機械故障,信號失靈,甚至僅僅是碰到雨天,都可能擾亂她的模式,造成她遲到或慌亂。
隨機性(randomness)是我們每天都可能遇到的,深深影響著我們對世界的體驗。強化學習(RL)應用程序中也是這樣。強化學習是通過試錯法學習的系統。通常,一個RL演算法從一個任務的多次嘗試中預測能獲得的平均獎勵,並使用這個預測來決定採取何種行動。但是,環境中的隨機擾動(random perturbation)可以通過改變系統收到的確切的獎勵來改變它的行為。
DeepMind在他們的ICML 2017論文《強化學習的一個分布視角》(A Distributional Perspective on Reinforcement Learning)中,提出不僅可以對獎勵的平均值進行建模,還可以對獎勵的所有變化進行建模,即價值分布(value distribution)。相比以前的模型,這種方法能讓RL系統更準確,訓練更快,更重要的是,它可能啟發我們重新思考強化學習。
回到通勤的例子,假設這個旅程是3段5分鐘的路程,其中每周會有一次列車發生故障,時間需要再增加15分鐘。平均通勤時間可以計算為:(3×5)+ 15/5 = 18分鐘。
在強化學習中,我們使用貝爾曼方程來預測平均通勤時間。具體來說,貝爾曼方程將當前的平均預測與即將要做的平均預測聯繫起來。從第一站開始,我們預測平均旅程是18分鐘(總的平均時間);從第二站開始,我們預測平均旅程是13分鐘(減去第一段距離的平均時間);最後,假設列車沒有遇到故障,從第三站到到達目的地,我們預測通勤還需要的時間是8分鐘(13分鐘減去5分鐘)。貝爾曼方程式連續地分別進行預測,並根據新的信息更新預測結果。
關於貝爾曼方程,有一點違反直覺的是,我們並沒有實際觀察到這些預測的平均值:通勤時間要麼是15分鐘(5天中的4天),要麼是30分鐘——從來不會出現18分鐘!從純粹數學的角度看,這不是一個問題,因為決策理論(decision theory)認為,我們只需要用平均值就能做出最好的選擇。結果,這個問題在實踐中大都被忽略了。但是,有大量實證證據表明,預測平均值是非常複雜的。
在我們的新論文中,我們提出貝爾曼方程的一個變體實際上可以預測所有可能的結果,而不用對它們進行平均。在我們的例子中,我們在每個站保持兩個預測——一個分布:假如旅程順利,那麼時間分別是15分鐘,10分鐘,5分鐘。但如果火車發生故障,那麼時間分別是30分鐘,25分鐘,以及最後一段是20分鐘。
在這個新角度下,所有的強化學習都可以重新解釋,其應用已經帶來一些驚人的理論成果。預測結果的分布也啟發了各種演算法的可能性,例如:
解除隨機性的來源:一旦觀察到通勤時間呈現雙峰形,即採取兩個可能的值,那麼我們可以針對這些信息採取行動,例如在離家之前檢查火車時刻表是否有更新;
將安全和有風險兩種選擇分開:當兩個選擇的平均結果相同(例如,步行或乘火車所需時間相同)時,我們可能傾向於風險小的選擇(步行);
自然輔助預測:預測多個結果,例如通勤時間的分布,已經被證明有利於更快地訓練深度網路。
我們在DQN(Deep Q-Network)智能體實施我們的新想法,並以51個可能值的分布代替單一的平均獎勵。另一個變化是新的學習規則,反映了從貝爾曼(平均)方程到它對應的分散式方程的轉變。結果證明,從平均值轉變為分布的方法超越了其他所有類似方法的表現,並且是大幅度的超越。下圖顯示,我們的方法只用25%的時間獲得了已訓練好的DQN的75%的性能,並且其性能遠超人類表現。
一個令人驚訝的結果是,我們觀察到在Atari 2600 遊戲中有一些隨機性,儘管底層遊戲模擬器Stella本身是完全可預測的。這種隨機性的出現部分是由於「部分可觀察性」(partial observability):由於模擬器的內部編程,智能體在玩乒乒球遊戲時無法預測得分的準確時間。通過可視化智能體對連續幀的預測(如下圖),我們觀察到兩個單獨的結果(低和高),反映了可能的時間。雖然這種內在的隨機性並沒有直接影響性能,但我們的結果突出了智能體在理解上的局限性。
隨機性的出現是由於智能體自己的行為不確定。在「太空侵略者」(Space Invader)遊戲中,智能體學習預測未來可能會發生失誤並輸掉遊戲的可能性(零獎勵)。
就像火車旅行那個例子一樣,對這些不同的結果分別進行預測是有意義的,而不是將它們總計為一個不現實的平均值。實際上,我們認為這一改進的結果很大程度上是由於智能體自身具有對隨機性建模的能力。
我們的實證結果表明,分布視角能帶來更好、更穩定的強化學習。由於每個強化學習概念都可能有一個對應的分散式方法,這可能是這一方法的開端。
論文:A Distributional Perspective on Reinforcement Learning
摘要
在這篇論文中,我們認為價值分布的基本重要性在於:強化學習智能體所接收到的隨機回報的分布。這與強化學習的一般方法大不相同,一般的方法是對這一回報或價值的期望進行建模。雖然有很多研究價值分布的文獻,但迄今為止,價值分布的研究主要被用於實施風險意識行為(risk-aware behaviour)等具體的目的。我們從政策評估和控制環境的理論結果作為開端,揭示了分布的不穩定性。然後,我們使用分布視角設計了一種將貝爾曼方程應用於學習近似值分布的新演算法。我們使用Arcade學習環境中的遊戲套件評估我們的演算法。我們得到了state-of-the-art的結果,並且證明了近似強化學習中價值分布的重要性。最後,我們結合理論和經驗證據,強調了在近似環境中值的分布影響學習的方式。
原文:https://deepmind.com/blog/going-beyond-average-reinforcement-learning/
點擊閱讀原文可查看職位詳情,期待你的加入~
※「爭議」外媒質疑中國人臉識別定罪犯,三項研究看人臉識別技術漏洞
※「新智元百人會」七高手縱論人機交互與終端智慧化現狀與痛點
※「騰訊優圖首度開源深度學習框架ncnn」主打手機端,同類cpu框架最快
※「谷歌升級ImageNet」大規模視覺理解競賽WebVision冠軍分享|新智元CVPR-17專題
※騰訊首度開源手機端深度學習框架ncnn,同類cpu框架最快
TAG:新智元 |
※超越 Pixel 2、iPhone X,三星 S9 Plus獲DXOMark 史上最高分
※超越 Pixel 2、iPhone X,三星 S9 Plus 獲 DXOMark 史上最高分
※藍染版的ACRONYM x NIKE Air Force 1美到超越Virgil Abloh聯名!
※比TD、MC、MCTS指數級快,性能超越A3C、DDQN等模型,這篇RL演算法論文在Reddit上火了
※藍染版的ACRONYM? x NIKE Air Force 1美到超越Virgil Abloh聯名!
※Hinton向量學院推出神經ODE:超越ResNet 4大性能優勢
※NBA 交易消息 ? Bleacher Report 公布「湖人球星排行」中 LeBron 超越 Kobe
※vivo NEX和OPPO Find X會超越iPhone X嗎?
※iPhone X Plus基準測試 性能大幅超越Android產品
※Tesla ModelS美國或是歐洲銷售量超越了S-Class與7-Series
※LV超越時代審美的Monogram
※AMD製程首次超越Intel!
※《Black Panther》超越《Titanic》奪得美國電影史上最高票房第三名
※操作系統安全哪家強?Linux超越Windows和macOS
※Spotify美國用戶數量已被蘋果Apple Music超越
※性能超越A3C、DDQN等模型,這篇RL演算法論文在Reddit上火了
※Apple Music 將超越 Spotify?美國音樂市場蘋果持續強勢
※如果侃爺奪回「Red October」商標,重組改造的各款 YEEZY 會超越原版 Nike Air Yeezy II 么!
※Netflix 超越 Disney 成為全球市值最高的媒體公司
※三星Galaxy X概念設計 超越S9碾壓iPhone X