DeepMind的強化學習:從無監督輔助到情境控制
機器之心報道
DeepMind論文提出神經情景控制:可顯著提速深度強化學習
深度強化學習方法能在廣泛的環境中實現超越人類的表現。這樣的方法是非常低效的,要想實現合理程度的表現,所需的數據量往往比人類所需的多幾個數量級。我們提出了神經情景控制(Neural Episodic Control/NEC):一種能夠快速吸收新經驗和基於此採取行動的深度強化學習代理。我們的代理使用了一種價值函數的半值表示(semi-tabular representation):一種過去經驗的緩衝器,其包含了該價值函數的緩慢變化的狀態表示和快速更新的估計。我們通過在廣泛環境中的研究表明:我們的代理的學習速度可以顯著快於當前最佳的通用深度強化學習代理。
神經情景控制(Neural Episodic Control)
我們的代理由三個組分構成:一個處理像素圖像的卷積神經網路,一個記憶模塊集合(每個動作一個模塊)和一個將動作記憶的讀出轉換成 Q(s, a) 值的最終的網路。這裡的卷積神經網路使用了和 DQN (Mnih et al., 2015) 所使用的一樣的架構。
演算法 1:神經情景控制(Neural Episodic Control)
圖 1:在一個可微分神經詞典(Differentiable Neural Dictionary)上的操作的圖示
圖 2:對單個動作 a 的情景記憶模塊(episodic memory module)的架構。表示當前狀態的像素進入通過左下方的一個卷積神經網路,然後在右上方輸出 Q(s, a) 的一個估計。梯度會流過這整個架構。
圖 3~圖 8:不同演算法在不同遊戲上的學習曲線,上圖為不同演算法在 Ms. Pac-Man 上的學習曲線
論文:使用無監督輔助任務的強化學習(Reinforcement Learning with Unsupervised Auxiliary Tasks)
深度強化學習代理已經通過直接最大化累積獎勵而實現了當前最佳的表現。但是,環境包含了遠遠更多類型的可能的訓練信號。在這篇論文中,我們介紹一種通過強化學習也能同時最大化許多其它偽獎勵函數(pseudo-reward functions)的代理。所有這些任務都共享了一個共同的表徵,就像無監督學習一樣,這種表徵可以繼續在有外部獎勵(extrinsic rewards)存在的情況下發展。我們還引入了一種全新的機制以將這種表徵的重心放到外部獎勵上,從而讓學習可以快速適應該實際任務中最相關的方面。在 Atari 遊戲上,我們的代理的表現顯著超越了之前的最佳表現,平均達到了人類專家表現的 880%;並且在一個有挑戰性的第一人稱三維 Labyrinth 任務合集中實現了平均 10 倍的學習加速和平均 87% 的人類專家在 Labyrinth 上的表現。
※大腦的啟發,從高性能低功耗人工突觸到擬動物大腦實現連續學習
※深度學習在NLP領域成績斐然,計算語言學家該不該驚慌?
※專訪|IBM提出商業人工智慧,看好中國機遇
TAG:機器之心 |
※Andrej Karpathy:監督學習、無監督學習、人腦模擬和AGI的未來(83 PPT下載)
※Bengio TED演講:無監督學習是深度學習突破的關鍵
※使用CNN+Auto-Encoder 實現無監督Sentence Embedding
※深度學習先驅 Yoshua Bengio 解讀深度學習的關鍵突破點:無監督學習
※熟悉的監督熟悉的味道,監督天沖成立製作公司負責《灰色 Phantom Trigger》動畫
※無監督特徵提取神器—AutoEncoder:圖文+代碼
※Nature:能自主學習的人工突觸,為無監督學習開闢新的路徑
※監督松尾衡談《機動戰士高達 Thunderbolt》(中)
※Re:Creators 監督解釋軍服姬能力源於各種同人設定
※最怕官方自奶,Princess Principal 監督稱第五話作畫卡數超出常識
※Princess Principal 監督說明第五話作畫卡數突破 TV 動畫常識
※監督橘正紀、總製片人湯川淳、音樂梶浦由記談《Princess Principal》(上)
※本子王,Re:Creators監督解釋軍服姬能力源於各種同人
※弱監督視頻物體識別新方法:TD-Graph LSTM
※奇幻音樂穿越之旅:藤田陽一監督談《Classicaloid》
※做本子王的好處,Re:Creators 監督解釋軍服姬能力源於各種同人設定
※監督橘正紀、總製片人湯川淳、音樂梶浦由記談《Princess Principal》誕生秘話(下)
※別再萬策盡矣,Just Because 動畫監督透露製作非常的痛苦
※《機動戰士高達 Twilight AXIS》 監督金世俊訪談