DeepMind 發布新架構 讓AI 邊玩遊戲邊強化學習 | 2分鐘論文
雷鋒網按:這裡是,雷鋒字幕組編譯的Two minutes paper專欄,每周帶大家用碎片時間閱覽前沿技術,了解AI領域的最新研究成果。
原標題 DeepMind"s AI Masters Even More Atari Games | Two Minute Papers
翻譯 | 熊逸凡 字幕 | 凡江
論文標題:IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures
?每周一篇2分鐘論文視頻解讀
眾所周知,強化學習是一種演算法,我們可以用它在環境中選擇一系列的行動來達到最高分數。這種演算法有很多種應用,在這裡我們單獨拿電子遊戲出來做例子,是因為它能夠呈現給玩家多種多樣的挑戰。DeepMind 實驗室為了更加直觀地進行研究,使用第一視角來玩3D遊戲。DeepMind實驗室有一個簡單卻很靈活的API,可以讓訓練對象學習不同的任務,該實驗室的遊戲引擎功能強大,運行速度飛快,適用各種研究場景。
在強化學習過程中,我們通常有一個任務目標(比如學習後空翻)和一個我們想要訓練好的對象。在本篇論文中,我將介紹的這個項目,是DeepMind對於改進強化學習的一次嘗試。通過訓練,使一個對象能完成比以往多得多種類的任務,這顯然意味著我們需要獲得更多的訓練數據?,以及為最高效地處理這些數據作好準備。
這個新技術是基於之前DeepMind發布了的構架,先前的構架 A3C(即非同步的優勢行動者評論家演算法) 將一些執行單元置於遊戲中,每個單元都掌握玩這個遊戲當前的策略。之後,這些單元獨立地進行遊戲,並周期性地停止遊戲,以此來分享關於當前策略的可行部分和不可行的部分。
這種IMPALA架構(Importance Weighted Actor-Learner Architecture)有兩個關鍵性的改變——
(1)第一個是在中間有個學習單元,執行單元不與它分享遊戲中哪些做法可行,哪些不可行,而是它們與它分享經驗。之後,這個集中的學習單元會想出一個關於所有這些數據的合理結論。想像一下,如果一個隊伍里的每個足球運動員都去告訴教練,自己在球場上嘗試的哪些方法奏效,這樣的確可以有作用,但是有別於只是得到這些方法,我們可以把每個隊員各自的經驗通過蜂群思想結合起來,然後可以得到更多更高質量的信息。
(2)另一個關鍵性不同是,傳統強化學習會先將遊戲進行一定步驟,然後停下來進行學習過程。而使用論文中的方法,我們將遊戲進行和學習過程分離開來,因此就有可能發展出一種能夠同時連續進行兩個過程的演算法。這也引發了新的問題,推薦看一下論文里特別是關於叫做V-Trace的新的off-policy校正方法的部分,當在30個不同等級和大量Atari遊戲的測試中,這種新方法比起之前基於A3C架構的表現翻了一倍,這也是極好的。同時,數據使用效率也至少是十倍於後者。它產生的知識更容易被應用到其他任務中。
論文原址 https://arxiv.org/pdf/1802.01561.pdf
更多文章,關注雷鋒網 雷鋒網雷鋒網
添加雷鋒字幕組微信號(leiphonefansub)為好友
備註「我要加入」,To be an AI Volunteer !
※搭載L3級的雲度SUV π7將在2019年上市,我們了解到這些信息
※速騰聚創發布 P3 激光雷達感知方案:一台32線+兩台16線,為L3自動駕駛而生
TAG:雷鋒網 |