當前位置:
首頁 > 新聞 > DeepMind 發布新架構 讓AI 邊玩遊戲邊強化學習 | 2分鐘論文

DeepMind 發布新架構 讓AI 邊玩遊戲邊強化學習 | 2分鐘論文

雷鋒網按:這裡是,雷鋒字幕組編譯的Two minutes paper專欄,每周帶大家用碎片時間閱覽前沿技術,了解AI領域的最新研究成果。

原標題 DeepMind"s AI Masters Even More Atari Games | Two Minute Papers

翻譯 | 熊逸凡 字幕 | 凡江

論文標題:IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

?每周一篇2分鐘論文視頻解讀

眾所周知,強化學習是一種演算法,我們可以用它在環境中選擇一系列的行動來達到最高分數。這種演算法有很多種應用,在這裡我們單獨拿電子遊戲出來做例子,是因為它能夠呈現給玩家多種多樣的挑戰。DeepMind 實驗室為了更加直觀地進行研究,使用第一視角來玩3D遊戲。DeepMind實驗室有一個簡單卻很靈活的API,可以讓訓練對象學習不同的任務,該實驗室的遊戲引擎功能強大,運行速度飛快,適用各種研究場景。

DeepMind 發布新架構  讓AI 邊玩遊戲邊強化學習  |  2分鐘論文

在強化學習過程中,我們通常有一個任務目標(比如學習後空翻)和一個我們想要訓練好的對象。在本篇論文中,我將介紹的這個項目,是DeepMind對於改進強化學習的一次嘗試。通過訓練,使一個對象能完成比以往多得多種類的任務,這顯然意味著我們需要獲得更多的訓練數據?,以及為最高效地處理這些數據作好準備。

DeepMind 發布新架構  讓AI 邊玩遊戲邊強化學習  |  2分鐘論文

這個新技術是基於之前DeepMind發布了的構架,先前的構架 A3C(即非同步的優勢行動者評論家演算法) 將一些執行單元置於遊戲中,每個單元都掌握玩這個遊戲當前的策略。之後,這些單元獨立地進行遊戲,並周期性地停止遊戲,以此來分享關於當前策略的可行部分和不可行的部分。

DeepMind 發布新架構  讓AI 邊玩遊戲邊強化學習  |  2分鐘論文

這種IMPALA架構(Importance Weighted Actor-Learner Architecture)有兩個關鍵性的改變——

(1)第一個是在中間有個學習單元,執行單元不與它分享遊戲中哪些做法可行,哪些不可行,而是它們與它分享經驗。之後,這個集中的學習單元會想出一個關於所有這些數據的合理結論。想像一下,如果一個隊伍里的每個足球運動員都去告訴教練,自己在球場上嘗試的哪些方法奏效,這樣的確可以有作用,但是有別於只是得到這些方法,我們可以把每個隊員各自的經驗通過蜂群思想結合起來,然後可以得到更多更高質量的信息。

(2)另一個關鍵性不同是,傳統強化學習會先將遊戲進行一定步驟,然後停下來進行學習過程。而使用論文中的方法,我們將遊戲進行和學習過程分離開來,因此就有可能發展出一種能夠同時連續進行兩個過程的演算法。這也引發了新的問題,推薦看一下論文里特別是關於叫做V-Trace的新的off-policy校正方法的部分,當在30個不同等級和大量Atari遊戲的測試中,這種新方法比起之前基於A3C架構的表現翻了一倍,這也是極好的。同時,數據使用效率也至少是十倍於後者。它產生的知識更容易被應用到其他任務中。

DeepMind 發布新架構  讓AI 邊玩遊戲邊強化學習  |  2分鐘論文

論文原址 https://arxiv.org/pdf/1802.01561.pdf

更多文章,關注雷鋒網 雷鋒網雷鋒網

添加雷鋒字幕組微信號(leiphonefansub)為好友

備註「我要加入」,To be an AI Volunteer !

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

搭載L3級的雲度SUV π7將在2019年上市,我們了解到這些信息
速騰聚創發布 P3 激光雷達感知方案:一台32線+兩台16線,為L3自動駕駛而生

TAG:雷鋒網 |