當前位置:
首頁 > 新聞 > 環境也能強化學習,智能體要找不著北了,UCL汪軍團隊提出環境設計的新方法

環境也能強化學習,智能體要找不著北了,UCL汪軍團隊提出環境設計的新方法

雷鋒網 AI 科技評論按:提到「強化學習」,大家都知道這是一種讓智能體尋找優化策略、從而與環境互動獲得獎勵的半監督學習方法。但是在汪軍教授看來,強化學習的應用領域不止如此。

在剛剛結束的CCF-GAIR 2017大會中,來自倫敦大學學院 UCL 計算機系的汪軍教授在自己的演講 如何進行大規模多智體強化學習? - 雷鋒網中提到了一類他們團隊最近正在研究的環境設計問題,比如宜家希望自己店鋪空間設計優化,優化目標可以是環境中不同位置的人流量平均,這樣各個地方擺放的商品都可以兼顧到;在快遞分揀的場景里,每一個洞對應一個不同的目的地,分揀機器人需要把快遞投入對應的洞里,那麼就希望分揀機器人的速度盡量快,這既包括行駛的總路徑要盡量短,也包括路徑之間的交叉要盡量少;共享單車給城市管理帶來不少問題,也需要與實時需求對應,合理定價分配資源。

環境也能強化學習,智能體要找不著北了,UCL汪軍團隊提出環境設計的新方法

能夠達到期望的環境是需要設計的,但是很難分析性地用標準設計方法處理這類複雜的對象與環境交互問題,對整個解空間進行窮舉演算的計算成本又太高。

汪軍教授在UCL的研究團隊,除了教授本人以外還有正在訪問UCL的北大博士生張海峰和上海交通大學張偉楠帶的團隊。他們發現,這類環境設計任務與一般強化學習之間具有對稱性,並打算加以利用:

  • 一般強化學習:智能體與環境交互,環境是相對固定的,智能體學習一個優化策略,最大化智能體的目標函數;

  • 環境設計任務:智能體與環境交互,智能體是相對固定的,環境學習一個優化其環境參數的策略,最大化環境的目標函數;

那麼,真的可以用強化學習的方法設計環境嗎?假設答案是肯定的,那麼更進一步地,一般強化學習任務中的智能體可以根據不同環境的特點學到不同的優化策略,那麼環境設計任務中,我們是否可以猜想環境也能夠根據不同智能體的特點,學會不同的優化策略呢?

汪軍老師團隊就在「Learning to Design Games: Strategic Enviroments in Deep Reinforcement Learning」(學習設計遊戲:深度強化學習設計策略性環境)這篇論文中給這兩個問題做出了解答。

環境也能強化學習,智能體要找不著北了,UCL汪軍團隊提出環境設計的新方法

構建優化目標

論文中根據馬爾可夫決策過程(MDP)和智能體的策略函數構建學習範式。

馬爾可夫決策過程是強化學習研究中的常用概念,

(狀態空間 S,動作空間 A,狀態轉換函數 P,回報函數 R,隨著時間推移的折扣率 γ)。而智能體對狀態空間中的狀態 s 做出 動作 a,形成自己的策略

。強化學習的目標就是找到讓智能體獲得回報最大的

在標準強化學慣用法中,馬爾可夫決策過程 M 是固定的,只有智能體能夠更新自己的策略。為了給模型加上訓練環境的能力,論文中首先把狀態轉換函數 P 參數化為 Pθ,然後給 M 設定一個目標

,從而把過程函數改寫為:

(方程一,這個方程中允許過程 M 和智能體同時達成自己的目標)

為了進行具體研究,論文中選取了這樣一種特定情況進行闡述:環境是對抗性的,環境的目標是讓智能體獲得的回報最少。從而,要研究的目標函數為:

(方程二,環境的目標為讓智能體的回報最少)

優化方法 1 - 轉換概率梯度

考慮到許多情況下如上方程二不是解析性的,所以論文中提出了一種轉換概率梯度的方法進行優化。

首先假設環境(決策過程)和智能體的參數都是迭代更新的。每一輪迭代中,環境沿梯度方向進行更新,然後智能體根據更新後的環境,更新自己的參數尋找優化策略。

為了找到 θ 的梯度,論文中通過設計一組馬爾可夫決策策略對的方式,推導出了一組梯度計算方程,從而可以計算梯度進行這種迭代更新。

環境也能強化學習,智能體要找不著北了,UCL汪軍團隊提出環境設計的新方法

圖示1:把該方法用於對抗性的迷宮生成的示意圖。智能體嘗試找到從入口(綠色方塊)到出口(紅色方塊)的最短路徑,但是迷宮要讓最短路徑儘可能地長。沿著 θ 更新的方向,迷宮變得複雜;沿著 φ 更新的方向,智能體找到的路徑變得更短。其中回報定義為穿越迷宮所需步數的負數。

優化方法 2:生成式優化範式

在推導梯度方程的過程中,作者們發現這個方程也有不適用的情況:1,受到環境的天然限制,有時Pθ不是可微的,導致基於策略的方法無法使用;2,轉換概率模型需要學到一個概率分布,導致基於數值的方法無法使用。

為了解決不適用的問題,作者們提出了一種生成式範式作為梯度方法的替代方法。

環境也能強化學習,智能體要找不著北了,UCL汪軍團隊提出環境設計的新方法

如圖,環境生成器首先生成一組參數 θ1n,進而形成一組不同的環境。在每一個環境中都單獨訓練一個智能體獲得最優策略,然後在它們各自的環境中觀察回報G1~Gn,作為生成器更新下一輪參數的參照。用這樣的方法就可以進行環境的迭代更新。

實驗驗證

論文中用迷宮環境對方法進行了測試,需要智能體以最少的步數從迷宮的左上角走到迷宮的右下角,環境的目標是讓智能體能找到的最短路徑的步數儘可能多。為了避免生成的牆壁一開始就把智能體堵起來,作者們讓環境生成器逐步地增加擋牆,並且放棄會困住智能體的方案。

可微環境

由於正常迷宮的牆壁只有 0 (沒有牆壁)或者 1 (有牆壁)兩種狀態,導致這樣的迷宮是不可微的。論文中就設計了一種具有概率性牆壁的迷宮,其中的牆壁能夠以一定的概率擋住智能體,這樣就成為了一個可微的環境。

實驗中使用了OPT(Optimal,最優)和DQN(Deep Q-network learning)兩種智能體,其中OPT智能體是不會學習的,DQN智能體則能夠利用深度神經網路把整個地圖作為輸入,從隨機策略開始學習輸出向四個方向的動作。

環境也能強化學習,智能體要找不著北了,UCL汪軍團隊提出環境設計的新方法

如圖中所示,顏色越深的格子表示此處牆壁擋住智能體的可能性越高。可以看到,兩個環境都學到了最有效的阻擋位置是在出口附近,同時,由於兩個智能體的特性不同(DQN智能體對環境的探索更多),所以與DQN智能體互動的環境更快地找到了近似最優的策略,但是從近似最優收斂到最優卻花了很久。

不可微環境

在不可微的正常牆壁測試環境中,論文中還多考慮了一類情況:假設智能體尋找最優路線的能力有限,環境會如何應對?

所以除了剛才的OPT和DQN兩種智能體外,現在又加入了DFS(深度搜索優先,「撞到南牆再拐彎」)和RHS(右側搜索優先,保證右側是牆壁)兩種智能體。

環境也能強化學習,智能體要找不著北了,UCL汪軍團隊提出環境設計的新方法

如圖是環境生成的不同尺寸的迷宮,可以看到,環境為不同的智能體生成的迷宮是不一樣的,為OPT(最優路徑)智能體生成了狹長無分叉的路徑;為RHS(右手優先)智能體生成的迷宮就有很多小的分叉,增大了側牆的長度;DFS(深度優先)智能體幾乎把每個格子都走了兩遍;為使用隨機策略的DQN智能體生成的迷宮則有一些死胡同。

下面幾張動圖展示了 8x8 的迷宮在智能體的互動中迭代的、逐漸形成以上特徵的過程。


迷宮

環境也能強化學習,智能體要找不著北了,UCL汪軍團隊提出環境設計的新方法

環境也能強化學習,智能體要找不著北了,UCL汪軍團隊提出環境設計的新方法

環境也能強化學習,智能體要找不著北了,UCL汪軍團隊提出環境設計的新方法

環境也能強化學習,智能體要找不著北了,UCL汪軍團隊提出環境設計的新方法

智能體 OPT DFS RHS DQN

這種情況就表明了環境生成器可以根據智能體的弱點,針對性地生成環境。

論文中還有一張學習曲線的分析圖,非常清晰地展現了學習過程的對抗性。

環境也能強化學習,智能體要找不著北了,UCL汪軍團隊提出環境設計的新方法

對於具有固定策略的OPT、DFS、RHS三種智能體,隨著訓練進行,生成器可以在一開始就快速學到讓步數變多的策略,然後逐漸進行收斂。而DQN智能體則能夠隨著環境變化不停地更新自己的策略:從學習曲線的不斷大幅波動中可以明顯看到,有時候智能體的學習速度比環境學習速度快,可以造成所需步數的大幅度下降。

結論

這樣,我們在這篇文章開頭提的兩個問題,「能否讓環境強化學習」和「環境能否根據不同智能體的特點學到不同的策略」兩個問題就都得到了肯定的答覆。論文中也表示會進一步研究如何運用這種方法設計更多環境。

論文原文地址:https://arxiv.org/abs/1707.01310,雷鋒網 AI 科技評論編譯

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

廉價的小型衛星,正在帶來新太空革命
融資過億?死於高溫?這些都不是無人零售的真實面目
奧迪首款L3自動駕駛量產車,背後是NVIDIA提供的計算力
海康威視涉嫌抄襲,擁有1200項專利的安防龍頭怎麼想的?

TAG:雷鋒網 |

您可能感興趣

NPL啟動新的項目來應對能源和環境方面的挑戰
清華團隊發明出新設備,能同時從環境中收集機械能和磁能
學舞,需要好的環境
新型智能手環:能監測人體健康和環境狀況!
Vishay推出針對可穿戴設備和智能手機應用優化的新型高靈敏度環境光感測器
使用電動產品真的能保護環境?科學家:會給環境帶來更大影響
我的世界:「環境科技」MOD,注入新採集方式,能憑空生成資源
星際2新智能體開源:單機並行能力強,適應環境廣,個人可訓練
學術創新需要相對寬鬆的環境來呵護
清華地學系研究團隊為全球環境容量限界研究的區域閾值定義提供了新方法
觀點|沒有良好的學術制度和環境,引進再多的一流人才也無力振興中國學術
大數據環境下,如果能把自己的學習自媒體並把自媒體運營得更好
十大生物融合趨勢將影響未來作戰環境演變 先進技術將提升士兵對未來戰場的備戰能力
強力環境術,打的就是強勢卡組
全環境結構膠能在任何環境下使用么
青雲智能超融合一體機,打造安全高效節能的數據存儲環境
如何應對混亂:讓新老師和新學生都置身於PBL的安全環境里
你的心要能適應環境,不要被環境所轉
建立系統的環境觀念,改善身體的內環境,才能完全根除病因!
蘋果有壓力了 谷歌全新手機系統再度現身:可兼容安卓運行環境