當前位置:
首頁 > 知識 > 強化學習——蒙特卡洛

強化學習——蒙特卡洛

了解「概率模擬」的應該都熟悉這個方法,LDA的Gibbs Sample就用到了這個方法。蒙特卡洛方法,不需要對環境建立「完美」模型。本文用大白話總結就是:通過數數實現action的價值預估。

Monte Carlo Policy Evaluation

上面流程非常簡單,就是基於基本的統計(平均)作為預估,並且每一個狀態價值的預估和別的狀態之間是「獨立」的,當狀態很多的時候這個方式的效率就會得到體現;同時,如果某一個狀態下樣本太少,也可以通過直接「模擬」的方式生成樣本從而統計,達到預估的目的。

Monte Carlo Estimation of Action Values

如果模型不好建立,直接對action value進行預估達到一步到位,不用繞路去預估state value。在有一個模型的時候,通過state value可以簡單的得到決策的action(例如貪心策略);

做決策的時候,我們必須預估每一個action帶來的收益,Monte Carlo的方法就是直接對action value進行預估,得到最優的q?。

當state或者action空間較大,會導致我們樣本中出現的pair(state,action)並不能覆蓋所有情況,這樣會導致得不到全局最優的action。解決這個問題典型的方式就是解決Bandit問題的EE相關的演算法。

Monte Carlo Control

evaluation的過程將策略價值估準確,improvement過程更好的使用上一步預估好的價值挑選「最大收益」的策略。可以發現,這兩個過程也可以和計算廣告和推薦系統中的模型和策略對應起來;一個是「估準確」另一個是「用好」。

兩個假設

蒙特卡洛方法可以很好地工作有兩個假設,分別為:

初始選擇概率(explore出更好的action)

無限次數的迭代(無數條樣本,理論上可以收斂到最優位置)

如果想要打破第二假設,有兩種方式,一個是當迭代次數達到一定程度(例如變化小於某個值)就停止;另一個是evaluation的時候只針對部分pair(state,action)進行計算,從而減少計算量。

On-Policy Monte Carlo Control

就是EE在選擇action的具體應用,採用

ξ?greedy

ξ?greedy策略。下圖為具體的演算法過程:

Off-Policy Monte Carlo Control

基本思路就是通過策略u生成樣本,然後用一個貪心策略π和他對比(在數據量充足的情況下,貪心是最優策略),如果發現不一致,就說明需要更新價值函數。更新的時候需要添加權重,距離結束越遠權重越小。具體演算法流程為:


資料

《Reinforcement Learning: An Introduction》


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI講堂 的精彩文章:

TAG:AI講堂 |