強化學習——蒙特卡洛

知識 01-16

了解「概率模擬」的應該都熟悉這個方法，LDA的Gibbs Sample就用到了這個方法。蒙特卡洛方法，不需要對環境建立「完美」模型。本文用大白話總結就是：通過數數實現action的價值預估。

Monte Carlo Policy Evaluation

上面流程非常簡單，就是基於基本的統計（平均）作為預估，並且每一個狀態價值的預估和別的狀態之間是「獨立」的，當狀態很多的時候這個方式的效率就會得到體現；同時，如果某一個狀態下樣本太少，也可以通過直接「模擬」的方式生成樣本從而統計，達到預估的目的。

Monte Carlo Estimation of Action Values

如果模型不好建立，直接對action value進行預估達到一步到位，不用繞路去預估state value。在有一個模型的時候，通過state value可以簡單的得到決策的action（例如貪心策略）；

做決策的時候，我們必須預估每一個action帶來的收益，Monte Carlo的方法就是直接對action value進行預估，得到最優的q?。

當state或者action空間較大，會導致我們樣本中出現的pair(state,action)並不能覆蓋所有情況，這樣會導致得不到全局最優的action。解決這個問題典型的方式就是解決Bandit問題的EE相關的演算法。

Monte Carlo Control

evaluation的過程將策略價值估準確，improvement過程更好的使用上一步預估好的價值挑選「最大收益」的策略。可以發現，這兩個過程也可以和計算廣告和推薦系統中的模型和策略對應起來；一個是「估準確」另一個是「用好」。

蒙特卡洛方法可以很好地工作有兩個假設，分別為：

初始選擇概率（explore出更好的action）

無限次數的迭代（無數條樣本，理論上可以收斂到最優位置）

如果想要打破第二假設，有兩種方式，一個是當迭代次數達到一定程度（例如變化小於某個值）就停止；另一個是evaluation的時候只針對部分pair(state,action)進行計算,從而減少計算量。

On-Policy Monte Carlo Control

就是EE在選擇action的具體應用，採用

ξ?greedy

ξ?greedy策略。下圖為具體的演算法過程：

Off-Policy Monte Carlo Control

基本思路就是通過策略u生成樣本，然後用一個貪心策略π和他對比（在數據量充足的情況下，貪心是最優策略），如果發現不一致，就說明需要更新價值函數。更新的時候需要添加權重，距離結束越遠權重越小。具體演算法流程為：

資料

《Reinforcement Learning： An Introduction》

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI講堂 的精彩文章: