當前位置:
首頁 > 科技 > 沒有模型如何進行強化學習——蒙特卡洛方法

沒有模型如何進行強化學習——蒙特卡洛方法

產業 學術 趣玩


每周推送原創潮流機器人資訊


我們獲得授權翻譯CMU課程 10703 Deep Reinforcement Learning & Control,這是第四講。

感謝Katerina Fragkiadaki教授的支持。


翻譯貢獻者:


李飛騰,HFUT,Mechatronics (1-9)


李政鍇,HIT,CSE (10-16)

王馨,CUHK, rehabilitation robotics (17-21, 39-41)


曹瑾,SJTU,Robotics (22-28)


劉乃龍,SIA, Robotics (29-38)


組長&校對:李宏坤


「機器人學家」授權翻譯

本講


概要


本講介紹強化學習中的蒙特卡洛方法,即通過試驗採樣來估計策略優劣。不同於上節課的精確求解法,蒙特卡洛方法並不要求模型已知,因而有更靈活的應用。


應用蒙特卡洛方法的很重要一點是要保證探索性(exploration),為此在訓練時往往需要犧牲最優策略,而採用次優但能保證探索的策略。此時我們的策略衡量(Policy Evaluation)得到的不是最優策略的值(value),這是一個值得注意的問題。


如何能一邊用次優的策略進行探索,一邊計算著最優策略的value?這就是本講介紹的第二個主題——藉助統計學上的重要性採樣(importance sampling)來直接衡量最優策略的「異策略方法(off-policy methods)」

目錄


Contents

沒有模型如何進行強化學習——蒙特卡洛方法


文檔


下載

沒有模型如何進行強化學習——蒙特卡洛方法



總結


Summary


MC 相對於DP(Dynamic Programming, 動態規劃)具有很多優點:


可以直接從環境交互中學習(interaction with environment)


不需要完整的模型


不需要學習所有的狀態(即不需要引導(bootstrapping))


能較少地受到違背了馬爾科夫特性(Markov property,之後會講)帶來的影響


MC方法提供了一種交替策略評估過程(alternate policy evaluation process)


需要注意的一個問題: 需維持足夠的探索(maintaining sufficient exploration):為了讓策略評估能效力於動作值(action value),我們必須確保連續的探索,以上兩者都是以這個為前提的。

您的贊是小編持續努力的最大動力,動動手指贊一下吧!


本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器人學家 的精彩文章:

Kiva機器人大拆解-世界上最成功的AGV有哪些獨特設計?
CMU「深度增強學習與控制」課程翻譯
美國2.5億美金打造高等機器人製造研究院——機器人技術將幫助重塑美國製造業?
第18屆工博會機器人展超詳細全紀錄——國內機器人篇
眾籌3400萬美金也拯救不了你,紅極一時的Lily無人機

TAG:機器人學家 |

您可能感興趣

什麼是正確的學習方法?
學習書法,方法比努力更重要
反思你的學習方法
讓書法學習更高效的方法
學習嵌入式的方法
學習沒有捷徑,但是學習有方法
學習方法的古代格言
這些方法學習英語更輕鬆更有趣
為什麼要系統學習佛法,如何學習佛法?
學習編程?哪種學習方式更好
你知道「模仿學習」功能強大,但它和「強化學習」有什麼關係?
與模型無關的元學習,伯克利提出可推廣到各類任務的元學習方法
學習插畫沒有捷徑,但是有方法
風景速寫的學習方法
有效學習方法改變你一生
黑色沙漠學習技能有幾種方法?黑色沙漠官網技能學習方法介紹。
臨習漢印的刀法學習進程
想要成為維多利亞秘密的模特嗎?快來學習春季最有效的減肥方法吧
提高學習效果的方法——費曼學習法