沒有模型如何進行強化學習——蒙特卡洛方法
產業 學術 趣玩
每周推送原創潮流機器人資訊
我們獲得授權翻譯CMU課程 10703 Deep Reinforcement Learning & Control,這是第四講。
感謝Katerina Fragkiadaki教授的支持。
翻譯貢獻者:
李飛騰,HFUT,Mechatronics (1-9)
李政鍇,HIT,CSE (10-16)
王馨,CUHK, rehabilitation robotics (17-21, 39-41)
曹瑾,SJTU,Robotics (22-28)
劉乃龍,SIA, Robotics (29-38)
組長&校對:李宏坤
「機器人學家」授權翻譯
本講
概要
本講介紹強化學習中的蒙特卡洛方法,即通過試驗採樣來估計策略優劣。不同於上節課的精確求解法,蒙特卡洛方法並不要求模型已知,因而有更靈活的應用。
應用蒙特卡洛方法的很重要一點是要保證探索性(exploration),為此在訓練時往往需要犧牲最優策略,而採用次優但能保證探索的策略。此時我們的策略衡量(Policy Evaluation)得到的不是最優策略的值(value),這是一個值得注意的問題。
如何能一邊用次優的策略進行探索,一邊計算著最優策略的value?這就是本講介紹的第二個主題——藉助統計學上的重要性採樣(importance sampling)來直接衡量最優策略的「異策略方法(off-policy methods)」。
目錄
Contents
文檔
下載
總結
Summary
MC 相對於DP(Dynamic Programming, 動態規劃)具有很多優點:
可以直接從環境交互中學習(interaction with environment)
不需要完整的模型
不需要學習所有的狀態(即不需要引導(bootstrapping))
能較少地受到違背了馬爾科夫特性(Markov property,之後會講)帶來的影響
MC方法提供了一種交替策略評估過程(alternate policy evaluation process)
需要注意的一個問題: 需維持足夠的探索(maintaining sufficient exploration):為了讓策略評估能效力於動作值(action value),我們必須確保連續的探索,以上兩者都是以這個為前提的。
※Kiva機器人大拆解-世界上最成功的AGV有哪些獨特設計?
※CMU「深度增強學習與控制」課程翻譯
※美國2.5億美金打造高等機器人製造研究院——機器人技術將幫助重塑美國製造業?
※第18屆工博會機器人展超詳細全紀錄——國內機器人篇
※眾籌3400萬美金也拯救不了你,紅極一時的Lily無人機
TAG:機器人學家 |
※什麼是正確的學習方法?
※學習書法,方法比努力更重要
※反思你的學習方法
※讓書法學習更高效的方法
※學習嵌入式的方法
※學習沒有捷徑,但是學習有方法
※學習方法的古代格言
※這些方法學習英語更輕鬆更有趣
※為什麼要系統學習佛法,如何學習佛法?
※學習編程?哪種學習方式更好
※你知道「模仿學習」功能強大,但它和「強化學習」有什麼關係?
※與模型無關的元學習,伯克利提出可推廣到各類任務的元學習方法
※學習插畫沒有捷徑,但是有方法
※風景速寫的學習方法
※有效學習方法改變你一生
※黑色沙漠學習技能有幾種方法?黑色沙漠官網技能學習方法介紹。
※臨習漢印的刀法學習進程
※想要成為維多利亞秘密的模特嗎?快來學習春季最有效的減肥方法吧
※提高學習效果的方法——費曼學習法