548頁MIT強化學習教程,收藏備用【PDF下載】
知識
10-14
本書分為三個部分。
第一部分根據馬爾可夫決策過程定義強化學習問題。
第二部分提供了基本的解決方案:動態規劃,蒙特卡羅方法和時差學習。
第三部分提出了解決方法的統一視圖,並結合了人工神經網路,資格跟蹤和規劃。
最後兩章介紹了案例研究,並考慮了強化學習的未來。
第二版的網站:
//incompleteideas.net/book/the-book-2nd.html
python實現的代碼:
https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
課程資料:
//incompleteideas.net/609%20dropbox/
完整教程下載
關注公眾號,後台回復
20181011
今日推薦
《強化學習》