重磅經典教材 R.Sutton《增強學習導論》最新版

新聞 04-01

新智元編譯

編譯：克雷格

【新智元導讀】加拿大阿爾伯塔大學著名增強學習大師 Richard S. Sutton 教授的經典教材《增強學習導論》（Reinforcement Learning: An Introduction）第二版近期更新，現書稿的草稿在其主頁提供，新智元編譯圖書的目錄部分，全書（英文版 draft）可在新智元公眾號下載。本書系統性地介紹了增強學習，共548頁，其中不乏許多新穎的應用案例分析。

《強化學習導論》電子書地址：

https://drive.google.com/file/d/1xeUDVGWGUUv1-ccUMAZHJLej2C7aAFWY/view

全書目錄

第二版引言

第一版引言

符號總結

摘要

1. 增強學習的問題

1.1 增強學習

1.2 案例

1.3 增強學習要素

1.4 限制和範圍

1.5 一個延伸案例：Tic-Tac-Toe

1.6 小結

1.7 增強學習的歷史

列表法

2. 多臂賭博機（Muti-arm Bandits）問題

2.1 K-臂賭博機問題

2.2 行動值方法

2.3 The 10-armed Testbed

2.4增量實現

2.5 追蹤一個非穩態解

2.6 優化初始值

2.7 置信上界行動選擇

2.8 梯度賭博機演算法

2.9 關聯檢索

2.10 小結

3. 有限馬爾科夫決策過程

3.1 代理（agent）環境交互

3.2 目標和回饋

3.3 返回

3.4 為插入或連續性任務統一符號

3.5 策略和價值函數

3.6 優化策略和價值函數

3.7 優化和近似

3.8 總結

4. 動態編程

4.1 策略估計

4.2 策略改進

4.3 策略迭代

4.4 迭代值

4.5 非同步動態編程

4.6 泛化的策略迭代

4.7 動態編程的效果

4.8 總結

5. 蒙特卡洛方法

5.1 蒙特卡洛預測

5.2 蒙特卡洛對行動價值的評估

5.3 蒙特卡洛控制

5.4 不讀取（Explore）開始條件下的蒙特卡洛控制

5.5 通過重要抽樣進行無策略（off-Policy）預測

5.6 增量實現

5.7 Off-Policy 蒙特卡洛控制

5.8 *Discounting-aware Importance Sampling

5.9 *Per-decision Importance Sampling

5.10 總結

6. 時間差分（TD）學習

6.1 時間差分預測

6.2 時間差分預測方法的優勢

6.3 TD（o）的最佳性

6.4 Sarsa：在策略（On-Policy） TD 控制

6.5 Q-Learning：連策略TD 控制

6.6 期待的Sarsa

6.7 偏差最大化和雙學習

6.8 遊戲、afterstates 和其他具體案例

6.9 總結

7. 多步驟 bootstrapping

7.1 n-step TD 預測

7.2 n-step Sarsa

7.3 通過重要性抽樣進行 n-step 離策略學習

7.4 *Per-decision Off-policy Methods with Control Variates

7.5無重要性抽樣下的離策略學習：n-step 樹反向演算法

7.6 一個統一的演算法：n-step Q（ σ）

7.7 總結

8. 用列表方法進行計劃和學習

8.1 模型和計劃

8.2 Dyna：融合計劃、行動和學習

8.3 模型錯了會發生什麼

8.4 優先掃除（prioritized sweeping）

8.5 Expected vs. Sample Updates

8.6 Trajectory Sampling

8.7 Real-time Dynamic Programming

8.8 計劃作為行動選擇的一部分

8.9 啟發式搜索

8.10 Rollout Algorithms

8.11 蒙特卡洛樹搜索

8.12 本章總結

8.13 Summary of Part I: Dimensions

近似法解決方案

9. 使用近似法的在政策預測

9.1 價值函數的近似

9.2 預測目標（MSVE）

9.3 隨機梯度和半梯度的方法

9.4 線性方法

9.5 線性方法中的特徵構建

9.5.1 多項式

9.5.2 傅里葉基礎

9.5.3 Coarse coding

9.5.4 Tile Coding

9.5.5 徑向基函數

9.6 Selecting Step-Size Parameters Manually

9.7 非線性函數近似：人工神經元網路

9.8 最小平方TD

9.9 Memory-based Function Approximation

9.10 Kernel-based Function Approximation

9.11 Looking Deeper at On-policy Learning: Interest and Emphasis

9.12 總結

10. 用近似法控制on-policy 在策略

10.1 插入式的半梯度控制

10.2 n-step 半梯度Sarsa

10.3 平均回饋：連續任務中的新問題設定

10.4 「打折」的設置要考慮可用性

10.5 n-step 差分半梯度Sarsa

10.6 總結

11. 使用近似法的離策略方法

11.1 半梯度的方法

11.2 Barid 的反例

11.3 The deadly triad

11.4 Linear Value-function Geometry

11.5 Gradient Descent in the Bellman Error

11.6 The Bellman Error is Not Learnable

11.7 Gradient-TD Methods

11.8 Emphatic-TD Methods

11.9 Reducing Variance

11.10 總結

12. 合格性追蹤

12.1 λ-返回

12.2 TD（λ）

12.3 n-step Truncated λ-return Methods

12.4 Redoing Updates: The Online λ-return Algorithm

12.5 真實的在線TD（λ）

12.6 蒙特卡洛學習中的Dutch Traces

12.7 Sarsa(λ)

12.8 Variable λ and γ

12.9 Off-policy Eligibility Traces with Control Variates

12.10 Watkins』s Q(λ) to Tree-Backup(λ)

12.11 Stable Off-policy Methods with Traces

12.12 Implementation Issues

12.13 結論

13. 策略梯度方法

13.1 策略近似及其優勢

13.2 策略梯度的原理

13.3 增強：蒙特卡洛策略梯度

13.4 使用基準增強

13.5 評估-決策方法(Actor-Critic)

13.6 連續問題中的策略梯度（平均回饋率）

13.7 連續行動中的策略參數化

13.8 總結

更深層的展望

14.心理學

14.1 預測和控制

14.2 經典的調節

14.2.1 Blocking and Higher-order Conditioning

14.2.2 rescorla wagner 方法

14.2.3 TD模型

14.2.4 TD 模型模擬

14.3 有用條件

14.4 延遲的增強

14.5 認知圖

14.6 習慣和目標導向的行為

14.7 總結

15. 神經科學

15.1 神經科學基礎

15.2 回饋信號、價值、預測誤差和增強信號

15.3 回饋預測誤差假設

15.4 回饋預測誤差假設的實驗支持

15.6 TD 誤差/ 多巴胺對應

15.7 神經評估-決策

15.8 評估-決策的學習規則

15.9 快樂主義的神經元

15.10 集體增強學習

15.11 大腦中基於模型的方法

15.12 上癮

15.13 總結

16. 應用和案例分析

16.1 TD-Gammon

16.2 Samuel 的西洋棋玩家

16.3 Watson的 Daily-Double

16.4 優化記憶控制

16.5 人類水平的電子遊戲

16.6 下圍棋

16.6.1 AlphaGo

16.6.2 AlphaGo Zero

16.8 個性化網頁服務

16.9 熱氣流滑翔

17.前沿

17.1 General Value Functions and Auxiliary Tasks

17.2 Temporal Abstraction via Options

17.3 Observations and State

17.4 Designing Reward Signals

17.5 Remaining Issues

17.6 Reinforcement Learning and the Future of Artificial Intelligence

參考文獻

說明

書中部分插圖

《強化學習導論》電子書地址：

https://drive.google.com/file/d/1xeUDVGWGUUv1-ccUMAZHJLej2C7aAFWY/view

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※賽博時期的愛情：日本「現代機器人之父」石黑浩，以及他創造的「最美麗的女人」
※谷歌重金戰略投資的這家AI研究院，研發黑猩猩機器人要上天！

TAG:新智元 |

重磅 經典教材 R.Sutton《增強學習導論》最新版

重磅經典教材 R.Sutton《增強學習導論》最新版