資源 | 《深度強化學習》手稿開放了！

科技 10-20

機器之心專欄

作者：Yuxi Li

一年前，機器之心發布了加拿大阿爾伯塔大學計算機系博士 Yuxi Li 的深度強化學習綜述論文，該論文概述了在深度強化學習（Deep Reinforcement Learning）方面喜人的進展。而這本剛上線的《深度強化學習》手稿對前面的版本《深度強化學習綜述》做了大規模的改進；從一年多前的 70 頁擴充到現在的 150 頁。本文對此手稿進行了介紹。

《深度強化學習》希望幫助初學者了解深度強化學習，也希望為教授、研究人員、學生、工程師、管理人員、投資者等廣大讀者提供一份深度強化學習參考資料。

她在描繪深度強化學習領域大方向的同時兼顧了許多技術細節。她在歷史背景中討論最新進展。她努力回答了下面三個問題：1）為什麼用深度學習？2）最前沿的發展有哪些？3）有什麼問題及解決方案？手稿中難免有不足乃至錯誤之處，真誠歡迎寶貴建議和意見。

這個博客收集了很多深度強化學習的資料： https://medium.com/@yuxili/resources-for-deep-reinforcement-learning-a5fdf2dc730f.

《深度強化學習》討論了六個核心元素 (core elements): 值函數 (value function)、策略 (policy)、獎賞 (reward)、模型 (model)、探索與利用 (exploration vs. exploitation)、以及表徵 (representation);

六個重要機制 (important mechanisms)：注意力與存儲機制 (attention and memory)、無監督學習 (unsupervised learning)、層次強化學習 (hierarchical RL)、多智能體強化學習 (multi-agent RL)、關係強化學習 (relational RL)、和元學習 (learning to learn);

以及十二個應用場景 (applications)：遊戲 (games)、機器人學 (robotics)、自然語言處理 (natural language processing, NLP)、計算機視覺 (computer vision)、金融 (finance)、商務管理 (business management)、醫療 (healthcare)、教育 (education)、能源 (energy)、交通 (transportation)、計算機系統 (computer systems)、以及科學、工程和藝術 (science, engineering, and art).

深度強化學習最近取得了世人矚目的成績，比如，應用於雅達利遊戲 (Atari games) 上的 DQN 演算法吹響了這波深度強化學習前進的號角；在計算機圍棋 (AlphaGo/AlphaGo Zero) 和德州撲克 (DeepStack) 上面取得了人工智慧里程碑級別的成就。深度強化學習有很多新穎的演算法被研發出來，比如，DQN、 A3C、TRPO、PPO、DDPG、Trust-PCL、GPS、UNREAL, 等等。

深度強化學習也被應用於很多很廣的方向，比如，奪旗遊戲 (Capture the Flag)、刀塔 (Dota 2)、星際爭霸 (StarCraft II)、機器人學、動畫人物模擬、智能對話、神經元網路結構設計、機器學習自動化、數據中心降溫系統、推薦系統、數據擴充、模型壓縮、組合優化、程序合成、定理證明、醫學成像、音樂合成、化學逆合成，等等。

這個博客收集了很多強化學習的應用場景： https://medium.com/@yuxili/rl-applications-73ef685c07eb

什麼情況下強化學習會有幫助？答案是：如果一個問題可以被描述成或轉化成序貫決策 (sequential decision making) 問題，可以構造出強化學習需要用的狀態 (state)、動作 (action)、可能還有獎賞 (reward) 等元素的時候。有時候一個問題可以用強化學習解決，但這個問題從表面上看可能不像強化學習問題。籠統地說，如果一個問題中包含人工設計的某種「策略」，那麼強化學習就有可能發揮作用，自動化並且優化這些策略。創造性會在核心元素、重要機制、應用場景等方面進一步向前推動深度強化學習的發展。

深度強化學習雖然已經取得了很多傲人的成績，但是，她也有很多問題亟需解決，比如成績分配 (credit assignment), 稀疏獎賞 (sparse reward), 採樣效率 (sample efficiency), 不穩定性 (instability), 發散性 (divergence), 可解釋性 (interpretability), 安全性 (safety)，等等；甚至可複製性 (reproducibility) 仍然是一個問題。

《深度強化學習》提出了六個研究方向，同時作為挑戰和機遇。應該提到的是，在這些方向，已經有了一些進展，比如，Dopamine、TStarBots、 unsupervised video object segmentation for deep RL、generative query network、neural-symbolic learning, universal planning networks, causal InfoGAN, meta-gradient RL, 等等。(這些進展的參考資料請參閱英文原版，見文末。) 這些方向的發展，會大幅度促進強化學習乃至人工智慧的發展。

系統地比較深度強化學習演算法

「解決」多智能體問題

基於實體 (entities) 學習，而不只是基於原始數據學習

為強化學習設計最優的表徵形式

自動化強化學習 (AutoRL)

研發強化學習殺手級應用

希望強化學習可以與人工智慧深度結合，在端到端 (end-to-end) 的學習方式中加入更多智能去完成從原始輸入到決策的設計工作、加入知識、加入常識、以更高效、更容易理解的方式去學習、同時避免犯顯然的錯誤；而不是像以前深度學習那樣以黑盒子的方式學習。

深度學習和強化學習分別於 2013 年和 2017 年被《麻省理工學院科技評論》評選為十項突破性技術之一；她們會在通向強人工智慧的道路上發揮關鍵作用。David Silver 提出了一個假設：人工智慧=強化學習+深度學習。深度學習和強化學習都會進一步繁榮發展。深度學習正在經歷爆炸性的大發展。而現在正是培育、教育、引領強化學習市場的大好時機。

深度學習在這次第三波人工智慧的蓬勃發展中，會發揮越來越深遠的影響；我們也在深度學習的很多成就中看到了她的作用。強化學習提供更通用的學習和決策模式；她會深遠影響深度學習、機器學習、乃至人工智慧的進一步發展。

強化學習時代馬上就來。讓我們做好準備！

歡迎閱讀本文的英文版，Introducing Deep Reinforcement Learning, https://medium.com/@yuxili/deeprl-6c8c48b6489b; 裡面包含了大量的超鏈接。歡迎下載閱讀《深度強化學習》，Deep Reinforcement Learning, arXiv 地址：https://arxiv.org/abs/1810.06339

本文為機器之心專欄，

轉載請聯繫本公眾號獲得授權

。

?------------------------------------------------

加入機器之心（全職記者 / 實習生）：hr@jiqizhixin.com

投稿或尋求報道：

content

@jiqizhixin.com

廣告 & 商務合作：bd@jiqizhixin.com

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！