當前位置:
首頁 > 知識 > 系列叢書最新成員:140頁《深度強化學習入門》發布

系列叢書最新成員:140頁《深度強化學習入門》發布

作者:Vincent Francois-Lavet等來源:arxiv,機器之心等

深度強化學習已經為圍棋、視頻遊戲和機器人等領域帶來了變革式的發展,成為了人工智慧領域的一大主流研究方向。近日,麥吉爾大學、谷歌大腦和 Facebook 的多位研究者在 arXiv 發布了 140 頁的《深度強化學習入門》文稿,對深度強化學習的當前發展和未來趨勢進行了系統性的總結和介紹。本書是伯克利知名機器學習專家 Michael Jordan 教授主編的「機器學習基礎與趨勢」系列叢書中最新加入的一本。小編摘取翻譯了其中部分內容以呈現本書的結構脈絡,更多內容請查閱原文。

本書地址:https://arxiv.org/abs/1811.12560v2

叢書地址:https://www.nowpublishers.com/MAL

1 引言

1.1 動機

機器學習領域的一大核心主題是序列決策。該任務是在不確定的環境中根據經驗決定所要執行的動作序列。序列決策任務涵蓋種類廣泛的潛在應用,有望對很多領域產生影響,比如機器人、醫療保健、智能電網、金融、自動駕駛汽車等等。

受行為心理學的啟發(如 Sutton, 1984),研究者為這一問題提出了一種形式框架,即強化學習(RL)。其主要思想是人工智慧體(agent)可以通過與其環境(environment)進行交互來學習,這類似於生物智能體。使用收集到的經歷(experience),人工智慧體可以根據某種形式的累積獎勵(reward)來優化某些目標(objective)。原則上而言,這種方法可應用於任何類型的依賴於過去經歷的序列決策問題。對於這樣的任務,環境可能是隨機的;智能體可能僅能觀察有關當前狀態的部分信息;觀察結果可能是高維的(比如幀和時間序列);智能體可能會自由地在環境中收集經歷;或者相反,數據可能會有所限制(比如,沒有準確的模擬器或數據有限)。

過去幾年來,由於在解決高難度序列決策問題上所取得的成功,強化學習越來越流行。其中多項成果可歸功於強化學習與深度學習技術(LeCun et al., 2015; Schmidhuber, 2015; Goodfellow et al., 2016)的組合。這一組合也被稱為「深度強化學習」,在具有高維狀態空間的問題中最有用。之前的強化學習方法在特徵選擇上存在一個困難的設計問題(Munos and Moore, 2002; Bellemare et al., 2013)。但是,由於深度強化學習能夠從數據中學到不同層面的抽象,因此其也已經在具有更少先驗知識的複雜任務中取得了成功。比如,深度強化學習智能體可以成功學習由成千上萬像素構成的視覺感官信號輸入(Mnih et al., 2015)。這使得其有可能模擬人類解決問題的某些能力,即使是在高維空間也可以——這在幾年前還是難以想像的。

深度強化學習在遊戲領域有一些非常突出的成果,包括使用像素輸入在 Atari 遊戲上達到了超越人類玩家的水平(Mnih et al., 2015)、掌握了圍棋(Silver et al., 2016a)、在撲克遊戲上擊敗了頂級職業玩家(Brown and Sandholm, 2017; Morav?ik et al., 2017)。深度強化學習也有應用於現實世界應用的潛力,比如機器人(Levine et al., 2016; Gandhi et al., 2017; Pinto et al., 2017)、自動駕駛汽車(You et al., 2017)、金融(Deng et al., 2017)和智能電網(Fran?ois-Lavet, 2017)。儘管如此,應用深度強化學習演算法還面臨著一些難題。其中,有效地探索環境以及在稍有不同的環境中泛化出優良行為的能力還不能輕鬆地獲得。因此,根據各種不同的序列決策任務設定,研究者們已經為深度強化學習框架提出了很多演算法。

1.2 大綱

這份「深度強化學習入門」的目標是指導讀者有效地使用和理解核心的方法,以及提供更深度閱讀的索引。在讀完這份介紹之後,讀者應當能夠理解不同的重點深度強化學習方法和演算法,並且應該能夠應用它們。讀者也應該能收穫足夠的背景知識,以便進一步研讀科研文獻或從事深度強化學習研究。

第二章將介紹機器學習領域和深度學習方法。目標是提供一個一般的技術背景以及簡要解釋深度學習在更廣泛的機器學習領域中的位置。我們假設讀者已經了解了基本的監督學習和無監督學習概念;但我們還是會簡要回顧一下這些要點。

第三章將介紹一般的強化學習框架以及馬爾可夫決策過程(MDP)的情況。我們將在這樣的背景中介紹可用於訓練深度強化學習智能體的不同方法。一方面,學習一個價值函數(第四章)和/或策略的直接表徵(第五章)屬於所謂的「無模型方法」。另一方面,可以使用學習到的環境模型的規劃演算法屬於所謂的「基於模型的方法」(第六章)。

第七章將專門介紹強化學習的「泛化」概念。我們將會討論基於模型方法和無模型方法中不同元素的重要性:(1)特徵選取,(2)函數近似方法選擇,(3)修改目標函數和(4)分層學習。在第八章,我們將給出在在線環境中使用強化學習時所面臨的主要難題。我們將重點討論探索-利用困境和重放記憶的使用。

第九章將概述不同的用於評估強化學習演算法的已有基準。此外,我們還會提供一組最佳實踐,以確保在不同基準上所得結果的一致性和可再現性。

第十章會討論比 MDP 更一般的設定:(1)部分可觀察馬爾可夫決策過程(POMDP),(2)MDP 的分布(而不是給定的 MDP)與遷移學習的概念,(3)無明確獎勵函數的學習,(4)多智能體系統。我們會描述如何在這些設定中使用深度強化學習。

第十一章會從更廣泛的視角介紹深度強化學習。其中包括討論深度強化學習在不同領域的應用以及已經取得的成功和仍待解決的挑戰(比如機器人、自動駕駛汽車、智能電網、醫療保健等)。我們還會簡要介紹深度強化學習與神經科學之間的關係。

最後,我們將在第十二章中進行總結,並展望深度強化學習技術的未來發展、未來應用以及深度強化學習和人工智慧的社會影響。

深度強化學習入門(An Introduction to Deep Reinforcement Learning)

深度強化學習是強化學習(RL)和深度學習的組合。這一研究領域已經有能力解決多種之前超出了機器能力的複雜決策任務。因此,深度強化學習在醫療保健、機器人、智能電網、金融等很多領域都催生出了很多新應用。這份文稿將對深度強化學習模型、演算法和技術進行介紹,其中會重點介紹與泛化相關的方面以及深度強化學習可被用於實際應用的方式。我們假設讀者已經熟悉基本的機器學習概念。

圖 3.1:強化學習中智能體與環境的交互

圖 3.3:強化學習不同方法的一般模式。直接方法是使用價值函數或策略的表徵來在環境中活動。間接方法是使用環境的模型。

圖 3.4:深度強化學習方法的一般模式

圖 4.1:DQN 演算法圖示

圖 6.1:MCTS 演算法執行蒙特卡洛模擬以及通過更新不同節點的統計數據來構建樹的示意圖。基於從當前節點 s_t 收集的統計數據,MCTS 演算法會選擇一個要在實際環境中執行的動作。

圖 6.2:可能的強化學習演算法空間的維恩圖

圖 9.2:OpenAI Gym 提供的 MuJoCo 運動基準環境的截圖

11 剖析深度強化學習

這一章首先將介紹深度強化學習的主要成功之處。然後我們會描述在解決範圍更大的真實世界問題時所面臨的主要難題。最後,我們會討論深度強化學習與神經科學的一些相似之處。

11.1 深度強化學習的成功

深度強化學習技術已經展現出了能解決之前無法解決的多種問題的能力。下面是一些廣為人知的成就:

在西洋雙陸棋遊戲上擊敗之前的計算機程序(Tesauro, 1995)

在根據像素輸入玩 Atari 遊戲方面達到超越人類的水平(Mnih et al., 2015)

掌握圍棋(Silver et al., 2016a)

在一對一無限制德州撲克遊戲中擊敗職業撲克玩家:Libratus(Brown and Sandholm, 2017)和 Deepstack(Morav?ik et al., 2017)

這些在常見遊戲中取得的成就是很重要的,因為它們展現了深度強化學習在需要處理高維輸入的各種複雜和多樣的任務中的潛力。深度強化學習已經展現出了很多真實世界應用潛力,比如機器人(Kalashnikov et al., 20180、自動駕駛汽車(You et al., 2017)、金融(Deng et al., 2017)、智能電網(Fran?ois-Lavet et al., 2016b)、診斷系統(Fazel-Zarandi et al., 2017)。事實上,深度強化學習系統已經被用在了生產環境中。比如,Gauci et al. (2018) 描述了 Facebook 使用深度強化學習的方式,比如用於推送通知和使用智能預取的更快視頻載入。

強化學習也可用於人們或許認為僅使用監督學習也足以完成的領域,比如序列預測(Ranzato et al., 2015; Bahdanau et al., 2016)。為監督學習任務設計合適的神經架構也被視為一類強化學習問題(Zoph and Le, 2016)。注意,這些類型的任務也可使用進化策略解決(Miikkulainen et al., 2017; Real et al., 2017)。

最後還要指出,深度強化學習也可用於計算機科學領域內一些經典的基礎演算法問題,比如旅行商問題(Bello et al., 2016)。這是一個 NP 完全問題,能使用深度強化學習解決它的可能性表明了深度強化學習對其它一些 NP 完全問題(條件是可以利用這些問題的結構)的潛在影響

11.2 將強化學習應用於真實世界問題所面臨的挑戰

原則上講,這份深度強化學習入門中討論的演算法可被用於解決許多不同類型的真實世界問題。在實踐中,即使是在任務定義良好的情況下(有明確的獎勵函數),也仍然存在一個基本難題:由於安全、成本或時間限制,在實際環境中通常不可能讓智能體自由和充分地交互。我們可將真實世界應用分為兩大主要類別:

智能體也許不能與真實環境交互,而只能與真實環境的一個不準確的模擬進行交互。機器人領域就有這個情況(Zhu et al., 2016; Gu et al., 2017a)。當先在模擬中學習時,與真實世界數據域的差異被稱為「reality gap」(參與 Jakobi et al., 1995)。

可能無法再獲取新的觀察(比如批設定)。這類情況包括醫療試驗、依賴於天氣情況或交易市場(比如能源市場或股票市場)的任務。

注意,這兩種情況也有可能組合到一起,此時環境的動態也許可以被模擬,但卻依賴於一個有外在原因的時間序列,而這個序列只能通過有限的數據獲取(Fran?ois-Lavet et al., 2016b)。

為了處理這些限制,存在幾個不同的重要因素:

人們可以努力開發儘可能準確的模擬器。

人們可以設計泛化能力更好的學習演算法,和/或使用遷移學習方法。

12 總結

序列決策仍然是一個活躍的研究領域,有很多理論的、方法的和試驗的難題有待解決。深度學習領域的重要進展已經為強化學習和深度學習結合的領域帶來了很多新的發展道路。尤其是深度學習帶來的重要的泛化能力為處理大規模的高維狀態和/或動作空間帶來了新的可能性。有足夠的理由相信這種發展在未來幾年裡還會繼續,帶來更高效的演算法和很多新應用。

12.1 深度強化學習的未來發展

我們在這份手稿中強調,深度強化學習領域最核心的問題之一是泛化的概念。為此,深度強化學習領域的新進展勢必推進當前這一趨勢:使演算法可微分,從而可將它們嵌入到特定的神經網路形式中,進而實現端到端的訓練。這能為演算法帶來更豐富和更智能的結構,從而更適用於在更抽象層面上的推理,這能讓智能演算法實現應用的範圍在當前基礎上實現進一步提升。智能的架構也可用於分層學習,其中時間抽象領域還需要更多進展。

可以預見,我們將會看到深度強化學習演算法進入元學習和終身學習的方向,從而可將之前的知識(比如以預訓練網路的形式)嵌入進來,以提升性能和改善訓練時間。另一個關鍵挑戰是提升模擬和真實情況之間的當前的遷移學習能力。這讓智能體可以在模擬中學習解決複雜的決策問題(並有可能以一種靈活的方式收集樣本),然後在真實世界環境中使用所學到的技能,在機器人和自動駕駛汽車等領域得到應用。

最後,我們預期深度強化學習技術將會發展出更好的好奇心驅動的能力,從而讓它們能在環境中自行發現知識。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI講堂 的精彩文章:

NLP新基準!谷歌重磅發布開放問答數據集,30萬自然提問+人工注釋答案

TAG:AI講堂 |