如何開啟深度強化學習的大門?
什麼是深度強化學習?
深度強化學習(Deep Reinforcement Learning)是將深度學習與強化學習結合起來從而實現從 Perception 感知到 Action 動作的端對端學習的一種全新的演算法。舉例來理解,就是和人類一樣,輸入感知信息比如視覺,然後通過深度神經網路,直接輸出動作,中間沒有 hand-crafted 工作。
整個過程,就是一個連續決策的過程,其特點是不給任何數據做標註,僅僅提供一個回報函數,這個回報函數決定當前狀態得到什麼樣的結果(比如「好」還是「壞」),強化學習最終目的是讓決策過程中整體的回報函數期望最優,深度增強學習具備使機器人實現完全自主的學習一種甚至多種技能的潛力。
學習深度強化學習的預備條件
雖然說,深度強化學習可以從零開始,但是畢竟這還是深度學習中的最前沿的演算法,為了更好的理解,大家還是要具備一些基本基礎:
一定的數學基礎:線性代數基礎和概率論基礎;
一定的編程基礎:(Python 編程基礎,後面的代碼實現可以基於 Tensorflow 實現)。
What next?
由於深度強化學習的樣本是一個時間序列,要將增強學習的問題模型化,就必須掌握 MDP(Markov Decision Process)馬爾科夫決策過程。
在引出了 MDP 之後,由於每一個時刻的狀態是確定的,我們可以用 Value Function 價值函數來描述這個狀態的價值,從而確定我們的決策方式。
因為需要估算 Value Function,找出最優決策,引入 Bellman 方程是最好的辦法。
還有 Value Iteration (價值迭代)、Q Learning 等學習的內容,都需要完成學習。
那麼有沒有最優的解決辦法?
斯達克學院(StuQ)攜手AI 教研室(AI_classroom)共同為大家打造一系列深度強化學習公開課,第一講內容我們邀請到香港理工大學計算機系博士—Traffas為大家進行分享,我們會用一個小時的時間來帶領大家理解什麼是深度強化學習,培養解決大家的解決問題思路,知道什麼問題需要強化學習的演算法求解,透徹細緻的講解 Q 演算法的機制,具體可參考海報。
報名方式
掃碼添加小助手,獲取進群方式。
點擊展開全文
※直播進行中!全球運維技術大會智能化運維專題免費觀看!
※程序員應該怎麼開啟器機學習之路呢?
※9月沙龍:探秘AWS物聯網平台及邊緣計算
※微服務架構中 API 的開發與治理
TAG:InfoQ |