當前位置:
首頁 > 最新 > 深度強化學習-Policy Gradient基本實現

深度強化學習-Policy Gradient基本實現

在之前的幾篇文章中,我們介紹了基於價值Value的強化學習演算法Deep Q Network。有關DQN演算法以及各種改進演算法的原理和實現,可以參考之前的文章:

基於值的強化學習演算法的基本思想是根據當前的狀態,計算採取每個動作的價值,然後根據價值貪心的選擇動作。如果我們省略中間的步驟,即直接根據當前的狀態來選擇動作,也就引出了強化學習中的另一種很重要的演算法,即策略梯度(Policy Gradient)。這篇文章,我們就來介紹這種演算法的最基礎的版本以及其簡單的實現。

本篇文章的大部分內容均學習自莫煩老師的強化學習課程,大家可以在b站上找到相關的視頻:https://www.bilibili.com/video/av16921335/#page=22


1、什麼是 Policy Gradients

其實在引言部分我們已經介紹了策略梯度的基本思想,就是直接根據狀態輸出動作或者動作的概率。那麼怎麼輸出呢,最簡單的就是使用神經網路啦!

我們使用神經網路輸入當前的狀態,網路就可以輸出我們在這個狀態下採取每個動作的概率,那麼網路應該如何訓練來實現最終的收斂呢?

我們之前在訓練神經網路時,使用最多的方法就是反向傳播演算法,我們需要一個誤差函數,通過梯度下降來使我們的損失最小。但對於強化學習來說,我們不知道動作的正確與否,只能通過獎勵值來判斷這個動作的相對好壞。基於上面的想法,我們有個非常簡單的想法:

如果一個動作得到的reward多,那麼我們就使其出現的概率增加,如果一個動作得到的reward少,我們就使其出現的概率減小。

根據這個思想,我們構造如下的損失函數:loss= -log(prob)*vt

我們簡單用白話介紹一下上面這個損失函數的合理性,那麼至於從數學角度上為什麼要使用上面的損失函數,可以參考:Why we consider log likelihood instead of Likelihood in Gaussian Distribution。

上式中log(prob)表示在狀態 s 對所選動作 a 的吃驚度, 如果概率越小, 反向的log(prob) 反而越大. 而vt代表的是當前狀態s下採取動作a所能得到的獎勵,這是當前的獎勵和未來獎勵的貼現值的求和。也就是說,我們的策略梯度演算法必須要完成一個完整的eposide才可以進行參數更新,而不是像值方法那樣,每一個(s,a,r,s")都可以進行參數更新。如果在prob很小的情況下, 得到了一個大的Reward, 也就是大的vt, 那麼-log(prob)*vt就更大, 表示更吃驚, (我選了一個不常選的動作, 卻發現原來它能得到了一個好的 reward, 那我就得對我這次的參數進行一個大幅修改)。

這就是 -log(prob)*vt的物理意義啦.Policy Gradient的核心思想是更新參數時有兩個考慮:如果這個回合選擇某一動作,下一回合選擇該動作的概率大一些,然後再看獎懲值,如果獎懲是正的,那麼會放大這個動作的概率,如果獎懲是負的,就會減小該動作的概率。

策略梯度的過程如下圖所示:

我們在介紹代碼實戰之前,最後在強調Policy Gradient的一些細節:

演算法輸出的是動作的概率,而不是Q值。

損失函數的形式為:loss= -log(prob)*vt

需要一次完整的episode才可以進行參數的更新


2、Policy Gradient演算法實現

我們通過Policy Gradient演算法來實現讓鐘擺倒立的過程。

本文的代碼地址在:https://github.com/princewen/tensorflow_practice/tree/master/Basic-Policy-Network

本文的代碼思路完全按照policy gradient的過程展開。

定義參數

首先,我們定義了一些模型的參數:

self.ep_obs,self.ep_as,self.ep_rs分別存儲了當前episode的狀態,動作和獎勵。

定義模型輸入

模型的輸入包括三部分,分別是觀察值,動作和獎勵值。

構建模型

我們的模型定義了兩層的神經網路,網路的輸入是每次的觀測值,而輸出是該狀態下採取每個動作的概率,這些概率在最後會經過一個softmax處理

而我們選擇AdamOptimizer優化器進行參數的更新:

動作選擇

我們這裡動作的選擇不再根據貪心的策略來選擇了,而是根據輸出動作概率的softmax值:

存儲經驗

之前說過,policy gradient是在一個完整的episode結束後才開始訓練的,因此,在一個episode結束前,我們要存儲這個episode所有的經驗,即狀態,動作和獎勵。

計算獎勵的貼現值

我們之前存儲的獎勵是當前狀態s採取動作a獲得的即時獎勵,而當前狀態s採取動作a所獲得的真實獎勵應該是即時獎勵加上未來直到episode結束的獎勵貼現和。

模型訓練

在定義好上面所有的部件之後,我們就可以編寫模型訓練函數了,這裡需要注意的是,我們餵給模型的並不是我們存儲的獎勵值,而是在經過上一步計算的獎勵貼現和。另外,我們需要在每一次訓練之後清空我們的經驗池。

好了,模型相關的代碼我們就介紹完了,如何調用這個模型的代碼相信大家一看便明白,我們就不再介紹啦。

有關強化學習中policy gradient的更多的改進我也會進一步學習和總結,希望大家持續關注!


參考資料

1 https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/4-4-gym/

2 https://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf

3 https://zhuanlan.zhihu.com/p/21725498

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 小小挖掘機 的精彩文章:

Pointer-network理論及tensorflow實戰

TAG:小小挖掘機 |