Markov Processes
Markov Property
具有馬爾科夫性質的狀態滿足下面公式:
根據公式也就是說給定當前狀態 St ,將來的狀態與t時刻之前的狀態已經沒有關係。
如下圖解釋:
St狀態能夠捕獲歷史狀態的相關信息
一噹噹前狀態 St 已知,歷史可以被忽視
State Transition Matrix
可以用下面的狀態轉移概率公式來描述馬爾科夫性:
其中的每行和為1.為什麼每行和為1。我們可以舉一個例子,比如我們擲骰子遊戲,當前的點數為1,那麼我們再一次擲骰子得到的點數的概率是多少呢?
對應於上面轉移概率來說,即使我們不知道下一個具體點數的概率,但是我們至少知道下一個點數是1,2,3,4,5,6中的某一點,那麼就會有:
Markov Process
馬爾科夫過程一個無記憶的隨機過程,是一些具有馬爾科夫性質的隨機狀態序列構成,可以用一個元組表示,其中S是有限數量的狀態集,P是狀態轉移概率矩陣。如下:
Student Markov Chain
學生馬爾科夫鏈這個例子基本貫穿了本講內容:
圖中,圓圈表示學生所處的狀態,方格Sleep是一個終止狀態,或者可以描述成自循環的狀態,也就是Sleep狀態的下一個狀態100%的幾率還是自己。箭頭表示狀態之間的轉移,箭頭上的數字表示當前轉移的概率。
舉例說明:當學生處在第一節課(Class1)時,他/她有50%的幾率會參加第2節課(Class2);同時在也有50%的幾率不在認真聽課,進入到瀏覽facebook這個狀態中。
在瀏覽facebook這個狀態時,會有90%的幾率在下一時刻繼續瀏覽,也有10%的幾率返回到課堂內容上來。
當學生進入到第二節課(Class2)時,會有80%的幾率繼續參加第三節課(Class3),也有20%的幾率覺得課程較難而退出(Sleep)。
當學生處於第三節課這個狀態時,他有60%的幾率通過考試,繼而100%的退出該課程,也有40%的可能性需要到去圖書館之類尋找參考文獻,此後根據其對課堂內容的理解程度,又分別有20%、40%、40%的幾率返回值第一、二、三節課重新繼續學習。
Example: Student Markov Chain Episodes
一個可能的學生馬爾科夫鏈從狀態Class1開始,最終結束於Sleep,其間的過程根據狀態轉化圖可以有很多種可能性,這些都稱為Sample Episodes。
比如下面四個Episodes都是可能的:
C1 - C2 - C3 - Pass - Sleep
C1 - FB - FB - C1 - C2 - Sleep
C1 - C2 - C3 - Pub - C2 - C3 - Pass - Sleep
C1 - FB - FB - C1 - C2 - C3 - Pub - C1 - FB - FB - FB - C1 - C2 - C3 - Pub - C2 - Sleep
我們可以使用採樣技術來sample一些Episodes。
slides如下:
6Example: Student Markov Chain Transition Matrix
該學生馬爾科夫過程的狀態轉移矩陣如下圖:
參考:
David Silver深度強化學習課程
第2課 - 馬爾科夫決策過程葉強:《強化學習》第二講 馬爾科夫決策過程
slides均來自David課堂slides
掃描上述二維碼加入私募工場,與三萬+私募機構並肩前行。
私募工場最新更新信息:《CTA操盤手計劃》、《指數增強投顧優選》。各業務詳細說明函請看後文。
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
※本屆博鰲以什麼姿態聚焦海南
※洛克菲勒家族鐵血發家史:控制石油 就控制了所有國家
TAG:simuworks |