Markov Processes

股票 04-10

Markov Property

具有馬爾科夫性質的狀態滿足下面公式：

根據公式也就是說給定當前狀態 St ,將來的狀態與t時刻之前的狀態已經沒有關係。

如下圖解釋:

St狀態能夠捕獲歷史狀態的相關信息

一噹噹前狀態 St 已知，歷史可以被忽視

State Transition Matrix

可以用下面的狀態轉移概率公式來描述馬爾科夫性：

其中的每行和為1.為什麼每行和為1。我們可以舉一個例子，比如我們擲骰子遊戲，當前的點數為1，那麼我們再一次擲骰子得到的點數的概率是多少呢？

對應於上面轉移概率來說，即使我們不知道下一個具體點數的概率，但是我們至少知道下一個點數是1，2，3，4，5，6中的某一點，那麼就會有：

Markov Process

馬爾科夫過程一個無記憶的隨機過程，是一些具有馬爾科夫性質的隨機狀態序列構成，可以用一個元組表示，其中S是有限數量的狀態集，P是狀態轉移概率矩陣。如下：

Student Markov Chain

學生馬爾科夫鏈這個例子基本貫穿了本講內容：

圖中，圓圈表示學生所處的狀態，方格Sleep是一個終止狀態，或者可以描述成自循環的狀態，也就是Sleep狀態的下一個狀態100%的幾率還是自己。箭頭表示狀態之間的轉移，箭頭上的數字表示當前轉移的概率。

舉例說明：當學生處在第一節課（Class1）時，他/她有50%的幾率會參加第2節課（Class2）；同時在也有50%的幾率不在認真聽課，進入到瀏覽facebook這個狀態中。

在瀏覽facebook這個狀態時，會有90%的幾率在下一時刻繼續瀏覽，也有10%的幾率返回到課堂內容上來。

當學生進入到第二節課（Class2）時，會有80%的幾率繼續參加第三節課（Class3），也有20%的幾率覺得課程較難而退出（Sleep）。

當學生處於第三節課這個狀態時，他有60%的幾率通過考試，繼而100%的退出該課程，也有40%的可能性需要到去圖書館之類尋找參考文獻，此後根據其對課堂內容的理解程度，又分別有20%、40%、40%的幾率返回值第一、二、三節課重新繼續學習。

Example: Student Markov Chain Episodes

一個可能的學生馬爾科夫鏈從狀態Class1開始，最終結束於Sleep，其間的過程根據狀態轉化圖可以有很多種可能性，這些都稱為Sample Episodes。

比如下面四個Episodes都是可能的：

C1 - C2 - C3 - Pass - Sleep

C1 - FB - FB - C1 - C2 - Sleep

C1 - C2 - C3 - Pub - C2 - C3 - Pass - Sleep

C1 - FB - FB - C1 - C2 - C3 - Pub - C1 - FB - FB - FB - C1 - C2 - C3 - Pub - C2 - Sleep

我們可以使用採樣技術來sample一些Episodes。

slides如下：

6Example: Student Markov Chain Transition Matrix

該學生馬爾科夫過程的狀態轉移矩陣如下圖：

參考：

David Silver深度強化學習課程

第2課 - 馬爾科夫決策過程葉強：《強化學習》第二講馬爾科夫決策過程

slides均來自David課堂slides

掃描上述二維碼加入私募工場，與三萬+私募機構並肩前行。

私募工場最新更新信息：《CTA操盤手計劃》、《指數增強投顧優選》。各業務詳細說明函請看後文。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 simuworks 的精彩文章: