當前位置:
首頁 > 股票 > Markov Processes

Markov Processes

Markov Property

具有馬爾科夫性質的狀態滿足下面公式:

根據公式也就是說給定當前狀態 St ,將來的狀態與t時刻之前的狀態已經沒有關係。

如下圖解釋:

St狀態能夠捕獲歷史狀態的相關信息

一噹噹前狀態 St 已知,歷史可以被忽視

State Transition Matrix

可以用下面的狀態轉移概率公式來描述馬爾科夫性:

其中的每行和為1.為什麼每行和為1。我們可以舉一個例子,比如我們擲骰子遊戲,當前的點數為1,那麼我們再一次擲骰子得到的點數的概率是多少呢?

對應於上面轉移概率來說,即使我們不知道下一個具體點數的概率,但是我們至少知道下一個點數是1,2,3,4,5,6中的某一點,那麼就會有:

Markov Process

馬爾科夫過程一個無記憶的隨機過程,是一些具有馬爾科夫性質的隨機狀態序列構成,可以用一個元組表示,其中S是有限數量的狀態集,P是狀態轉移概率矩陣。如下:

Student Markov Chain

學生馬爾科夫鏈這個例子基本貫穿了本講內容:

圖中,圓圈表示學生所處的狀態,方格Sleep是一個終止狀態,或者可以描述成自循環的狀態,也就是Sleep狀態的下一個狀態100%的幾率還是自己。箭頭表示狀態之間的轉移,箭頭上的數字表示當前轉移的概率。

舉例說明:當學生處在第一節課(Class1)時,他/她有50%的幾率會參加第2節課(Class2);同時在也有50%的幾率不在認真聽課,進入到瀏覽facebook這個狀態中。

在瀏覽facebook這個狀態時,會有90%的幾率在下一時刻繼續瀏覽,也有10%的幾率返回到課堂內容上來。

當學生進入到第二節課(Class2)時,會有80%的幾率繼續參加第三節課(Class3),也有20%的幾率覺得課程較難而退出(Sleep)。

當學生處於第三節課這個狀態時,他有60%的幾率通過考試,繼而100%的退出該課程,也有40%的可能性需要到去圖書館之類尋找參考文獻,此後根據其對課堂內容的理解程度,又分別有20%、40%、40%的幾率返回值第一、二、三節課重新繼續學習。

Example: Student Markov Chain Episodes

一個可能的學生馬爾科夫鏈從狀態Class1開始,最終結束於Sleep,其間的過程根據狀態轉化圖可以有很多種可能性,這些都稱為Sample Episodes。

比如下面四個Episodes都是可能的:

C1 - C2 - C3 - Pass - Sleep

C1 - FB - FB - C1 - C2 - Sleep

C1 - C2 - C3 - Pub - C2 - C3 - Pass - Sleep

C1 - FB - FB - C1 - C2 - C3 - Pub - C1 - FB - FB - FB - C1 - C2 - C3 - Pub - C2 - Sleep

我們可以使用採樣技術來sample一些Episodes。

slides如下:

6Example: Student Markov Chain Transition Matrix

該學生馬爾科夫過程的狀態轉移矩陣如下圖:

參考:

David Silver深度強化學習課程

第2課 - 馬爾科夫決策過程葉強:《強化學習》第二講 馬爾科夫決策過程

slides均來自David課堂slides

掃描上述二維碼加入私募工場,與三萬+私募機構並肩前行。

私募工場最新更新信息:《CTA操盤手計劃》、《指數增強投顧優選》。各業務詳細說明函請看後文。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 simuworks 的精彩文章:

本屆博鰲以什麼姿態聚焦海南
洛克菲勒家族鐵血發家史:控制石油 就控制了所有國家

TAG:simuworks |