當前位置:
首頁 > 最新 > 機器學習預測金融市場難,我們能做什麼?

機器學習預測金融市場難,我們能做什麼?

本文探討的是:

1)金融市場為何如此難以預測?

2)在這樣的前提下,從投資量化決策的角度有什麼好的解決辦法?

指導 | PINTEC量化決策副總裁 賈宜宸

翻譯 | Jenna Y.

編輯 | 張弦

前段時間,一篇名為《金融模型之父的隕落》在金融業朋友圈刷屏,文中介紹了長期資本管理公司(LTCM)這家曾為全球最耀眼的對沖公司,從成立最初,走向輝煌,最終隕落的過程。其中一個重要轉折點就是,LTCM錯誤判斷了股買俄羅斯債券的政治風險,導致在1998年8月21日,「LTCM幾乎一天就毀掉兩年的心血」。

LTCM的夢幻團隊

金融市場為何如此難以預測?在這樣的前提下,從投資量化決策的角度有什麼好的解決辦法?品鈦研究院(ID:PINTECAcademy)找到一篇技術大神的文章,對前一個問題進行了詳細闡述,並就後一問題諮詢了量化決策專家。

Patel畢業後就職於微軟視覺工作室,之後又轉向金融領域,從事高頻交易,量化投資等工作。以下為正文(略有刪節):

金融市場是最早引入機器學習的領域之一。自上世紀80年代以來,人們就用機器學習來分析市場模式。但是,相比機器學習對Amazon Alexa, Google Assistant(編者註:分別為亞馬遜和谷歌推出的語音助手)和Google Photos的重要作用,其在預測股票市場似乎沒有太多建樹。

誠然,自然語言處理技術(NLP)的發展,使得基於文本分析的定量策略的有效性提高了,筆者認為,這也是深度學習模型帶給金融市場的僅有的好處。但即便是在這一技術的應用上,預測的可信度仍然很低。

這一切都指向了一個事實:金融市場根本無法預測。難以預測的原因有很多,在此筆者想對以下幾個主要原因著重分析以下:

1

數據分布在演變

數據分布的問題至關重要。

要將訓練好的模型應用於實際操作中,不僅需要確定測試集與訓練集數據分布情況相似,還必須保證未來的數據與訓練/驗證集的數據分布情況相符,但幾乎所有人都忽視了數據分布的演變問題。

我們將金融數據集和圖像分類數據集類比來理解。以CIFAR-10數據集為例,它包含了10個類,每個類有5000個訓練圖像和1000個測試圖像。我們希望訓練集中狗類圖像的像素權重分布與測試集中的分布狀況相似。這背後隱含的前提是,訓練集和測試集中的所有圖像都要包含狗

CIFAR-10數據集

但這一情況卻並不適用於金融數據集。在金融領域裡,未來的情況可能與現在所掌握的數據情況完全不同——這也是在現實生活中在金融領域應用機器學習演算法時會出現的普遍問題。

2

樣本量小

我們通常需要使用小型數據集來做預測,比如失業率和非農數據等。這些數據每個月只有一個數據點,歷史數據不足。最極端的例子莫過於金融危機——整個一段時間內只有一個數據點供我們使用

這使得想要應用機器自學方法變得非常困難。很多人最後採取的一種方法是將更新頻繁的數據與更新較不頻繁的數據結合起來。比如,將非農數據與每日股票回報率相結合,再把整合的數據集提供給模型。不過,這通常需要更多的測試以確保模型質量的可信度。

3

數據難量化

有一種觀點認為,金融的歷史和人類的歷史一樣長。但很遺憾,要把這些歷史轉化為可量化的數據,使得演算法能理解,仍然很困難

比如說,即便我們完全了解在1930年代的大蕭條中發生了什麼,也很難將其轉化為可以讓機器自動學習的數據形式。

4

與推薦系統的類比

機器學習的應用領域非常廣泛,筆者認為基於機器學習的推薦系統(如Netflix,YouTube的電影片推薦,亞馬遜的商品推薦等)與金融預測問題最為相似。

圖片來源:來自網路

把這二者進行比較,可以揭示一些潛在的問題:

兩者的數據中都有很多噪點。在這推薦系統和金融預測中,噪信比(Noise-to-signal ratio)都很高。金融時間序列的噪點高是因為影響價格的因素太多了。而推薦系統數據集的噪點則是因為用戶的瀏覽行為本身帶來的,比如一位用戶可以訪問亞馬遜某商品頁面,但絲毫不準備買其中任何東西——這種行為就會增加噪點。

兩者的數據集都存在周期性。比如亞馬遜顧客在節假日的購買模式(如產品銷量分布)就和全年其他時候都不同;金融數據也有其固有的周期性,最明顯的就是經濟周期。

兩者都必須整合不同類型的數據進行模型訓練。Youtube既提供離散數據,如「最近觀看的N個視頻列表」;又提供連續數據,如「最近一次視頻的觀看時長」。同樣的,一個金融數據集不僅要包含高頻交易價格,還要囊括低率統計數據。

品鈦研究院評述

誠然,金融時間序列是不完全信息博弈(partial information game)。這個「遊戲」人類尚且很難駕馭,我們不應指望機器和演算法能短期內做出完美預估。因為除了基本面、技術面因子能夠由市場取得, 政治因素、投資人恐慌或樂觀程度往往會造成模型難以評估的結果。

退一步說,即便模型能做出趨近於完美的預測, 由於執行上的效率性、費用等問題, 都有可能造成看似美好的方案實際上卻不可行——「模型是否算得准市場」與「如何做投資」是兩回事。

因此我們或許應該把機器學習演算法作為投資輔助, 而非將其視為一個能穩賺不賠的「神器」。

目前,通過品鈦機器學習模型能做到的是,通過基本面、技術面等市場交易數據,計算下一個期間段上漲的概率與區間, 並對既有演算法做出二度學習, 系統能自動在不同時期選用不同演算法,幫助量化決策團隊把該類資產的配置配高一些,PINTEC量化決策副總裁賈宜宸介紹。

但是,「坦白講,我不覺得有人可以避得過『黑天鵝』,」賈宜宸表示,「所以我們模型的重點是,怎樣在『黑天鵝』中生存。也就是說,如果同樣在下跌的時候,我跌得比較少,那之後翻本的機會就比較大。」

怎麼保證在大跌的情況下,跌的比較少?一個可能的答案是:靠投資時的風險控制

我們回到最初LTCM對俄羅斯債券違約判斷失誤的例子,因為模型算不到政治上的風險,所以對此的應對策略,只能是人為地一開始就把風險敞口放小,可能是在規則里加一些止損條件,或是在一些慢速模型中,讓債比維持一定的高度,以便對極端情況下的市場風險作出相應機制。

因為我們不知道黑天鵝什麼時候會再一次出現。

品鈦研究院

品鈦研究院是智能金融服務商PINTEC(品鈦)旗下研究機構,專註金融科技、數據科學、人工智慧、智能借貸、智能投顧、商業機構及金融機構的智能化轉型等領域研究。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

機器學習、深度學習、神經網路、深度神經網路之間有何區別?
聊聊機器學習中的那些樹

TAG:機器學習 |