深度學習引入信號處理技術,輕鬆分析股票等各種序列數據
新智元推薦
作者:齊國君
編輯:克雷格
【新智元導讀】把深度學習的最新方法用來做股價預測可不可行?一個探討路徑之一是如何深入把經典的信號處理技術引入到深度學習技術中,用來分析各種序列數據(sequence data),比如股票價格、金融信號等,乃至更為一般的物理、經濟、社會等活動的動態信號,抽象出有價值的模式,進而對其進行預測和分析。
傅立葉變換能用來炒股發財?
事實上,幾年前就有公司或者基金把深度學習的最新方法用來做股價預測,用來在股市上一搏了。
比如就有國內的研究人員用LSTM這種遞歸神經網路來預測風雲莫測的中國股市 。
一些朋友也在私下裡告訴過筆者,某美國的交易機構就用LSTM來做自動化高頻交易,在大規模資金的幫助下,實現了日進斗金;當然,實際使用時要克服很多工程問題,比如要選取合適的輸入信號、實現和交易所的高速事實通訊等。這些都不在本文探討之類。
所以,想讀完本文就可以成為億萬富翁的朋友可以散了:)
我們這裡用炒股做個引子,真正想介紹的是如何深入把經典的信號處理技術引入到深度學習技術中,用來分析各種序列數據(sequence data),比如股票價格、金融信號等,乃至更為一般的物理、經濟、社會等活動的動態信號,抽象出有價值的模式,進而對其進行預測和分析。
如果大家對技術細節感興趣,可以參考我們在ICML和 KDD上發表的論文。(註:本文末尾)
長期還是短期投資?
我們以資本市場的投資為例,來引出為什麼要用傅里葉變換的方法對不同周期的價格信號進行分析。
所有人在進入股市前,都首先要做出一個根本的投資策略:究竟投資有潛力的股票、進而獲得長期回報,還是打打短線,賺一票就走路?顯然,對於不同的策略,用來預測的信號也是不一樣的。
對長期投資者來說,短期的價格波動不應該對其預測的長期股價產生太大影響,這類投資者更應該關注的是股價在更大周期上的波動;用更專業的術語來說就是低頻率、長周期的股價信號應該對預測長期股價更有價值。
對短期投資者、特別對高頻交易的投資者來說,他們更關心的是短期的價格波動,進而以小步快跑的方式獲得累積的收益。也就是說,這類打短線的投資者更對高頻地、短周期的股價波動敏感。
從狀態記憶(State Memory)到多頻率狀態記憶(State-Frequency Memory)
炒股的例子告訴我們,對特定的應用,不同頻率上的信號所起到的作用是不一樣的。這類問題在很多工程應用中都有所體現。
比如對特定物體進行跟蹤。作為一個經典的預測問題,物體跟蹤通過特定的觀察量(比如雷達、激光雷達等)對某個物體實際的位置進行持續的預測。這個時候,找到符合物體運動周期的特徵,並用這些特定頻率上的特徵對運動進行分析就非常重要。
同樣地,在分析、預測社會活動時,這種特定周期或頻率的特徵模式往往也是非常常見的。比如,在分析交通流量時,上下班周期、在一個星期內不同天的周期等,對交通流量的分析預測都會起到非常關鍵的作用。找到並針對性地量化分析這些周期對預測未來趨勢的影響,往往是分析序列數據的關鍵。
這些都啟發我們:在對信號進行預測時,需要對不同頻率的信號區別對待,針對特定的任務加以合理應用。
而經典的LSTM僅僅對時間信號的狀態向量做為記憶元(Memory Cell)進行建模,而忽略了另一個重要維度頻率。而我們將狀態(state)-頻率(frequency)聯合起來,形成一個狀態-頻率矩陣(State-Frequency Matrix,SFM) 而非僅僅用一個向量來表示狀態。
矩陣中的每個元素,用它的行來索引不同狀態:每個狀態在物理意義上可以理解成代表某個引發信號波動的因子。另一方面,用SFM的列來檢索不同的頻率,代表不同因子對不同頻率的影響。
有了SFM做為記憶元,我們就可以像一般LSTM里那樣定義輸入門、輸出門、遺忘門和控制信息的流向。特別地,如果我們對高頻、短周期信號(比如短期高頻的交易時)更關心,對應SFM矩陣的高頻部分的信息流就會被輸入門、輸出門選定出來對信號序列進行建模。反之,如果我們對低頻的、長周期信號(比如長期投資時)更有興趣,那麼我們就可以讓模型聚焦在用SFM中的低頻部分進行分析。
具體SFM矩陣中高、低頻分量的選擇,將由針對特定問題所定義的目標函數,通過訓練的方法來自動完成。比如,我們可以選擇優化高頻交易下的預測準確率或者收益,這時SFM中高頻部分會起到更大的作用,從而被選中。
自適應的定義頻率
另外一個重要的問題是,我們往往在事先無法確定那個頻率上的分量更重要,這是我們可以通過允許模型以自適應的方式來確定這些頻率。具體來說,我們可以把這些頻率分量ω定義為輸入、輸出的函數來機器學習的方法來確定合適的頻率。
同時意味著,隨時具體某個任務外界環境的變化,比如出現某個特定金融事件,使得市場發生較平常更激烈動蕩時,我們希望SFM的高頻對應著更高的頻率,來適應市場的變化。
這種自適應的調節分析頻率的能力,有利於我們對那些非平穩(non-stationary)的序列數據進行建模、分析。
下面圖中可以看到在對某個時間序列建模時,頻率自適應模型A-SFM是如何隨時間不斷地調整其覆蓋的頻率段的。
更多的結果和詳細的介紹,大家可以參看我們的論文。
Hao Hu§, Guo-Jun Qi*. State-Frequency Memory Recurrent Neural Networks, in Proceedings of International Conference on Machine Learning (ICML 2017), Sydney, Australia, August 6-11, 2017. [pdf]
Liheng Zhang§, Charu Aggarwal, Guo-Jun Qi*, Stock Price Prediction via Discovering Multi-Frequency Trading Patterns, in Proceedings of ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2017), Halifax, Nova Scotia, Canada, August 13-17, 2017 [pdf]
源代碼:
希望自己動手嘗試的朋友們,可以直接去github下載源碼了。
https://github.com/hhkunming/State-Frequency-Memory-Recurrent-Neural-Networks
https://github.com/z331565360/State-Frequency-Memory-stock-prediction
【2018新智元AI技術峰會重磅開啟,599元早鳥票搶票中!】
2017年,作為人工智慧領域最具影響力的產業服務平台——新智元成功舉辦了「新智元開源·生態技術峰會」和「2017AIWORLD 世界人工智慧大會」。憑藉超高活動人氣及行業影響力,獲得2017年度活動行「年度最具影響力主辦方」獎項。
其中「2017 AI WORLD 世界人工智慧大會」創人工智慧領域活動先河,參會人次超5000;開場視頻在騰訊視頻點播量超100萬;新華網圖文直播超1200萬。
2018年的3月29日,新智元再匯AI之力,共築產業躍遷之路。在北京舉辦2018年中國AI開年盛典——2018新智元AI技術峰會,本次峰會以「產業·躍遷」為主題,特邀諾貝爾獎評委、德國人工智慧研究中心創始人兼CEO Wolfgang Wahlster 親臨現場,與谷歌、微軟、亞馬遜、BAT、科大訊飛、京東和華為等企業重量級嘉賓,共同研討技術變革,助力領域融合發展。
新智元誠摯邀請關心人工智慧行業發展的各界人士 3 月 29 日親臨峰會現場,共同參與這一跨領域的思維碰撞。
※AAAI2018十大獎項出爐:華人第5次稱霸最佳論文,BAT入選26篇論文
※2018新智元極客邦合作建構百萬級AI產業生態,兩強攜手推動中國智能+
TAG:新智元 |