當前位置:
首頁 > 最新 > COLING 2018 基於目標依賴財經文檔表示學習的累積超額收益預測

COLING 2018 基於目標依賴財經文檔表示學習的累積超額收益預測

本?介紹哈爾濱?業?學社會計算與信息檢索研究中?( SCIR)錄?於COLING 2018的論?《 Learning Target-Specific Representations of Financial News Documents For Cumulative Abnormal Return Prediction》中的?作。本文提出了一種新的目標依賴的新聞文檔表示模型。該模型使用目標敏感新聞摘要的表示來衡量新聞中句子的重要性,從而選擇和組合最有意義的句子來進行建模。在累積超額收益上的預測結果表明,相比於摘要和標題,基於文檔表示的方法更有效。同時,相對於句子級的方法,我們的模型能更好地組合來自多個文檔源的信息。

論文作者:段俊文,張岳,丁效,Ching-Yun Chang,劉挺

1. 前言

研究表明,財經文本與股市波動存在相關性。自然語言處理(NLP)技術已被廣泛應用於從公司文件、金融新聞文章和社會媒體文本中提取信息,以更好地理解金融市場的運行規律。早期基於統計的方法依賴於人工定義的特徵來捕獲辭彙、情感和事件信息,這些信息容易受到特徵稀疏性的影響。最近的工作已經考慮對新聞標題和摘要進行表示學習,通過模型自動習得對預測有用的特徵。特別的,Ding et al. 表明,使用基於深度學習的事件表示方法相對於之前稀疏的事件表示的方法在預測效果上有很大的提升。

圖1 相同的事件對於不同目標表現出不同的影響

然而前人工作的局限是,這些方法只對新聞標題或者摘要進行建模。新聞標題或摘要通常是單個句子,能夠承載的信息有限,僅依靠標題或摘要往往很難作出準確的預測。例如針對新聞「Salesforce退出Twitter收購競標」,僅僅通過閱讀標題,我們很難理解為何Salesforce股票大漲而Twitter股票大跌。然而,在其正文中提到「Salesforce收購Twitter將同時接管Twitter的所有問題」。與新聞標題相比,完整的文檔可以包含更多的潛在有用的信息,但也比事件和句子的有著更多雜訊和不相關信息,因此建模難度更大。另外一個問題是,同樣的事件對於參與其中的公司有著不同的影響,如圖1所示,Salesforce從此事件中受益,而Twitter公司受損失。因此,在進行新聞建模時,我們需要對不同的目標進行區分,以更好地了解新聞事件對其的影響。

為了對與公司相關的多篇新聞文檔進行建模,我們提出了一種新的目標依賴的新聞文檔表示模型。該模型使用目標依賴的新聞摘要的表示來衡量新聞中句子的重要性,從而選擇和組合最有意義的句子來進行建模。在累積超額收益上的預測結果表明,相比於摘要和標題,基於文檔表示的方法更有效。同時,相對於句子級的方法,我們的模型能更好地組合來自多個文檔源的信息。

2. 問題定義2.1累計超額收益

形式上,公司j在交易日t的超額收益ARjt是指其實際收益Rjt相對於期望收益R?jt的差,即ARjt= Rjt- R?jt,其中期望收益R?jt可以通過市場指數近似。而累積超額收益(Cumulative Abnormal Return)則是將在一段時間窗口內的超額收益相加。本文中我們選取窗口(-1,0,1),表示為CAR3,其中0表示事件發生的日期。

2.2 累計超額收益預測

我們將累積超額收益預測當成一個二分類問題,目標是建模新聞對目標公司股票波動的影響。給定一個新聞文檔D和相關公司f,我們為D學習到一個依賴於f的向量表示df,之後我們將df作為習得的隱含特徵表示送入分類器中進行分類,最終獲得累積超額收益為正、負的概率。

3. 模型

學習目標敏感的文檔表示的挑戰是雙重的。一方面,我們必須將企業特定的信息融入文檔表示,以便使它們在目標之間有所不同。另一方面,我們必須忽略雜訊,識別最重要的的句子。為了實現這個目標,我們首先為摘要學習目標特定的表示,然後利用摘要來指導關鍵句子的選擇。我們提出的方法的體系結構在圖2中示出,它由三個關鍵模塊組成。在本節中,我們給出每個模塊的詳細信息。

3.1 目標依賴的摘要表示

作為第一步,我們通過將目標信息編碼成新聞文檔來提取目標相關的表示。我們使用雙向長短記憶網路作為基本模型。為了允許目標公司的信息影響語義表示,我們使用條件編碼(Conditional Encoding),使用關注對象et(c)的嵌入向量作為句子級雙向LSTM的初始狀態向量。我們對句子中每個詞的隱藏狀態進行平均,以獲得目標相關的新聞摘要表示va。

圖2 本文提出的模型

3.2 上下文敏感的句子表示

為了保持文檔的語義結構,並使句子的表示融合其上下文的信息,我們利用層次結構來編碼文檔中的句子。我們首先使用句子級LSTM將單詞編碼成固定維度的向量,然後將它們作為一個雙向的LSTM的輸入,對於每個句子si,前向和後向的隱含狀態平均得到hdi,從而得到每個句子上下文敏感的表示。

3.3 摘要指導句子組合

前文中我們提到,一些句子可以提供支持決策的背景信息,但由於太冗長而不能包含在摘要中。為了解決重要句子選擇的問題,我們使用目標依賴的摘要表示來指導句子的選擇。這裡我們使用注意機制也為正文中的句子賦權,使用注意機制的另一個好處是預測變得可解釋。

給定目標依賴的摘要的表示va以及上下文敏感的句子表示, 我們將va和hdi拼接,並送入公式1的神經網路中。通過公式2對句子的權重進行歸一化處理,通過公式3對正文中的句子進行加權得到了文檔的表示d。最終我們將va和d拼接作為文檔的最終表示。

4. 實驗

4.1 數據集

我們使用路透社2006年10月至2015年12月間的新聞文本,我們只保留在摘要中提及了具體公司的新聞。我們將數據集進一步劃分為訓練集,開發集和測試集。各個集合中的數據如表1所示。

表1 數據集中的正負例分布

4.2 評價指標

模型的性能由精確率-召回率曲線(AUC)下的面積來評價。準確度和召回率均在正類和負類上計算。該評價指標能夠通過改變預測置信閾值時提供了精度和召回之間的平衡。跟隨Chang et al. 的工作,我們還對具有|CAR3| > 2%的測試實例進行了評估,來確定模型在高超額收益股票上的表現。

4.3 實驗結果4.3.1 總體表現

表格2總結了不同模型在測試集合上的表現。我們的模型在測試數據集上正負類AUC均為0.65,超越所有的基線方法。跟隨Chang et al.,我們還比較了在具有較高累積超額收益子集上的表現。我們的模型在正負類AUC分別為0.75和0.73。簡單平均模式TD-AVG表現不及基於特定目標的摘要表示TGT-CTX-LSTM。這表明摘要在預測股票市場走勢中的有效性。當我們將加權組合方法TD-HAN代替簡單平均方法,模型取得了與TGT-CTX-LSTM相當的性能。這意味著,如果文檔級別的背景信息能夠得到有效建模,文檔級模型能夠超越基於標題或摘要的模型。

表2 在測試集上各個模型的表現

4.3.2 目標的影響

在表2中,我們還比較了有無目標信息的模型的性能。在沒有目標信息時,我們的模型在正負類中AUC值分別達到0.64和0.63,這可以與最好的基線相媲美。將目標信息編碼到文檔表示中並沒有給模型性能帶來特別顯著的改善。可能的原因是,我們的數據集中只有10.2%的新聞摘要提到一個以上的公司。

4.3.3 文檔數量的影響

如前所述,在特定時間窗口中可能有多個與公司相關聯的新聞文檔。我們的數據集中超過25%的實例有多篇新聞。更多的新聞可以提供更豐富的背景信息,但也可能帶來更多的雜訊。圖3(右)顯示了我們的模型和基線方法TGT-CTX-LSTM相對於新聞文檔數量的準確性。值得注意的是,我們的模型和TGT-CTX-LSTM使用相同的注意策略來組合來自多個文檔的信息。隨著文檔的數量增加,我們的方法的性能提高,顯示其能更好地利用非重疊信息源。我們的模型可以更好地捕獲來自多個文檔源的信息。

圖3 新聞數量與預測準確率的關係

5. 結論

我們提出了一種新的目標依賴的新聞文檔表示模型。該模型使用目標敏感新聞摘要的表示來衡量新聞中句子的重要性,從而選擇和組合最有意義的句子來進行建模。在累積超額收益上的預測結果表明,相比於摘要和標題,基於文檔表示的方法更有效。同時,相對於句子級的方法,我們的模型能更好地組合來自多個文檔源的信息。

本期責任編輯:張偉男

本期編輯: 賴勇魁

「哈工大SCIR」公眾號

主編:車萬翔

副主編: 張偉男,丁效

責任編輯: 張偉男,丁效,趙森棟,劉一佳

編輯: 李家琦,趙得志,趙懷鵬,吳洋,劉元興,蔡碧波,孫卓,賴勇魁

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 哈工大SCIR 的精彩文章:

ACL 2018使用知識蒸餾提高基於搜索的結構預測

TAG:哈工大SCIR |