採用深度分析回歸模型進行基於內容的在線請願流行度預測
你和「懂AI」之間,只差了一篇論文
很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。
為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。
同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。
讀芯術讀者論文交流群,請加小編微信號:zhizhizhuji。等你。
這是讀芯術解讀的第128篇論文
ACL 2018 Short Papers
採用深度分析回歸模型進行基於內容的在線請願流行度預測
Content-based Popularity Prediction of Online Petitions Using a Deep Regression Model
墨爾本大學
The University of Melbourne
本文是澳大利亞墨爾本大學發表於ACL 2018的工作,文章提出一種基於CNN回歸和輔助有序回歸目標來建模網上請願的方法,利用了Bitvai和Cohn(2015)的CNN文本回歸模型來推斷深層的深層次潛在特徵,評估了一個輔助有序回歸目標的效果,其可以區分不同受歡迎程度的請願書,並藉助於基於文本的消息傳播分析工作手動設計了特徵,用於捕捉措辭對請願受歡迎程度的影響,並衡量深度模型自動推斷這些特徵的能力。
引言
請願書是由一群支持者共同簽署的向任何權威機構提出的正式變更請求或行動。一般來說,請願書的目標權力可以是政治性的,也可以是非政治性的。
已有的研究已經展示了其對政治系統的影響。以往對請願受歡迎程度建模的工作主要是根據最初的受歡迎程度軌跡預測受歡迎程度隨時間的增長。主要的相關工作有:Asher et al and Proskurnia et al將其建模為時間序列回歸任務,Elnoshokaty等分析了內容對請願成功的重要性,Proskurnia等也將網站首頁的作者匿名性和請願書作為附加因素,Huang等分析了請願平台上的權威用戶,並展示了他們對其他請願簽名者的影響。
本文的目的是僅根據請願書文本預測請願書在其生命周期結束時的受歡迎程度,採用的數據集是來自英美兩國政府官方網站的請願書(公民可以在這些網站上直接請求政府就某一問題採取行動)。
模型
該文受CNN在文本分類和文本回歸方面的研究成果啟發,提出了一種基於CNN來預測簽名數的模型(模型稱之為CNNregress),具體如下圖所示。
一般而言請願包括三個部分:(1)標題;(2)主要內容;(3)附加細節(僅適用於UK數據集)。該論文將這三部分連接形成一個單一文檔來代表請求,並以形式作為輸入進行訓練,其中ai代表第i個請願,yi代表第i個請願的簽名數。
通過預先訓練的GloVe embedding,在每個文檔中嵌入token,並在學習中更新。然後,應用多個寬度為1、2、3的具有ReLu激活的卷積過濾器來dense壓縮輸入文檔矩陣。然後通過一個帶有tanh激活函數的max-pooling層,最後通過指數線性單元激活的多層感知器來獲取最終的輸出。通過最小化對數空間的均方誤差來訓練模型。
輔助有序回歸任務
在回歸目標的基礎上,利用有序回歸任務對不同簽名規模的請願書進行了識別。這背後的直覺是,簽名上有預先確定的閾值會觸發不同的事件(UK:超過10K觸發政府響應,超過100K觸發議會辯論;US:超過100K觸發政府響應)。為此,設定的門限為。具體做法是將序數回歸問題轉化為一系列更簡單的二元分類子問題,為門限中的每個閾值構造二元分類目標。這類方法稱之為CNNregress ord。
手動設計特徵
論文手工設計了自定義特性,部分基於以前關於非請願文本的工作,主要特徵如下:
· 附加信息 (ADD):表明請願是否有附加信息
· 不確定(IND)和確定(DEF)條款率
· 第一人稱單數比率(FSP)、第一人稱複數比率(FPP)、第二人稱(SPP)比率、第三人稱單數 (TSP) 比率以及第三人稱複數(TPP)比率
· 基於通用查詢詞典的主觀詞(SUBJ)比率和積極詞與消極詞計數的差異 (POL) 比率
· 源自偏見詞典(Recasens et al., 2013)的偏見詞比率
· 句法特徵:名詞數量(NNC)、動詞數量(VBC)、連詞數量(ADC)和副詞數量
· 基於NLTK NER模型的命名實體數量(Bird et al., 2009)
· 新鮮度(FRE): 與以前所有請願書的餘弦相似度,用請願書開始日期的差異(以周為單位)進行逆加權
· 標題動作得分(ACT): 標題傳達請求動作的概率
· 政策類別流行度得分(CSC)
· 政治偏見與兩極分化
實驗
數據采自UK(https://petition.parliament.uk, 2015-2017保守黨)和US(https://petitions.whitehouse.gov/,2011-2014民主黨)政府網站。UK數據集有10950個請願,共計3100萬個簽名。US請願在除去少於150個簽名的請願數據後,有1023個,共計1200萬個簽名。我們根據80/10/10的細分將數據按時間順序劃分為訓練/開發/測試部分。這兩個數據集的分布如下圖所示。
在訓練集上採用Kruskal-Wallis test (at α = 0.05: Kruskal and Wallis (1952))來分析各特徵在有序組間(門限)變化的統計顯著性,結果如下圖所示。測試結果表明:檢驗結果在檢驗統計量H和對應的p值中,H值高表示兩組之間存在差異。
注意,這兩個數據集的序號組是不同的:使用與美國數據集相同的序號組()分析英國數據集,會得到與美國數據酶相似的非語法特徵的顯著性值稀疏集。
選擇的對比方案包括:
· Mean: 平均簽名數量
· LinearBoW: 使用TF-IDF加權詞袋特徵的線性回歸模型
· LinearGI: 基於一般查詢詞分布的線性回歸模型
· SVRBoW: 使用RBF內核和TF-IDF加權詞袋特徵的支持向量回歸(SVR)模型
· SVRfeat: 使用第三部分所提的手動設計特徵的SVR模型
· SVRBoW feat: 組合使用手動設計特徵和TF-IDF加權詞袋特徵的SVR模型
基於平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)進行比較,對比結果如下圖所示。可以看出,該文所提出的方法優於其他方法。
分類性能
在UK的三個類[0,10000),(10000,100000)和(100000,∞)和US的兩個分類(150,100000)和(100000,∞)上,確定預測和實際簽名數是否相同。利用SVM有序分類器構建了一個基線方案。
對於UK數據集,CNNregress ord 和CNNregress ord feat的宏觀平均F值為0.36,而其他方案的則為0.33。而對於US數據集,所有的方法的F值為0.49。
潛在的Vs手工設計的特性
該研究發現所提模型是能夠學習語法特性的潛在特性特徵(VBC NNC, ADC,RBC),FRE,NEC,IND和DEF,而不是其他特性——相比於自動從數據中提取信息,這些可以提供更深的信息,而不是對簽名預測任務沒有實用價值的信息。
從表2的分析中可以看出,一些在有序組間變化的特徵與深層潛特徵不是線性相關的。這些特性包括ADD、BIAS、CSC、PBIAS和L-R,後者是與策略相關的特性。這表明自定義特徵和隱藏特徵包含互補信號。
總之,通過UK和US數據集上的分析,本文提出的方法CNNregress ord feat在MAE方面相比於CNNregress減少了2.1%和3.2%,在SVR方面減少了7.2%和13.7%。有序分類性能不是很高,主要在於數據集的數據的嚴重傾斜。
總結
這篇論文對英美兩國政府的信訪受歡迎程度進行了預測。除了介紹一項新的任務和數據集外,其工作貢獻包括:(a)展示了輔助有序回歸目標的效用;(b)決定了哪些手工設計的特性是對所提深度學習模型的補充。未來工作的目標是研究與文本一起影響信訪受歡迎程度的其他因素,例如社交媒體活動、新聞報道和早期增長率。數據集採用英國和美國政府請願數據集(https://petition.parliament.uk和https://petitions.whitehouse.gov/,
論文源碼見http://github.com/shivashankarrs/Petitions)。
論文下載鏈接:
http://aclweb.org/anthology/P18-2030
※TF-Ranking:最先進的排序學習TensorFlow庫
※想提高預測精度?7步教你微調機器學習模型
TAG:讀芯術 |