武漢大學、阿里巴巴:一種用於零樣本文檔過濾的深度相關性模型
你和「懂AI」之間,只差了一篇論文
號外!又一撥頂會論文乾貨來襲!
2018年6月9-10日,代表學術界和工業界的頂級交流盛會——由中國中文信息學會青年工作委員會和百度公司聯合舉辦的【「AIS2018(ACL、IJCAI、SIGIR)論文預講會」】在北京盛大舉行。兩天時間內,來自「情感分析」「推薦系統」「機器問答」「對話系統」等不同主題的頂級會議論文報告匯聚一堂,英雄相惜,華山論劍。
據芯君了解,本次預講會在學術圈的火爆程度完全超出了主辦方的想像,開放報名的短短几天就全面滿額了,以至於主辦方不得不設定條件篩選參會者。
讀芯君作為本次預講會的活動媒體,將全程跟隨大會,為大家全程紀錄活動中最前沿的觀點,最有價值的成果,並特邀預講會論文報告者聯合為讀者朋友們推出預講會系列組文,向你展示頂會最新論文成果。
這是讀芯術解讀的第45篇論文
作者:李晨亮,周偉,計峰,段譽,陳海清
ACL 2018
一種用於零樣本文檔過濾的深度相關性模型
A Deep Relevance Model for Zero-Shot Document Filtering
武漢大學、阿里巴巴集團
Wuhan University、Alibaba Group
【摘要】在大數據時代,能否在短時間內針對某些主題的文檔信息進行分析是非常重要的需求,而信息過濾是實現這一目標不可或缺的任務之一。本文中我們提出了一種用於零樣本文檔過濾的深度相關性模型——DAZER,結合預訓練的詞向量,DAZER在詞向量空間構建了文檔和類別的交互信息,通過門卷積網路等結構來提取、綜合相關性信號,並結合對抗學習技術進一步提升模型泛化能力。實驗結果表明,DAZER在零樣本文檔過濾任務中大大的優於其他技術方案。
1 引言
在互聯網以及大數據時代,有很多的場合都需要過濾不相關信息、提煉並分析符合某種需求的信息,例如突發事件的追蹤等等。而信息需求由於動態變化往往具有不可預見性,潛在的類別種類是無窮的,我們不可能為所有潛在的類別標註好訓練文檔。對於這種需要對模型訓練階段未見過的新類別進行文檔過濾,我們定義它為零樣本文檔過濾問題。
近期Dataless文本分類方法可以有效減少用於模型訓練的文檔標註的需求,它們用少部分種子詞表示該類別,在不需要任何文檔訓練數據的情況下完成文檔集的分類任務。但它們僅用於分類,無法直接用來做文檔過濾。
因此我們提出了針對零樣本文檔過濾問題的DAZER模型,我們同樣用少量種子詞來表示類別,通過在詞向量空間上構建類別與文檔的交互信息,加上基於類別的門機制來有效控制卷積網路的信息流動來提煉相關性信息,並通過對抗學習進一步提高模型的泛化能力。
如果把種子詞看作檢索語句,信息檢索模型也能用於該任務,然而信息檢索非常依賴於精確的關鍵詞匹配信號(Fang和Zhai, 2006; Wu 等,2007; Eickhoff 等, 2015; Guo 等, 2016a,b),我們認為在零樣本文檔過濾任務中,種子詞更有可能是語義性、概念性的,這和信息檢索任務中是不同的,所以信息檢索模型不能很好的解決該問題,實驗部分亦能看出這一點。據我們所知DAZER是第一個用於零樣本文檔過濾的深度學習模型,在兩個真實數據集(文本分類數據集20NG和電影評論數據集MovieReview)上都體現出了非常明顯的優勢。
2 模型
模型結構如圖1所示,包含兩個主要的部分:相關信號提取以及相關性信號綜合。
圖1:DAZER模型框架圖
2.1 相關信號提取
給定文檔,類別c的種子詞集合
,我們把每個單詞w映射為詞向量表達(詞向量是由外界大量數據集預訓練得來),然後用詞向量平均的方法將類別c映射到詞向量空間:。
2.1.1 基於交互的表達
由於詞向量蘊含了語意、句法等諸多信息(Mikolov等, 2013; Pennington等, 2014),我們認為類似於餘弦相似度這樣的數值信息太過於粗糙,損失了大量信息,所以我們用兩種元素級別的交互來表示交互信息,分別為元素減法:
以及元素相乘:
。為檢驗這兩類信息的有效性,我們進行了簡單的實驗來佐證,結果如表1、表2所示。最終我們拼接單詞w的詞向量以及兩種交互向量得到,對文檔d中每個單詞依次進行處理便得到了交互信息矩陣。
表1:驗證元素減法有效性的例子
表2:驗證元素乘法有效性的例子
2.1.2 卷積以及最大K池化
我們用1維的卷積來對上一步得到的交互矩陣進行線性變換:。在通過類別門機制(見下小節)後,我們運用最大K池化的方法,拼接每個卷積核里最大的前K個值形成一個向量:
。
2.1.3 類別門機制
考慮到對於不同的類別,各個卷積核的重要性可能是不一樣的,於是我們通過得到一個類別門向量,其維度等同於卷積核的個數,激活函數為sigmoid,該門向量因此可以視作卷積核的開關向量。在進行最大K池化之前我們將門向量與卷積後的矩陣進行元素相乘:。我們這裡運用的門卷積網路與 (Dauphin 等, 2017)提出的Gated Linear Units (GLU) 有些類似,與他們不同的是,我們這裡卷積和門的計算使用的是不同的輸入。
2.2相關性信號的綜合
對於最大K池化後得到的相關性信號,我們先用一層激活函數為tanh的全連接層將其化為隱相關性特徵;再通過一層全連接將特徵向量轉化為相關性得分。
3 模型的訓練
3.1對抗學習
為了使模型的相關性綜合模塊具備對未知類別的泛化能力,我們期望隱性特徵是類別無關的,然而事實可能並不如此,於是我們運用對抗學習。具體做法是在之上引入一個線性對抗分類器,該分類器的目的是正確的將分類,所以目標函數為:
我們在分類器與之間引入了梯度逆轉層GRL,GRL可視為一個偽函數,公式為:
其中控制了對抗學習的權重,對於DAZER模型,我們採用排序模型中常見的pairwsemargin loss來進行訓練,目標函數如下:
結合L2正則化、對抗學習、pairwisemargin loss,最終得到的目標函數為:
其中控制了L2正則項的權重。
4 實驗
在本節中,我們通過兩個真實數據集來評測DAZER的效果。
4.1 Baseline模型
我們運用傳統信息檢索模型:BM25(Robertson 和 Walker,1994),基於神經網路的檢索模型:DRMM(Guo 等, 2013),K-NRM (Xiong 等, 2017),DeepRank (Pang 等, 2017),深度語義匹配模型:DSSM (Huang 等, 2013),基於種子詞的支持向量機(SSVM)等模型進行對比實驗。(對於SSVM我們首先基於種子詞構建偽訓練樣本,然後訓練一個one-classSVM,最後再進行文檔過濾實驗)
4.2 數據集
20-Newsgroup:一個廣泛用於文本分類的數據集,它包含接近2萬個文檔,這些文檔來自20個類。我們實驗中運用的是bydate版本,一共包含18846篇文檔,訓練集測試集比例為6:4。
MovieReview:一個英文的電影評論數據集,包含5006篇文檔,每個文檔包含一個得分,根據得分我們將這些評論劃分為五類:非常負面、負面、中立、正面、非常正面,各包含167,1030,1786,1682,341篇評論,訓練集測試集比例為8:2。
我們運用在840萬詞下預訓練好的300維Glove詞向量,詞向量在實驗中不再更新(DAZER及其他Baseline均如此)。停用詞以及未出現在Glove中的詞均被除去,每一個單詞均轉化為小寫形式。
4.3 評價策略及指標
對於給定的待測試類別(訓練中不會出現),我們用訓練集中其他類的文檔來訓練模型,用測試集的所有文檔來做測試。對於待測試的未見類別,模型目的是讓屬於這個類別的文檔排名盡量靠前,於是我們運用常見的mean averageprecision (MAP)來進行評價。除SSVM和BM25外,每個模型隨機運行五次,取結果的平均值,同時對於所有的神經網路模型,我們隨機選取了訓練集中一個類別的數據作為驗證集,用來作為訓練過程中的earlystop信號。
4.4 種子詞的挑選
20NG數據集我們直接運用來自於(Song和 Roth, 2014)的種子詞。Movie Review數據集的種子詞選取我們按照(Chen 等, 2015)里的方法,藉助LDA來進行人工挑選,其種子詞如表3所示。20NG數據集中,每個類平均有5.2個種子詞,MovieReview數據集中,每個類則平均有4.6個種子詞。
表3:MovieReview數據集的種子詞
4.5 參數設置
對於DAZER,卷積核數目為50,寬度為5,最大K池化中的K為3,相關性綜合中的的維度為75,學習率為1e-5,batch大小為16,L2正則化權重為1e-4,對抗學習權重為0.1,優化器採用Adam。
4.6 結果對比
對於20NG數據集,我們創建了9個任務,對於Movie Review數據集我們把每個類別當作一次未見類來進行測試,最終實驗結果如表4所示。
表4:七個模型在零樣本文檔過濾任務中的MAP表現。每個任務中,最好和次好的結果分別用加粗和下劃線表示。表示該結果和最好的結果之間的顯著性差異在0.05的級別。Avg:所有任務的平均MAP值。
4.7 實驗結果分析
——DAZER效果明顯最好,所有任務下的平均MAP為0.671,在文本分類任務和情感分析任務中結果都非常穩定;
——第二好的模型是K-NRM,然而DAZER相比K-NRM提升約30.8%;
——DSSM作為語義匹配模型在情感分析任務上優於文本分類任務,說明情感分析更像是一個語義匹配任務;
——SSVM的結果在兩個任務中是均是最差的,說明對於有監督學習方法來說,高質量的標註數據非常重要,而用種子詞構建的偽訓練集包含了過多的噪音;
——BM25的表現不穩定,情感分析任務中它的效果明顯下降,這說明在情感分析任務中有多種方式表達情感,難以用少量的種子詞準確表達某一情感,這也證明了DAZER的優越性。
4.8 DAZER的分析
為了驗證每個模塊對DAZER模型的作用,我們在Movie Review數據集上進行了消蝕測試,結果如表5所示。
表5:DAZER中不同模塊的影響。最好的結果用加粗表示。表示沒有元素減法,表示沒有元素乘法,表示沒有基於類別的門機制,表示沒有對抗學習。可以看出每一個模塊都對於模型有重要的作用。
5 相關工作
5.1文檔過濾
對於給定的主題,區分相關和不相關的文檔即文檔過濾任務。基於分類和排序的方法都被提出過(Harman, 1994; Robertson 和 Soboroff, 2002;Soboroff 和 Robertson, 2003),早期的過濾系統主要用來協助文檔排序 (Mostafa等, 1997)。基於詞項的模式挖掘技術也廣泛的用在了文檔過濾任務上,(Nanas 等, 2010)運用一個基於網路的主題特徵表來挖掘詞項間的關聯,(Gao等, 2013, 2015) 通過隱式主題來挖掘頻繁詞項模式,進而來做文檔過濾,近期基於事件的微博過濾也用到了頻繁模式挖掘的方法(Proskurnia 等, 2017)。然而這些都是有監督學習的方法,需要大量的標註數據。近期一些工作在以實體為中心的方式下進行文檔過濾,這一任務是將文檔分配給在外部資料庫里定義好的實體。然而很多信息需求並不能表示為一個特定的實體,這些方法只適用於資料庫相關的任務,例如資料庫加速(Frank 等, 2012)。(Balog 和 Ramampiaro, 2013)測試了在過濾任務下基於分類和排序的方法的優劣,他們發現基於排序的方法更適合過濾任務。據此我們將零樣本文檔過濾任務定義為一個相關性排序任務。
5.2信息檢索
在相關性排序的任務框架下,信息檢索可以直接進行運用。傳統的信息檢索模型根據關鍵詞匹配現象來估計相關性,其中BM25(Robertson 和 Walker,1994)可以視作這一類型方法中最優的一個。近期詞向量的進展使得基於詞向量的神經相關性排序模型大量出現,K-NRM(Xiong等, 2017)和DRMM(Guo等, 2016a)都是基於詞向量間的餘弦相似度信號來進行相關性估計的神經網路模型。DeepRank(Pang等, 2017)首先基於關鍵詞匹配提取關鍵詞周圍的上下文,然後通過卷積得到相關性信號,最後用RNN用來綜合相關性信號。這些基於神經網路的方法較之傳統信息檢索,有不同程度的效果提升。
5.3深度語義匹配模型
衡量檢索語句和文檔之間的相關性也可以視作一個文本間的匹配任務。目前有許多深度匹配模型,例如DSSM(Huang 等, 2013),ARC-Ⅱ(Hu 等, 2014),MatchPyramid(Pand 等, 2016),Match-SRNN(Wan 等, 2016)。這些模型主要用來完成特定的語義匹配任務,例如同義句檢測任務等,這類任務中句子的結構常常需要考慮在內,而在零樣本文檔過濾中,種子詞並不包含句法結構。同時(Guo等, 2016a)指出語義匹配模型在基於關鍵詞的相關性估計任務上表現不佳。
6 結論
在本文中,我們提出了一種用於零樣本文檔過濾的深度相關性模型——DAZER,為了讓DAZER具備良好的泛化能力,我們運用了兩種詞向量空間上的交互信息、基於類別的門卷積網路以及對抗學習等技術。最終在兩種不同的任務(文本分類和情感分析)上均取得了最優的結果,驗證了模型的優越性。在未來我們考慮豐富DAZER的結構,使之能夠應用於少量樣本學習的場景中。
留言 點贊 發個朋友圈
我們一起探討AI落地的最後一公里
※這些AI學院都怎麼上課?了解真相後我驚呆了
※ACL2017 斯坦福:將方言多變性納入社會公平語言識別
TAG:讀芯術 |