ACL2017:Salience Rank:基於主題建模的高效關鍵短語抽取
你和「懂AI」之間,只差了一篇論文
很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。
為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。
同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。
這是讀芯術解讀的第12篇論文
ACL 2017 Short Papers
Salience Rank:基於主題建模的高效關鍵短語抽取
Salience Rank: Efficient Keyphrase Extraction with Topic Modeling
芝加哥大學
The University of Chicago
【摘要】Topical PageRank(TPR)使用由潛在狄利克雷分布(LDA)模型推斷出的隱含主題分布,對從文檔中提取的名詞短語進行排序。排序過程包括運行K次PageRank,其中k是LDA模型中使用的主題數。本文提出了一個改進的TPR方法,稱為Salience Rank。Salience Rank只需要運行一次PageRank,並能在基準數據集上提取出相當或更好的關鍵詞。除了抽取質量和效率的優勢之外,我們的方法能靈活抽取出平衡主題特異性和語料特異性的關鍵短語。
1 引言
自動關鍵短語提取指在文檔中找到一組詞語,提供文本內容的簡明摘要(Hasan and Ng, 2014)。在本文中,我們考慮了無監督的關鍵短語提取,其中不需要人類標記的文檔語料庫用於訓練分類器(Grineva et al.,2009; Pasquier,2010; Liu et al.,2009b; Zhao et al.,2011; Liu et al., 2009a)。這是在實際應用中經常出現的場景,因為人工標註既浪費時間又消耗資源。無監督的關鍵短語提取通常被稱為排序問題——首先,從文檔中提取候選片語,通常是通過詞性標籤識別的名詞短語; 然後對這些候選片語進行排序。通過將排名最高的關鍵短語與由人工標註的關鍵短語進行比較來評估無監督關鍵短語提取演算法的效果。
本文提出了Salience Rank,是Liu et al. (2010)提出的Topical PageRank演算法的一個改進。我們的方法與Sterckx et al. (2015)的Single Topical PageRank方法密切相關,並將其列為本文方法的一個特例。Salience Rank的優勢有兩個方面:
性能: 該演算法提取的優質關鍵短語與Topical PageRank提取的相比是基本相當的,有時甚至更好。Salience Rank比Topical PageRank更有效,因為它僅運行PageRank一次,而不是多次。
可配置性: 該演算法基於第3節中描述的「單詞的salience特性」的概念,可用於平衡提取的關鍵短語的主題特異性和語料庫特異性。根據使用情況,可以相應地調整Salience Rank演算法的輸出。
2 相關模型簡介
下面我們介紹一些符號,並討論一些與我們最相關的方法。
令
為所有在語料庫文檔中出現的詞語的集合。讓G =(W,E)表示一個字圖,其頂點表示詞,邊
表示文檔中單詞wi和wj之間的相關性(例如通過共現次數測量)頂點wi的出度由以下式子計算。
2.1 Topical PageRank
Topical PageRank(TPR)(Liu et al.,2010)的主要思想是通過在文檔語料庫中執行潛在狄利克雷分布(LDA)(Blei et al., 2003)來融入主題信息。TPR基於文檔內詞語共現構建一個詞圖G =(W, E)。它使用LDA來尋找文檔的潛在主題,根據每個潛在主題重新修正詞圖權重,並且為每個主題運行一次PageRank(Page et al.,1998)。
在LDA中,文檔d的每個詞w的生成過程是,首先通過從d的主題分布θd中抽取主題t∈T(其中T是K個主題的集合),然後從主題t的詞分布φt中抽樣出一個單詞。θd和φt分別從共軛Dirichlet的先驗α和β中得出。因此,給定文獻d和先驗α和β,單詞w的概率是:
運行LDA後,TPR將G的每個單詞wi∈W按以下得分進行排列:
對於t∈T,其中p(t | w)通過LDA得到。
TPR根據潛在主題為每個結點,即每個詞w∈W,分配一個特定主題的偏好值p(t | w)作為其跳轉概率。直觀地說,p(t | w)表示w對話題t的聚焦度。
接下來,TPR將分數(2)累積成關鍵短語得分。特別地,對於每個主題t,候選關鍵短語按短語中各詞得分的總和進行排序:
通過將主題特定關鍵短語分數Rt(phrase)與從LDA得到的概率p(t | d)相結合,我們可以計算所有K個主題的最終關鍵短語得分:
2.2 Single Topical PageRank
Single Topical PageRank(STPR)是最近由Sterckx et al. (2015)提出的。它的目的是減少TPR的運行複雜度,同時保持其預測性能。與Salience Rank類似,它僅運行PageRank一次。STPR基於「主題詞的重要性「TWI(w),個頂文檔d,對於每一個單詞w,TWI(w)由主題-詞的概率向量與文檔-主題概率向量
的餘弦相似度計算得出。STPR通過使用來替代
,運行PageRank為詞進行排序。
STPR可以看作是Salience Rank的一種特殊情況,在構建隨機游模型時考慮了主題特異性,但忽略了語料庫特異性。實際上,平衡這兩個概念是很重要的。在我們的實驗中將解釋為什麼Salience Rank優於STPR。
3 Salience Rank
為了實現性能與靈活性的雙重目標,Salience Rank(SR)演算法將LDA估計出得K個潛在主題組合成一個詞的度量標準,叫做word salience,並以其為每個wi∈W的偏好值。因此,SR僅需在詞圖G上執行一次PageRank,以便獲得每個文檔中單詞的排名。
3.1 單詞的salience特性
在下文中,我們提供了主題特異性和語料庫特異性的定量測量,並定義了word salience。
定義3.1 一個單詞w的主題特異性是:
詞w的主題特異性的定義等同於Chuang et al. (2012)關於詞w的獨特性的定義,同時相當於從邊際概率p(t)(每個由主題t隨機選擇詞的似然值),到條件概率p(t | w)(詞w由潛在主題t產生的似然值)的Kullback-Leibler(KL)分歧值。直觀地說,主題特異性測量單詞在不同主題之間的共享率:在主題之間共享的越少,其主題特異性TS(w)越高。
由於TS(w)是非負和無界的,我們可以按以下公式,根據經驗將其歸一化為[0, 1]:
接下來,除非另有明確說明,否則我們都使用歸一化的主題特異性的值。
定義3.2 詞w的語料庫特異性是:
詞w的語料庫特異性CS(w)可以通過計算感興趣語料庫中的單詞頻率來估計。最後,一個詞的salience被定義為其主題特異性和語料庫特異性的線性組合。
定義3.3 一個單詞w的salience是:
其中α∈[0,1]是權衡語料庫特異性與主題特異性的參數。
一方面,我們旨在提取與一個或多個主題相關的關鍵短語,另一方面,提取的關鍵短語作為一個整體,應該能很好地覆蓋文檔所有主題。根據下文的實驗可以看到,在這兩種競爭原則之間進行權衡通常是有用的。換句話說,有時具有高主題特異性的關鍵短語(即專門用於某些主題的短語)更合適,有時候具有高語料庫特異性的關鍵短語(即,整體上代表語料庫的短語)更合適。直觀地說,關鍵短語提取演算法有一個內部的「開關」,有利於調整提取的關鍵短語向特定主題傾斜的程度,反過來說,關鍵短語在不同主題之間泛化的程度。
需要強調的是,以上使用的主題特異性和語料庫特異性的量化措施的選擇只是許多可能性之一。例如,對於主題特異性,可以利用Sterckx et al. (2015)提出的主題詞重要性演算法或第2.1節中提到的其他幾種替代方案。對於語料庫特異性,可以考慮例如增強頻率(減少長文)和對數縮放頻率。
考慮到單詞的salience特性,我們修改(2)如下:
與TPR相比,SR的實質效率提升在於,(2)在獲得R(wi)之前需要進行K次 PageRank計算,而在(8)中僅用一次PageRank即可獲得R(wi)。
3.2 演算法描述
首先,SR使用LDA估計語料庫的潛在主題p(t)和概率p(t | w),用於計算每個單詞w的主題特異性和salience特性。
與TPR類似,SR在單詞共現圖G =(W,E)上運行。我們使用無向圖:當在文檔上滑動大小為s的窗口時,如果這兩個單詞出現在窗口中,則會添加兩個頂點之間的連接。我們觀察到,邊緣方向不會影響關鍵短語提取性能。Mihalcea and Tarau (2004)和Liu et al. (2010)也同樣注意到了這點。
然後,我們運行(8)中派生的PageRank的更新版本,並使用類似TPR的方法(4)計算候選關鍵短語的得分。為了公平比較,選擇具有模式(形容詞)*(名詞)+的名詞短語作為候選關鍵短語,其代表零個或多個形容詞,後跟一個或多個名詞的形式。Liu et al. (2010) 提出的模式是相同的。SR使用salience特性作為詞圖中的偏好值,將TPR中的K 次PageRank融合為一次。
4 結果
我們的實驗在兩個廣泛使用的關鍵短語提取文獻數據集上進行:500N-KPCrowd(Marujo et al.,2013)和Inspec(Hulth,2003)。500N-KPCrowd數據集由500個新聞文章組成,10個類別,每個類別中有50個文章,由20個Amazon Mechanical Turk工作人員人工標註了關鍵短語。Inspec數據集是2000年度計算機科學與信息技術雜誌論文摘要,由作者手動標註了關鍵短語。在Mihalcea和Tarau(2004)中描述的評估過程之後,我們僅使用不受控制的一組關鍵詞來進行分析。由於我們的方法是完全無監督的,我們結合了訓練、測試和驗證數據集。前50名和前10名關鍵短語分別用於500N-KPCrowd和Inspec數據集評估。
我們比較了Salience Rank(SR),Topical PageRank(TPR)和Single Topical PageRank(STPR)三種方法在500N-KPCrowd和Inspec的準確率、召回率和F值。結果總結在表1中。標題中給出了參數的詳細描述。SR在兩個數據集上都取得了最好的F值。在500N-KPCrowd數據集上,它與TPR相當,優於STPR;在Inspec數據集上均勝過TPR和STPR。源代碼可以在https://github.com/methanet/ saliencerank.git上獲得。
我們進一步嘗試改變用於在SR中擬合LDA模型的主題K的數量。表2顯示了隨著主題數量的變化,F值在500N-KPCrowd數據集上的變化。總體而言,主題大小的影響是比較細微的,K = 50是最優值。K對TPR的影響可參見Liu et al. (2010)。在我們的方法中,(8)依賴於salience特性,故而取決於K;在TPR中,不僅單個隨機遊走(2)取決於K,而關鍵短語排序的最終聚合也取決於K.
我們還嘗試改變SR的權衡參數α。使用500N-KPCrowd,表3說明不同的α可以對各種測試指標產生相當大的影響。為了補充表3中的定量結果,表4提出了一個具體的例子,表明變化α可導致排名最高的關鍵短語的排名變化。特別地,當α= 0時,SR提取出的關鍵短語的語料庫特異性高。「理論」和「公式」這些詞是科學論文中高度常用的詞,因此它們在SR提取出的排名較前的關鍵短語之中。另一方面,當α= 1時,這些關鍵短語則不在排名靠前的列表中。這個示例說明了在實踐中平衡主題和語料庫特異性的重要性:當將關鍵短語提供給外行人時,高語料庫特異性適合於傳達更多信息;當提供該地區的專家時,高主題特異性更適合於深入研究主題下的具體細節。
表1 500N-KPCrowd和Inspec演算法的比較。在兩個數據集上,TPR,STPR和SR都運行了50個LDA主題。在所有實驗中,我們在PageRank中使用了阻尼因子λ= 0.85,如原始PageRank演算法中所示,並且窗口大小s = 2以構成單詞圖。將窗口尺寸從2改為20不會對結果產生太大的影響,參見Liu et al. (2010)。當R(wi)的向量的l2範數變化小於10-6時,實現了PageRank的收斂。SR中的權衡參數α固定為0.4。F值顯示在最後一列。
表2 當使用前50個關鍵短語用於評估500N-KPCrowd數據集上的SR時,LDA主題數量對實驗的影響。F值顯示在最後一列。
表3 SR參數對500N-KPCrowd數據集上SR的影響。SR運行50個LDA主題,使用前50個關鍵短語進行評估。F值顯示在最後一列。
表4 在最小值和最大值為α的Inspec摘要上運行SR的示例。展示了前10名中的唯一短語。
5 結論
在本文中,我們提出了一種新的關鍵短語提取方法,稱為Salience Rank。它改進了Liu et al. (2010)的Topical PageRank演算法和Sterckx et al. (2015)的Single Topical PageRank演算法。這種新方法的主要優點有兩個方面:(i)在維持和提高關鍵短語提取質量的同時,它只運行PageRank一次,而不是在Topical PageRank中運行K次,因此可有效降低運行時間;(ii)通過用新提出的單詞salience特性構建基礎詞圖,允許用戶平衡提取關鍵短語的主題和語料庫特異性。
這三種方法僅依賴於輸入語料庫。如Medelyan et al. (2009), Grineva et al. (2009), Martinez-Romo et al. (2016)所示,它們可以受益於維基百科和WordNet等外部資源。
在關鍵短語提取文獻中,LDA是最常用的主題建模方法。其他方法,如概率潛在語義索引(Hofmann, 1999),非負矩陣因子分解(Sra and Inderjit, 2006)也是可行的替代方案。然而,一般來說,這些替代方法的關鍵短語提取質量是否得到改善,這是很難說的。我們猜測其強烈依賴於領域數據集,並且需要根據其他實際考慮慎重選擇。
我們通過實驗來確定權衡參數α,以便與其他方法進行直接比較。實際上,人們應該搜索α的最優值來完成任務。另外一個開放性問題是,如何理論上量化α與各種績效指標,如F值之間的關係。
論文下載鏈接:
http://www.aclweb.org/anthology/P/P17/P17-2084.pdf
留言 點贊 發個朋友圈
我們一起探討AI落地的最後一公里
※又一個智能駕駛公司融資9000萬美元!
※ACL2017 艾傑大學:特定領域的文本問題自動生成
TAG:讀芯術 |