NOVA:通過主題建模中的命名實體推廣來提高主題質量
你和「懂AI」之間,只差了一篇論文
很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。
為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。
同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。
讀芯術讀者論文交流群,請加小編微信號:zhizhizhuji。等你。
這是讀芯術解讀的第131篇論文
ACL 2018 Short Papers
通過主題建模中的命名實體推廣來提高主題質量
Improving Topic Quality by Promoting Named Entities in Topic Modeling
比利時EURA NOVA
本文是比利時EURA NOVA發表於CVPR2018的工作,針對命名實體的表達能力及其對主題質量的影響問題,提出使用命名實體作為新聞文本的領域特定術語,採用一個新的用於潛在Dirichlet分布的加權模型。實驗結果表明,在主題描述中包含更多的命名實體,對主題的整體質量有積極影響,提高了主題的可解釋性、特異性和多樣性。
引言
新聞文本通常包含有關事件、個人和其他實體的信息。對新聞文檔的分析工作,包括識別隱藏特徵以對其進行分類或內容概括等。主題建模就是一種這樣的標準技術,而Latent Dirichlet Allocation(LDA)是最常用的演算法,它將文檔建模為主題分布,將主題建模為文字分布。一個好的主題模型的特徵在於它的連貫性:任何連貫的主題都應該包含屬於同一概念的相關詞。一個好的主題還必須足夠獨特,以包括特定領域的內容。對於新聞文本,特定領域內容可以由命名實體(NE)表示,描述事實、事件和參與新聞和討論的人員。它解釋了在主題建模過程中需要包括命名實體。
本文的主要貢獻是通過提升模型中命名實體的重要性,來增強LDA模型的主題質量。基本思想是調整主題模型,以在主題描述中包括更多領域特定術語(NE)。本文設計的模型是靈活的,用於適應LDA的不同變化。我們最終對LDA輸入採用term-weighting方法。結果表明:i)命名實體可以作為高質量主題描述的候選者,i i)基於pseudo詞頻的加權模型能夠在不影響LDA生成過程的前提下,提高總體主題質量,使其能夠適應其他的LDA變化。
模型
LDA模型因為偏愛選擇主題描述中高頻、通用詞的特點,被研究者們詬病。通過從語料庫中刪除領域特定詞,該問題得到了一定程度上的緩解象。另一方面,除了縮小語料庫,促進特定領域的重要單詞可能更有效,特別是如果這些單詞可以像命名實體那樣自動識別的話。本文討論Hoffman等人的LDA演算法的在線變分貝葉斯(Variational Bayes)版本。作為collapsed吉布斯抽樣(Gibbs sampling)的替代,將權重合併到LDA模型中。作者論證了優化目標僅僅依賴於文檔中術語的數量,因此文檔可以通過它們的TF值進行總結。我們提出的模型以TF分數作為初始項權重(非歸一化)。為了增加命名實體的權重,我們將pseudo-frequency添加到它的TF中,而不改變其他詞的權重。這加強了NE出現在主題描述中的機會,即使它最初在語料庫中不經常被提及。有多種增加權重的方法,例如,我們可以按相同的比例提升所有NE,或者針對語料庫中的每個文檔分別設置它們的權重。
獨立命名實體推廣( Independent Named Entity Promoting):NE獨立模型假設語料庫中的所有命名實體比它們的初始權重(TF)重要α倍,即它們可能不是語料庫中最重要的術語,但是它們的權重應該比現在高出α倍。因此,對於文檔項矩陣M的每列mw,我們應用標量乘法:
通過改變α,我們可以設置語料庫中命名實體的重要性,並影響主題建模的結果。該值不需要是整數,因為典型的LDA實現可以處理任何數字。後面我們提供了α參數的幾個測試值的結果,並討論了我們的發現結果。
文檔依賴命名實體推廣(Document Dependent Named Entity Promoting):雖然我們希望LDA生成的主題包括更多命名實體作為特定域的單詞,但我們可以假定,實際上,NE應該是每個文檔中最重要、即最頻繁的術語。為了相應地設置權重,計算每個文檔的最大術語頻率,並將其添加到每個文檔中的每個命名實體的權重中:
這種加權方案要求命名實體成為每個文檔中「最重」的術語。同時,我們不改變其他高頻項的權重,所以最終它們仍然有很高的概率成為首要項。
實驗分析
我們設計了一系列實驗來評估我們提出的模型:a)Baseline Unigram:基礎的一元文法模型(不涉及命名實體);b)Baseline NE:具有命名實體的語料庫上的基本模型(在所有測試中注入NE的策略是替換而不是補充)c)NE Independent:獨立的命名實體推廣模型;d)NE Document Dependent:文檔依賴命名實體推廣模型。我們使用下面給出的主題質量度量方法進行評估。
數據和預處理:我們的測試語料庫包括新聞相關的公共可用數據集:1)20 Newsgroups(http://qwone.com/~jason/20Newsgroups/):包含18846個文檔,其中包含討論新聞、人物、事件和其他實體的消息。2)Reuters-2013:從Financial News Dataset(https://github.com/philipperemy/financial-news-dataset)獲取的一組2013年的14595篇新聞文章。對於NE識別,我們使用了NeuroNER(https://github.com/Franck-Dernoncourt/NeuroNER),在CONLL2003數據集上進行訓練,並識別四種類型的NE:人員、位置、組織和其他。進一步的預處理包括用於主題建模的經典步驟。
主題連貫:術語「(topic coherence)主題連貫性」包括描述與人類可解釋性相關的主題質量的一組措施。最廣泛使用的度量是基於PMI(或NPMI,歸一化)和對數條件概率,這兩者都依賴於詞的共現。最近Roder等人的一項研究將所有已知的一致性度量放入單個框架,評估它們與人類評級的相關性,並基於滑動窗口上單詞向量的餘弦相似性,發現性能最好的度量—先前未知的Cv。
其中N是主題的數目,Wt是主題t中的前Nt術語集,向量定義為:
其基本測度是滑動窗口上概率為Psw的NPMI。帶有110個單詞的滑動窗口的Cv是本文使用的一致性度量。
通用性(Generality)措施:連貫性度量傾向於選擇使用普遍高頻術語的主題。因此,我們最終得到了容易理解但非常通用的主題。一個好的主題也應該足夠具體以區別不同文檔。此外,平均所有主題的連貫性可以為具有多個跨主題重複單詞的模型產生非常好的連貫性。為了覆蓋主題質量的這些方面,我們採用了另外兩個措施。
下表描述了使用N= 主題和度量中使用的前10個單詞運行實驗的結果。首先,我們可以觀察到一個共同的結果:NE Independent(x10)模型在所有測試中表現出最好的排他性和提升值,這是合乎邏輯的,因為這個模型強制了主題描述中pseudo-frequent詞的最大數量。然而,在所有的實驗中,相同的模型也顯示出最低的相干性。這證實了升降機的次要地位和排他性:模型的全面性能取決於所有三個措施的組合。從表中可以看出,對於20 Newsgroups,Baseline Unigram模型比Baseline NE具有更好的一致性。
下表展示了對Baseline Unigram生成的20 Newsgroups的各個主題的定性分析,以及它們在語義上與NE Document Dependent模型最接近的對應主題的定性分析。從表中可以看出,基線主題主要描述了「體育」、「空間」和「槍支控制」的抽象概念。從NE Document Dependent的主題中,我們得到了更具體的描述,從而提高了一致性(以及提升/排他性)。特別值得注意的是,組織的名稱(粗體)對於相應的主題至關重要,儘管是unigram,但是它們只出現在NE Document Dependent模型中,因為在測試語料庫中它們出現的較少。
總結
本文提出的模型能夠通過只修改LDA輸入中的TF分數,利用命名實體來改善主題質量。這使得它適用於依賴於相同輸入的任何基於LDA的模型。命名實體非常適合用作領域特定術語,並在新聞相關文本中產生高質量的主題。我們的下一步研究包括對不同類別的命名實體採用不同的權重進行實驗,並使用新的一致性度量方法,例如基於word2vec的度量等。
論文下載鏈接:
http://aclweb.org/anthology/P18-2040
※seq2seq強化學習中Human Bandit反饋的可靠性
※人工智慧+藥物研發:AI葯神真的來了嗎?
TAG:讀芯術 |