伊利諾伊大學:外部知識在命名實體識別任務中的重要性研究
你和「懂AI」之間,只差了一篇論文
很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。
為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。
同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。
讀芯術讀者論文交流群,請加小編微信號:zhizhizhuji。等你。
這是讀芯術解讀的第130篇論文
ACL 2018 Short Papers
外部知識在命名實體識別任務中的重要性研究
A Study of the Importance of External Knowledge in the Named Entity Recognition Task
伊利諾伊大學
University of Illinois
本文是伊利諾伊大學發表於 ACL 2018 的工作,討論了外部知識對於執行命名實體識別(NER)任務的重要性,提出了一個新穎的模塊化框架,根據知識傳遞的深度將知識分成四類。每個類別由一組從不同的信息源自動生成的特徵組成,如知識庫、名稱列表或文檔特定的語義注釋。此外,我們展示當逐步增加更深的知識時對性能的影響,並討論了其有效性及效率間的關係。
引言
命名實體識別(Named Entity Recognition,NER)的任務是檢測文本中的命名實體引用,並給它們分配相應的類型。它是自然語言理解任務的重要組成部分,如命名實體消歧(NED)、問答等。
以前的工作認為NER是知識密集型任務,並且使用具有突出結果的先驗知識。在這項工作中,我們試圖量化外部知識對NER性能影響到了何種程度。儘管最近在端到端神經網路方法上已經取得了卓越的成績,但是本文的目的是提供透明度和用戶可理解的可解釋性。
我們通過設計一個簡單的模塊化框架來開發不同的外部知識源。根據信息源所傳達的知識深度,我們將信息源分為四個不同的類別,每個類別攜帶的信息都比前一個類別多。每個類別由一組反映每個源中包含的知識程度的特徵組成。然後,我們使用線性CRF,一種透明的、廣泛使用的方法用於NER。
我們通過測試知識類別的各種組合,在兩個標準數據集上執行實驗。結果表明,知識量與NER性能高度相關。具有更多外部知識的配置系統勝過更多不可知論的系統。
模型
接下來我們詳細描述了四個知識類別。下表給出了使用外部知識類別特徵的概述,特徵用於訓練線性鏈CRF,這一種簡單易懂、對NER十分有效的方法。
知識不可知論(A):這個類別包含「local」特徵,可以在沒有任何外部知識的情況下直接從文本中提取。它們大多具有辭彙、句法或語言學性質,在文學界已有大量研究。我們實現了Finkel中描述的大部分特徵:
(1)當前詞和大小為2的窗口中的詞;(2)當前詞的詞形和大小為2的窗口中的詞;(3)大小為2的窗口中詞的POS標記;(4)前綴(長度3和4)和後綴(長度1至4);(5)當前詞在大小為4的窗口中存在的次數;(6)句子的開始部分。
基於名字的知識(名稱):我們從命名實體名稱列表中提取知識。這些特徵試圖識別名稱中的模式,並利用不同名稱集有限的事實。我們從YAGO中提取了總計超過2000萬個名稱,並導出了以下特徵:
經常提及的tokens。反映給定token在實體名稱列表中的頻率。我們標記了列表並計算了頻率。該特徵賦予對應於它們的歸一化頻率的文本中的每個token的權重。高權重應該被分配給指示命名實體的token。例如,我們在英語中找到的前5位的符號是「county」, 「john」, 「school」, 「station」 和 「district」。沒有出現的所有tokens的權重被分配0。
頻繁POS標籤序列。識別命名實體常見的POS序列。例如,人名往往被描述為一系列專有名詞,而組織可能具有更豐富的模式。「Organization of American States」 和 「Union for Ethical Biotrade」 都具有NNP-IN-NNP-NNP模式。我們排序名稱POS標籤序列,保留前100名。通過查找輸入文本中最長的匹配序列並標記當前token是否屬於頻繁序列來實現該特徵。
基於知識庫的知識(KB):該類別組特徵從KB或實體注釋語料庫中提取。他們編碼關於命名實體本身或用法的知識。我們採用了三個特徵:
類型注入地名匹配。查找在特定類型的地名詞典中最長出現的token序列。根據token是序列的一部分,它向每個token添加二進位指示符。我們使用由Ratinov和Roth發布的30本字典,其中包含英文的類型名稱信息。還可以通過將每個字典映射到一組KB類型,並提取相應的名稱來自動創建這些字典。這種自動生成在多語言設置中是有用的。
維基百科鏈接概率。此特徵測量token鏈接到命名實體維基百科頁面的可能性。從直覺上說,鏈接到命名實體頁面的標記更傾向於指示命名實體。例如,token「Obama」通常是鏈接的,而「box」不是。引用命名實體的頁面列表是從YAGO中提取的。給定文本中的token,如果文檔d中的tokent鏈接到另一個Wikipedia文檔,則根據等式1為其分配鏈接概率,其中linkd(t)等於1。若t在d中出現,則presentd等於1。
類型概率。對屬於給定類型的token的可能性進行編碼。它抓住了這樣一個概念,例如,「Obama」這個符號更像是一個人而不是一個地點。給定YAGO中的一組實體E,其中提到Me和tokenTem,我們計算給定token t的c ∈ C類的概率,如下式所示,其中如果實體e屬於c類,則c(e)=1,否則c(e)=0。對於文本中的每個token,我們為每種類型創建一個特徵,以各自的概率作為其值。
token類型位置。反映token可以根據實體類型出現在不同的位置。例如,「Supreme Court of the United States」是一個組織,「United」出現在最後。在「United States」中,一個地點,它出現在開始。這有助於命名實體嵌套。
這是使用BILOU(Begin, Inside, Last, Outside, Unit)編碼實現的,它針對每個token出現的位置標記每個token。特徵的數量取決於數據集中類型的數量(4個BILU位置乘以n個類 O位置)。對於每個token,每個特徵接收給定token和位置的類概率。利用上式計算類概率,還包括標記位置。
因此,對於每個token,我們現在有超過4n 1類別的概率分布。以token「Obama」為例。我們希望,對於「B-Person」(即,姓氏與姓氏的組合)和「UPerson」(即,沒有姓氏的姓氏)類,它具有高的概率。所有其他類的概率將接近於零。相比之下,單詞「box」對於類「O」應該有很高的概率,對於所有其他類,它應該接近於零,因為我們不希望在許多命名實體中發生這種情況。
基於實體的知識(實體):這個類別對在文本中發現的實體的文檔特定知識進行編碼,以利用NER和NED之間的關聯。以前的工作表明,這些系統之間的信息流動產生了顯著的性能改進。
相對而言,該模塊需要更多的計算資源。它需要首先運行NED,來基於已消除歧義的命名實體生成文檔特定特徵。這些特徵在NER的第二次運行中使用。
隨後,在NED首次運行之後,我們創建了一組源自消除歧義的實體的文檔專用地名錄。此信息有助於第二輪查找先前丟失的新命名實體。比如「Some citizens of the European Union working in the United Kingdom do not meet visa requirements for non-EU workers after the uk leaves the bloc」。我們可以想像,在第一輪NED中,European Union 和United Kingdom很容易被識別,但「EU」或大小寫不當的「uk」也可能被忽略。在消除歧義之後,我們知道這兩個實體都是組織,並且分別具有別名EU和UK。然後,在第二輪中,更容易發現「EU」和「uk」。
在第一次運行NER NED之後,我們從YAGO中提取所有被識別的實體的表面形式。這些被標記並分配了相應實體的類型,加上它的BILOU位置。例如,「Barack Obama」導致「Barack」和「Obama」,分別指定為「B-Person」和「L-Person」。有17個二進位特徵(BILU標記乘以4個粗粒度類型 O標記),當token是包含從token到類型-BILOU對的映射列表的一部分時觸發。
實驗分析
實驗使用線性鏈CRF。CRF是透明的,廣泛用於NER任務。基於實體的組件使用AIDA實體消歧系統實現。我們在兩個標準的NER數據集上進行評估:COLL2003,一個英文通訊社的集合,包括四種類型的實體(PER、ORG、LOC、MISC);MUC-7,紐約時報的一組文章,其中注釋了三種類型的實體(PER、ORG、LOC)。
我們分析逐步增加外部知識的影響。下圖示出了四種變體。每個都包含對應於給定類別的特徵。在所有情況下,增加知識可以提高F1性能。對於MUC-7測試來說,效果尤其明顯,總體上增加了近10點。在兩個數據集中,當添加基於KB的特徵時,效果明顯提升。作為參考,迄今為止最好的系統之一(基於神經網路的)在CoNLL2013測試中F1達到91.62,而我們的全知CRF的F1達到91.12。
下表顯示了知識類別的不同組合。從KB到Entity的改進表明KB特徵被後面的特徵所包含。這在某種程度上是預期的,因為實體特定信息是從相同的KB中提取的,並且都依賴於實體類型。然而,正如我們所看到的,這是有代價的。
我們分別針對基於A、Name、KB和Entity的特徵測量314ms、494ms、693ms和4139ms(如下圖)。由於基於KB的特徵在性能上與基於實體的特徵相當,但是後者昂貴得多,因此這些發現允許從業人員仔細地決定附加的計算成本是否值得相對小的性能改進。我們特徵類的模塊化允許在有效性/效率方面進行權衡,對系統進行最優調整。
為了證明我們方法的普遍適用性,我們為另外兩種語言,即德語和西班牙語,實現了NER系統。Name、KB和Entity知識類的所有特徵都源自相應語言的Wikipedia。在CoNLL2003g上為德文進行性能評估,在CoNLL2002上為西班牙語進行性能評估。結果如下圖。與英語數據的性能類似,我們可以看到添加更多的外部知識可以提高性能。作為參考,我們發現,性能接近於最先進的兩種語言。我們的系統在德語中僅落後1.56 F1得分,在西班牙語中落後1.98 F1得分。
總結
本文通過定義四個特徵類別,研究了外部知識對於執行命名實體識別任務的重要性。除了現有文獻中常用的特徵外,我們還定義了四個新特徵,並將它們合併到我們的分類方案中。實驗結果表明,儘管更多的外部知識導致性能提高,但它在性能上取得了相當大的折衷。
論文下載鏈接:
http://aclweb.org/anthology/P18-2039
※ACL 2018:曼海姆大學:基於三分法的無監督語義框架歸納
※必讀!這6本書帶你了解數據科學的硬核技能
TAG:讀芯術 |