當前位置:
首頁 > 最新 > 海德堡理論研究中心:指代消解的辭彙特徵-謹慎使用

海德堡理論研究中心:指代消解的辭彙特徵-謹慎使用

你和「懂AI」之間,只差了一篇論文

很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。

這是讀芯術解讀的第16篇論文

ACL 2017 Short Papers

指代消解的辭彙特徵:謹慎使用

Lexical Features in Coreference Resolution: To be Used With Caution

海德堡理論研究中心

Heidelberg Institute for Theoretical Studies

【摘要】辭彙特徵是當前主流指代消解方法的主要信息來源。辭彙特徵在細粒度上含蓄地模擬了一些語言現象。它們對於表示下文信息非常有用。本文調查了當前的指代消解方法中大量使用辭彙特徵的缺點,並指出,如果指代消解方法過度依賴於辭彙特徵,那這些方法將很難被推廣到其他領域。此外,我們還指出,目前的指代消解評估方法顯然是有缺陷的,它只對特定數據集的具體分割進行評估,其中訓練、開發和測試集之間存在顯著的重疊。

1 引言

與其他任務類似,辭彙特徵是當前指代消解方法的主要信息來源。指代消解方法是一個集合劃分問題,其中每個產生的分區都指向一個實體。正如Durrett and Klein (2013)所示,辭彙特徵揭示了一些語言現象,這些現象以前都是由啟發式特徵建模捕捉的,但是在一個更精細的粒度水平上。然而,我們懷疑的是,由大量辭彙特徵所捕獲的知識是否可以被推廣到其他領域。

CoNLL(自然語言學習會議)數據集的引入使指代消解方法的性能顯著提高,在目前最好的指代消解方法、Clark and Manning(2016b)的deep-coref方法與2011年CoNLL共享任務的贏家——Lee et al. (2013) 的基於規則的Stanford方法之間有10%的差異。然而,這種改進在接下來的任務中似乎並不明顯。更糟糕的是,當應用於一個新的數據集時,最先進的指代消解方法和基於規則的系統的差異顯著下降。即使對於所提到和關聯的定義是一致的時候(Ghaddar and Langlais, 2016a)。

在本文中,我們指出,如果像最先進的指代消解方法一樣主要依靠辭彙特徵,就會加重過度擬合。訓練數據集的過度擬合是一個無法完全避免的問題。然而,在CoNLL訓練、開發和測試集之間有一個明顯的重疊,這顯著增加了過度擬合發生的可能性。因此,目前評價方案是存在缺陷的,因為其僅在這些重疊的驗證集上進行評估。為了確保有效地改進,我們認為在共指文獻中必須有一個領域之外的評價。

2 辭彙特徵

使用辭彙特徵和不使用辭彙特徵的相關指代消解方法之間的性能差異很大,這顯示了辭彙特徵的重要性。Durrett和Klein(2013)表明了辭彙特徵隱含地捕捉了一些現象,例如確定性和句法角色,這些現象都是由啟發式特徵建模的。Durrett and Klein(2013)使用詞語的精確表面形態作為辭彙特徵。然而,當使用詞向量而不是詞語表面組成形態的時候,辭彙特徵的使用更有益。詞向量是獲取語義關聯的有效方法。特別地,它們為描述所提到的內容提供了一種有效的方法。Durrett and Klein(2013)表明,在辭彙特徵上加一些啟發式特徵,例如性別、數量、人稱和句法角色,但並沒有實現結果的顯著提高。

Deep-coref,最先進的指代消解方法也遵循同樣的方式。Clark and Manning(2016b)利用大量的辭彙特徵和一系列的非辭彙特徵,包括字元串匹配、間距、類型、說話者和類型特徵,捕捉需要的信息來解決相關問題,主要的區別在於Clark和Manning(2016b)使用的是詞向量而不是Durrett和Klein(2013)使用的表面特徵。

基於cort(Martschat和Strube,2014)的誤差分析,與不使用詞向量的系統相比,deep-coref會產生更小的召回率和精度錯誤,尤其是對代詞。例如,deep-coref正確地識別了CoNLL開發集合中83%的「it」指代。這可能是由於詞向量的一個更好的上下文表示方法。

3 其他領域上的評價

除了辭彙特徵取得的明顯成功之外,還可以討論的是,訓練數據辭彙特徵捕捉到的知識如何被推廣到其他領域。正如Ghaddar and Langlais(2016b)所報道的,在CoNLL數據集上訓練的最先進的指代消解方法表現欠佳。在新數據集WikiCoref(Ghaddar和Langlais,2016b)中,即使WikCoref被標註為像CoNLL數據集一樣的標註,也比基於規則的系統(Lee等,2013)更糟糕。在這個數據集上,最近一些指代消解方法的結果被列在表1中。

結果展示了使用MUC(Vilain等,1995)、B3(Bagga和Baldwin,1998)、CEAFe(Luo,2005)三種方法的實驗結果,以及三種方法的平均F1得分,即CoNLL評分和LEA(Moosavi和Strube,2016)。

表1 CoNLL測試集和WikiCoref的比較結果

berkeley是Durrett和Klein(2013)的一個包含FINAL特徵集合的指代排序模型,包括中心詞、第一個、最後一個、前後詞、祖先、長度、詞性和次數間距、回指詞和先行詞是否是嵌套的、同樣的說話者和一個小的字元串匹配特徵集合。

cort是Marscha和Strube(2015)的指代排序模型。cort使用以下的特徵集:中心詞、第一個、最後一個、前後詞、祖先、長度、詞性、數量、類型、語義類別、依賴關係和依賴詞、中心詞的命名實體類型、兩個詞出現的距離、相同的說話者、回指詞和先行詞是否是嵌套的,和一組字元串匹配特徵。表1中的berkeley和cort分數來自Ghaddar和Langlais(2016a)。

deep-coref是Clark和Manning(2016b)的指代排序模型。Deep-coref包含了一大批的詞向量,即:中心詞、第一個、最後一個、前/後兩個詞、以及一個依賴詞、除此之外前/後五個單詞的平均詞向量,所有提及的單詞,句子的單詞和文檔的單詞。Deep-coref還包含了提及的類型、長度和位置,無論提及的內容是否嵌套在其他的提及里,包括兩個提及的距離,說話者的特徵和一組小的字元串匹配特徵。

對於deep-coref [conll],CoNLL的平均評分用於選擇開發集中最好的訓練模型。deep-coref [lea]使用LEA評分方式(Moosavi和Strube,2016)來選擇最佳模型。值得注意的是,在不同的實驗中,deep-coref排序模型的結果可能稍有不同。然而,deep-coref [lea]的性能總是比deep-coref [conll]高。

我們將WikiCoref的單詞添加到deep-coref字典中,用於deep-coref [conll]和deep-coref [lea]。Deep-coref報道了WikiCoref辭彙沒有被嵌入詞典的deep-coref [lea]性能。因此,對於deep-coref,在CoNLL中WikiCoref的不存在的單詞將被隨機初始化,而不是使用預先訓練的word2vec詞向量。deep-coref [lea]與deep-coref相比,使用預先訓練的詞向量比普通詞向量的性能更好。自此以後,我們用deep-coref指代deep-coref [lea]。

4 為什麼改進會逐漸消失?

在這一節中,我們研究了辭彙特徵對指代消解中不適用於新領域的情況有多大改善。

表2展現了在CoNLL測試集與訓練數據中作為復指同時出現的非復指代詞的出現比率。這些高比率表明在CoNLL數據集之間有很高的重合度。

訓練和測試集之間最大的重疊是類型pt(Bible)。「tc」(電話談話)類型在非人稱代詞中的重疊度比較低。然而,這種類型包括大量的代詞。我們選擇了wb(weblog)和pt兩種有低程度重疊和高程度重疊的類型做分析。

表2 在訓練集中被認為是指代的非復指代詞,在訓練數據中提到的比率

表3展示了在兩種設置下經檢驗的指代消解方法的結果,當測試集只包含一個類型,即pt或wb:(1)訓練集包括所有類型(域內評估)和(2)測試集的相應類型被排除在訓練和開發集之外(域外評估)。

表3高和低重疊體裁的域內評估和域外評估

berkeley-final是Durrett和Klein(2013)的指代消解方法,FINAL的特徵集解釋在第3部分。berkeley- surface是相同的指代消解方法,只有表面特徵,即祖先、性別、數字、相同的揚聲器和嵌套的功能被排除在FINAL的特性集之外。

cort-lexical是cort一個版本,沒有使用辭彙特徵,即中心詞、第一個詞、最後一個詞,提及該詞的前後句被排除在外。

對於域內評估,我們通過100次迭代訓練deep-coref排序模型,即Clark and Manning (2016a)的設置。但是,基於開發集的性能,我們在域外評估中只訓練了50個迭代模型。

pt類型的結果表明,在訓練和測試數據集之間存在高度重疊的情況下,所有基於學習型的分類器的性能都顯著提高。在訓練數據中,deep-coref收益最大,LEA分數超過了13%。cort同時使用了辭彙和相對大量的非辭彙特徵,而berkeley - surface是一個純粹的辭彙化系統。然而,當pt被包含或排除在訓練數據時,berkeley-surface的性能差異低於cort。berkeley使用特徵值進行剪枝,從訓練數據中刪除出現次數少於20次的辭彙特徵。也許,這就是為什麼berkeley的性能差異在高度重疊的數據集里比其他辭彙化系統要少。

對於較少重疊的類型,即wb,在所有辭彙化系統中,包含訓練數據類型在內的性能增益明顯降低。有趣的是,當這個類型被排除在訓練集外的時候berkeley-final,cort和cort-lexical的性能提高了。deep-coref使用複雜的深度神經網路和主要的辭彙特徵,在訓練和測試數據集上的冗餘中獲得了最高的增益。當我們使用更複雜的神經網路時,訓練數據集的強力記憶能力更強。

同樣值得注意的是,在域外評估中,性能的提升和下降並不完全因為辭彙特徵,cort-lexical的性能在pt域外評估性能也是顯著下降的。分類器還可以記憶訓練數據中的其他屬性。然而,與類型和數字一致性或句法角色等特徵相比,辭彙特徵對過擬合問題具有最高的可能性。

我們進一步分析了deep-coref在開發環境下的輸出。表4中所有行顯示了在不同類型的開發集中有deep-coref創建的成對鏈接的數量。seen行顯示了在訓練集中seen的每一類關係的比率(先行詞和回指詞)。所有的比率都高的驚人,最讓人擔心的是那些被提及的既是一個合適的名字又是一個普通的名詞。

根據它們是否是正確的指代關係,表5進一步劃分表4的關係。表5的結果顯示,在訓練數據中所看到的內容中,大多數不正確的關係也是由這些提及組成的。

這樣的高比率表明,(1)在提及的訓練對和開發集中有高度的重疊。並且(2)儘管deep-coref使用了廣義詞向量而不是精確的表面形態,但針對看到的內容,結果強烈的偏移了。

表4:訓練數據中由deep-coref創造的head-pair關係比率

表5:訓練數據中由deep-coref創造的head-pair關係比率

我們分析了由Stanford基於規則的系統創建的關係,並計算了在訓練集中存在的關係的比例。在表5中所有對應的比率低於deep-coref。然而,對於一個不使用訓練數據的系統來說,這個比率驚人的高。這一分析強調了CoNLL數據集的重疊。由於這種高度重疊,所以很難評估一個指代消解方法的普適性。魷魚這種高重疊性,對於未知的提及,在給定其官方拆分的情況下,在CoNLL數據集上很難評估其普適性。

我們同樣還計算了表5 deep-coref與錯誤召回相關的缺失關係的比率。我們通過cort錯誤分析工具(Martschat and Strube,2014)來計算召回的錯誤。表6顯示了召回錯誤的相應比率。與表4相比,表6的較低比率強調了deep-coref對所見提及的偏倚。

表6:訓練數據中存在的head-pair關係的deep-coref的召回誤差的比率。

例如,deep-coref關係包括31個案例,其中兩次提到的都是專有名詞和普通名詞,其中一個提到的中心詞是「國家」。對所有這些關係,「國家」與在訓練數據中看到的一種提及有關。因此,這就提出了一個問題,分類器將如何處理在訓練數據中沒有提到的國家的文本。

記住他們其中的一對是一個普通名詞,可以幫助分類器在一定程度上捕捉世界知識。從「海地」和「廣州」這樣的觀察組,分類器可以得知「海地」是一個國家,「廣州」是一個城市。然而,如果主要基於訓練數據,那麼單詞知識的有用性程度是可疑的。兩個沒有頭匹配的名詞性名詞短語的相關關係很難解決。這種配對的解析度被稱為捕捉語義相似度(Clarking和Manning,2016b)。deep-coref關係在開發集上有49個這樣的組合。在所有這些關係中,只有5對在訓練集上看不見,所有的關係都是錯誤的。此外,Levy等人(2015)也對辭彙特徵的影響進行了分析,如上下位關係和限定繼承。他們展示了最先進的分類器能記住訓練數據中的單詞。分類器在訓練和測試集之間有一些常見的單詞時,可以從這種辭彙記憶中受益。

5 論述

我們展示了指代消解方法中詞法特徵偏差的廣泛應用。這種誤差阻止我們開發更強壯、更普適化的指代消解方法。畢竟,儘管指代消解是文本理解的重要一步,但它並不是一個最終任務。指代消解方法將應用於無法使用指代注釋文集的任務和領域中。因此,在開發指代消解方法應該注意普適性。

此外,我們還表明,在CoNLL數據集的訓練和驗證集之間存在明顯的重疊。LEA度量方法被提出,以嘗試使相關的評估方案更加可靠。然而,為了確保指代消解方法可靠發展,只有可靠的評估指標是不夠的。針對驗證集的評估方法也需要是可靠的。如果針對數據集的巨大改進意味著可以更好地解決指代問題,而不是探索數據集本身,那麼這個數據集對於評估來說就是可靠的。

這篇論文的目的並不是反對使用辭彙特徵,特別是當詞向量被用作辭彙特徵時。詞向量的合併是獲取語義關聯的一種有效方法。也許我們應該多使用它們來描述上下文,而非它們本身。修剪罕見的辭彙特徵,同時合併普適化的特徵也有助於防止過度擬合。

為了確保更有意義的改進,我們要求在當前的指代消解評估方案中,融入域外評估方式。可以通過使用CoNLL數據集的現有類型或使用其他現有的指代消解注釋數據集(如WikiCoref、MUC或ACE)來執行外域評估。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

想知道怎樣才算混進AI圈?可以說是非常急切了
ACL2017:Salience Rank:基於主題建模的高效關鍵短語抽取

TAG:讀芯術 |