當前位置:
首頁 > 最新 > 曼海姆大學:改進文本簡化系統的句子對齊方法

曼海姆大學:改進文本簡化系統的句子對齊方法

你和「懂AI」之間,只差了一篇論文

很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。

這是讀芯術解讀的第18篇論文

ACL 2017 Short Papers

改進文本簡化系統的句子對齊方法

SentenceAlignment Methods for Improving Text Simplification Systems

曼海姆大學

University of Mannheim

【摘要】本文提出了幾種不同複雜程度的文本句子對齊方法。我們使用最好的方法對Newsela語料庫進行句子對齊,從而為自動文本簡化(ATS)系統提供大量的訓練材料。我們發現,使用這個數據集,即使在標準的基於短語的統計機器翻譯模型中也勝過最先進的ATS系統。

1 引言

自動文本簡化(ATS)試圖將複雜句子自動地轉換成句法、詞法和或語義上的簡單變體,而不會顯著改變原有含義。它最近引起了極大關注,因為它可以使更廣泛的受眾更容易閱讀文本(Alu"?sio andGasperin,2010; Saggion et al., 2015),並可以用作預處理步驟,提高各種NLP任務和系統的性能(Vickrey andKoller,2008; Evans, 2011; Stajner and Popovi c, 2016)。

然而,最先進的ATS系統仍然沒有達到令人滿意的效果,並且需要一些後期的人工編輯(Stajner和Popovi c,2016)。雖然最好的監督方法通常導致具有保留原始意義的語法輸出,但他們過於謹慎,幾乎對輸入句子沒有作任何改變(Specia,2010;Stajner等,2015),這可能是由於在訓練時使用了大小有限或質量差的平行TS語料所導致的。英語維基百科-簡單英語維基百科(EW-SEW)是目前最大的現有句子對齊TS數據集,其中包含160-280,000個句子對,這依賴於我們是要僅對傳統語句重寫進行建模,還是同時對內容縮減和段落擴充建模(Hwang etal., 2015)。對於西班牙語,最大的現有平行TS語料庫僅包含1,000個句子對,因此無法使用完全監督的方法。利用詞向量技術(Glavasand Stajner,2015; Paetzold and Specia,2016)的英語最佳無監督辭彙簡化(LS)系統似乎執行更多的辭彙替代,但往往是以較少的語法輸出和更多的語義變化為代價。然而,到目前為止,還沒有直接比較有監督和無監督的最先進方法。

Newsela語料庫提供了超過2000種英文和250種西班牙文的原始新聞文章,按照嚴格的指南手動簡化為3-4種不同的複雜程度(Xu et al.,2015)。雖然它具有比EW-SEW語料庫更好的質量(Xu et al.,2015),但由於缺乏句子(和段落)對齊,Newsela尚未被用於訓練端到端的ATS系統。在各種文本複雜度水平之間的這種對齊將提供大量訓練數據集,用於建模不同級別的簡化,即「輕度」簡化(使用來自鄰近級別的對齊)和「重」簡化(使用等級對的對齊:0- 3,0-4,1-4)。

貢獻。我們:(1)為平行文本的段落和句子對齊提供了幾種方法,並且用於評估文本片段對之間的相似性水平,作為可用的軟體;(2)比較了基於詞法和語義的跨越各種文本複雜程度的對齊方法;(3)通過提供定製的MST-LIS對齊策略(3.1節),測試手動簡化(Bott和Saggion,2011)時保留原始信息順序重要性的假設;和(4)表明,即使在基本的基於短語的統計機器翻譯(PBSMT)方法中,新的句子對齊方法也實現了最先進的ATS系統性能。

2 相關工作

用於原始和手動簡化文本的自動句子對齊方法,當前最先進的系統是用於原始和簡單英語維基百科句子對齊的GSWN方法(Hwang等人,2015)和用於西班牙語Simplext語料庫句子對齊(Saggion等,2015)的基於HMM的方法(Bott和Saggion,2011)。

基於HMM的方法可以應用於任何語言,因為它不需要任何語言特定的資源。它基於兩個假設:(H1)信息的原始順序被保留,(H2)每個「簡單」句至少有一個相應的「原始」句(在『n-1』或『n-m』對齊情況下有超過一個)。

Simple Wikipedia簡單維基百科並不代表直接簡化「原始」維基百科文章(「簡單」文章是獨立於「原始」文章編寫的),GSWN方法不假定H1或H2。這種方法的主要限制是它只允許「1-1」句對齊——這對於TS是非常有限的,因為它不允許句子分割("1-n"),並且求和和壓縮("n-1"和"n-m")對齊——它依賴於語言,因為它需要英文維基詞典。

與GSWN方法不同,我們採用的所有方法都是與語言無關的,所需資源少,並允許「1-n」,「n-1」和「n-m」對齊。類似於HMM方法,我們的方法假定假設H2。我們提供兩種變體,使用假設H1和不使用的情況(第3.1節)。

3 方法

提供一組「簡單」的文本片段S和一組「複雜」文本片段C,我們提供兩種策略(第3.1節)來獲得對齊組(si,cj),其中si∈S,cj∈C。反過來,每個對齊策略可以使用三種方法之一(第3.2節)來計算文本片段(段落或句子)之間的相似性分數。


最相似文本(MST): 給定一種相似性方法(第3.2節),MST比較所有可能的對(si,cj)的相似性得分,並將每個si∈S與C中最接近的一個對齊。

具有最長遞增序列的MST (MST-LIS): MST-LIS使用假設H1。它首先使用MST策略,然後通過從所有獲得的對齊組中提取出來,對輸出進行後處理,只有那些對齊組li∈L,其中包含C中最長遞增序列的偏移jk。為了允許"1-n"對齊(即分句),我們允許在L中重複C("複雜"文本片段)的偏移量。不包含在L的"簡單"文本片段包含在未對齊片段的集合U中。最後,我們通過將C中的搜索空間限制為對應於前一個和下一個對齊的「簡單」片段的「複雜」文本片段的偏移來對齊每個um∈U。例如,如果L = {(s1,c4),(s3,c7)}和U = ,則s2對齊的搜索空間減少到。我們在結果(表2)中用「*」來表示這個策略,例如C3G *。

C3G: 我們用log TF-IDF加權(Salton和McGill,1986)的字元N-gram(CNG)(Mcnamee和Mayfield,2004)相似性模型(n = 3),並使用餘弦相似度比較向量。

WAVG: 我們使用TensorFlowToolkit的skip-gram模型(Mikolov等,2013b),來處理整個英文維基百科,並生成其單詞的連續表示。對於每個文本片段,我們平均詞向量以獲得其內容的單個表示,因為此設置在其他NLP任務中顯示出良好的結果(例如,(Mikolov等,2013a)中的新詞選擇)。最後,使用餘弦相似度來估計文本片段之間的相似性。

CWASA: 我們採用基於連續詞對齊的相似度分析(CWASA)模型(Franco-Salvador等,2016),該模型通過計算所有單詞的連續表示之間的餘弦相似度來找到最佳對齊單詞(而不是在WAVG的情況下的平均詞向量)。它最初被提議用於剽竊檢測,結果非常好,特別是對於較長的文本片段。

表1 EW-SEW數據集的全部和部分匹配的例子(Hwang等,2015)。

4 人工評價

為了比較不同對齊方法的效果,我們隨機選擇10個原始文本(0級)及其對應的1、3、4級的簡單版本。不是創建「黃金標準」並進而自動評估表現,我們採用兩個注釋器對每對自動對齊的段落和句子進行評估——通過每種可能的六種對齊方法和基於HMM的方法(Bott和Saggion,2011)——對於0-2規模上的三對文本複雜度級別(0-1,0-4和3-4),其中:0 - 內容中沒有語義重疊; 1 - 部分語義重疊(部分匹配); 2 - 相同的語義內容(很好的匹配)。這導致了對0-4和3-4對的1218個段落和1266個句子對齊,和0-1對的1526個段落和1086個句子對齊。在TS的上下文中,良好和部分匹配是重要的。雖然完整的語義重疊建模了全部段落(「1-1」對齊),部分重疊建模了句子分割(「1-n」對齊),但同時刪除無關的句子部分,添加了說明或總結("n-m"對齊)。 EW-SEW數據集的全部和部分匹配的幾個例子(Hwang等,2015)在表1中給出。

我們預計自動對齊任務在0-1文本複雜度水平之間是最簡單的,在0-4級之間要困難得多(4級在四個階段的簡化後獲得,因此包含更場的段落和更少的0級和1級辭彙重疊)。我們還探討當我們對齊兩個相鄰級別時,任務是否同樣困難,否則任務的難度取決於級別的複雜性(0-1 vs.3-4)。取決於任務和級別,獲得的內在標註一致性,採用Cohen的κ(400個雙注釋實例)在0.71和0.74之間加權。

人工分析結果(表2)顯示:(1)所有應用方法對於段落和句子對齊任務上均顯著(p

表2 英文Newsela語料庫的good+partial句子和段落對齊百分比。所有結果都比HMM方法(Bott和Saggion,2011)獲得的結果明顯更好(p

5 外在評價

最後,我們測試了我們新的英語Newsela(C3G-2s)句子對齊(對於鄰近級別-neighb,對於所有級別-all)和使用Moses工具包中標準PBSMT模型(Koehn等人,2007)與使用HMM-method獲得相鄰級別(Bott和Saggion,2011)的的ATS任務Newsela句子對齊。我們改變用於構建語言模型(LM)的訓練數據集和語料庫,同時保持總是相同的2000個句子對用於調整(Xuet al., 2016),並用他們的測試集合的前70個句子進行人工評估。使用這個特定的測試集,我們可以將我們的(PBSMT)系統與不可免費獲得的TS(Xuet al., 2016)的最先進的基於句法的MT(SBMT)系統的輸出進行比較。我們比較:(1)標準PBSMT模型的性能,該模型僅使用已經可用的EW-SEW數據集(Hwang等,2015)與相同PBSMT模型的性能,但是這次使用EW-SEW的組合數據集和我們新創建的Newsela數據集;(2)後一種PBSMT模型(其使用EW-SEW和新的Newsela數據集)與最先進的監督ATS系統(Xu等人,2016)以及最近提出的無監督辭彙簡化系統之一,LightLS系統(Glavas和Stajner,2015)。

表3外部評估(基於PBSMT的自動文本簡化系統vs現有技術)。

表4不同ATS系統的輸出(正確的更改/簡化以粗體顯示,不正確用斜體)。

我們對所有系統的輸出進行三種人工評估。首先,我們計算每個系統所做的更改總數(Total),將整個短語的變化計數(例如「變得失效」→「已解散」)作為一個變化。我們對那些保留了句子原始含義和語法的變化(由兩位英語母語者評估)標註為正確(Correct),同時使句子更容易被理解(由兩位非本地流利的英語人士評估)。第二,3位英語母語者對於每個句子的語法(G)和含義保存(M)進行評估,至少在一個1-5級量表上變化(1 - 非常糟糕;5 - 非常好)。第三,3位非流利的英語演講者分別以原始(參考)句子和目標(輸出)句子(一對)顯示,並詢問目標句子是否為:+2- 簡單得多; +1 - 有點簡單;0 - 同樣困難; -1 - 有點困難;-2 - 比參考句更困難。雖然變化的正確性考慮到每個個體變化對語法、含義和簡化性的影響,但是分數(G和M)和等級(S)考慮了句子內所有變化的相互影響。

在標準PBSMT設置中,將我們的句子對齊的Newsela語料庫(或鄰近的C3G-2l或全部C3G-2l)添加到當前最佳的對齊維基語料庫(Hwanget al., 2015)中,顯著提高了語法(G)和含義(M)保存,並增加了正確變化的百分比(表3)。它也通過簡單的排名(S)、含義保存(M)和正確變化的數量(Correct),顯著優於最先進的ATS系統,同時實現了幾乎同樣好的語法性(G)。

訓練數據集(Newsela neighb. C3G-2s vs.Newsela all C3G-2s)中應用的簡化水平顯著影響G和M的分數。

使用HMM方法來對齊Newsela(而不是我們的)在所有五個標準下,簡化程度都大大降低。

表4列出了不同ATS系統的輸出示例。

6 結論

我們提出了幾種平行TS語料庫的段落和句子對齊方法,並使軟體公開可用,同時表明即使是在一個基本的PBSMT設置下的ATS系統,使用新的句子對齊(免費提供)Newsela數據集都能獲得最優效果,我們還表明,在「重」簡化(0-4對齊)的句子對齊和段落對齊任務中,基於詞法的C3G方法優於基於語義的方法(CWASA和WAVG),並且兩步句子對齊方法(先對齊第一段,再對齊段落中的句子)會形成比「直接」句子對齊方法更好的效果。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

海德堡理論研究中心:指代消解的辭彙特徵-謹慎使用
想年薪百萬?你的命運可能在AI手中

TAG:讀芯術 |