對比對齊模型:神經機器翻譯中的注意力到底在注意什麼
選自arXiv
機器之心編譯
參與:李亞洲、劉曉坤、路雪
神經機器翻譯近來廣受關注,基於注意力的NMT逐漸流行。但是,很少有研究分析注意力到底在「注意」什麼?它與對齊一樣嗎?本文將對此進行分析。
神經機器翻譯(NMT)近期備受關注,它極大地改進了多種語言的機器翻譯質量,取得了頂級的結果。神經機器翻譯模型的核心架構基於常見的編譯器-解碼器方法,學習把源語言編碼成分散式表徵,並把這些表徵解碼成目標語言。在不同的神經機器翻譯模型中,基於注意力的 NMT 逐漸流行,因為它在每一翻譯步使用源句最相關的部分。這一能力使得注意力模型在翻譯長句時極為優秀。
從 2015 年 Bahdanau 等人的論文將注意力模型引入神經機器翻譯以來,出現了各種變體。然而,少有研究分析「attention」到底捕捉到了什麼現象。有一些研究認為 attention 與傳統的詞對齊類似,一些方法也嘗試使用傳統的詞對齊來訓練注意力模型,實驗結果表明注意力模型也可被視為重排序模型(reordering model)和對齊模型(alignment model)。
但在此論文中,作者調查了注意力模型和對齊模型之間的區別,以及注意力機制到底捕捉到了什麼。論文旨在解答兩個問題:注意力模型只能做對齊嗎?在不同的句法現象中注意力與對齊的類似程度有多大?
該論文的貢獻有:
提供了 NMT 中的注意力機制與詞對齊的詳細對比。
雖然不同的注意力機制會與詞對齊有不同程度的符合度,但完全符合對詞預測而言不總是有利的。
研究表明根據生成的詞類型,注意力也會有不同的模式。
研究證明注意力並不總是符合對齊機制。研究表明注意力與對齊的區別源於注意力模型關注當前要翻譯詞的上下文,這會影響當前詞的翻譯結果。
論文:What does Attention in Neural Machine Translation Pay Attention to?
論文鏈接:https://arxiv.org/pdf/1710.03348.pdf
摘要:神經機器翻譯的注意力機制提供了在每一個翻譯步中編碼源句最相關部分的可能性,因此注意力機制通常被當做對齊模型。然而,目前並沒有論文專門研究注意力機制,分析注意力模型究竟學到了什麼。所以,關於注意力機制和傳統對齊模型的相似性和區別的問題仍然沒有答案。在這篇論文中,我們對注意力機制進行了詳細分析,並和傳統的對齊模型作了比較。對於注意力機制只能做詞對齊,還是能捕捉更多信息,我們給出了解答。我們的研究表明,對於某些案例,注意力機制和對齊模型是不同的,注意力能夠捕捉到更多有用的信息。
圖 1:翻譯樣本中每一個生成詞的源句子最相關部分的注意力可視化。我們可以看到在「would」和「like」的例子中,注意力是如何在多個源詞中「彌散」開的。
圖 2:注意力和對齊不一致的例子。帶邊框的單元格展示了 RWTH 數據集手工對齊的結果(見表 1)。我們可以看到在「will」和「come」的例子中,注意力是如何偏離對齊點的。
表 1:RWTH 德英數據集提供的手動對齊統計數據。
圖 3:輸入-饋送系統(input-feeding system)的平均注意力損失和平均詞預測損失。
圖 4:輸入-饋送模型的詞預測損失和注意力損失之間的相關性。
圖 5:輸入-饋送模型的注意力熵(attention entropy)及其與注意力損失之間的相關性。
圖 6:輸入-饋送系統的注意力熵和詞預測損失之間的相關性。?
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
?------------------------------------------------
※粉白還是灰綠?這一雙鞋子讓網友懷疑長了假眼
※深邃氣質!超顯白!霧面也滋潤
※把照片拍「活」!武漢一高校十名學生作品入選平遙國際影展
※就要穿出「色」,美翻2017秋冬季流行色的穿搭指南!
※提升使用手機電腦幸福感的方法有很多,比如裝一個剪貼板工具
TAG:輕芒 |