對比對齊模型：神經機器翻譯中的注意力到底在注意什麼

最新 10-15

選自arXiv

機器之心編譯

參與：李亞洲、劉曉坤、路雪

神經機器翻譯近來廣受關注，基於注意力的NMT逐漸流行。但是，很少有研究分析注意力到底在「注意」什麼？它與對齊一樣嗎？本文將對此進行分析。

神經機器翻譯（NMT）近期備受關注，它極大地改進了多種語言的機器翻譯質量，取得了頂級的結果。神經機器翻譯模型的核心架構基於常見的編譯器-解碼器方法，學習把源語言編碼成分散式表徵，並把這些表徵解碼成目標語言。在不同的神經機器翻譯模型中，基於注意力的 NMT 逐漸流行，因為它在每一翻譯步使用源句最相關的部分。這一能力使得注意力模型在翻譯長句時極為優秀。

從 2015 年 Bahdanau 等人的論文將注意力模型引入神經機器翻譯以來，出現了各種變體。然而，少有研究分析「attention」到底捕捉到了什麼現象。有一些研究認為 attention 與傳統的詞對齊類似，一些方法也嘗試使用傳統的詞對齊來訓練注意力模型，實驗結果表明注意力模型也可被視為重排序模型（reordering model）和對齊模型（alignment model）。

但在此論文中，作者調查了注意力模型和對齊模型之間的區別，以及注意力機制到底捕捉到了什麼。論文旨在解答兩個問題：注意力模型只能做對齊嗎？在不同的句法現象中注意力與對齊的類似程度有多大？

該論文的貢獻有：

提供了 NMT 中的注意力機制與詞對齊的詳細對比。

雖然不同的注意力機制會與詞對齊有不同程度的符合度，但完全符合對詞預測而言不總是有利的。

研究表明根據生成的詞類型，注意力也會有不同的模式。

研究證明注意力並不總是符合對齊機制。研究表明注意力與對齊的區別源於注意力模型關注當前要翻譯詞的上下文，這會影響當前詞的翻譯結果。

論文：What does Attention in Neural Machine Translation Pay Attention to?

論文鏈接：https://arxiv.org/pdf/1710.03348.pdf

摘要：神經機器翻譯的注意力機制提供了在每一個翻譯步中編碼源句最相關部分的可能性，因此注意力機制通常被當做對齊模型。然而，目前並沒有論文專門研究注意力機制，分析注意力模型究竟學到了什麼。所以，關於注意力機制和傳統對齊模型的相似性和區別的問題仍然沒有答案。在這篇論文中，我們對注意力機制進行了詳細分析，並和傳統的對齊模型作了比較。對於注意力機制只能做詞對齊，還是能捕捉更多信息，我們給出了解答。我們的研究表明，對於某些案例，注意力機制和對齊模型是不同的，注意力能夠捕捉到更多有用的信息。