當前位置：

首頁 > 新聞 > 神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

新聞 06-27

選自medium

作者：Ozan ?a?layan

機器之心編譯

參與：蔣思源、Smith

本文總結了最近發表的論文「神經機器翻譯的六大挑戰（Six Challenges for Neural Machine Translation）」，並希望讀者能看到神經機器翻譯的不足和未來的發展方向。

該論文論述的神經機器翻譯（NMT）六大挑戰：領域誤匹配、訓練數據的總量、生僻詞、長句子、詞對齊和束搜索（beam search）。
Nematus 和 Moses 都是使用 WMT 和 OPUS 數據集訓練 NMT 和 SMT 系統，它們使用了 50K 子詞（BPE）辭彙。
考慮了兩個語言對：英語-西班牙語和德語-英語。

挑戰一：領域誤匹配（Domain Mismatch）

單詞表達為不同風格時會有不同的譯文和意義。

5 個不同的德語-英語統計機器翻譯（SMT）和神經機器翻譯（NMT）系統使用了不同的語料庫單獨訓練，即 OPUS 中的法律、醫療、IT、可蘭經、字幕，然後再在所有 OPUS 語料庫中訓練一個新系統。

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

綠色為 NMT，藍色為 SMT

在對應領域中，NMT 和 SMT 系統效果差不多，但在領域外 NMT 幾乎在所有案例中都要比 SMT 表現更差（如 NMT 和 SMT 在醫療訓練集/法律測試集中獲得 3.9 vs 10.2 BLEU）。

挑戰二：訓練數據的總量

增加訓練數據的總量能得到更好的結果。

在全部 WMT13 (385M 詞) 上的英語-西班牙語系統，我們分區以獲得學習曲線。對於 SMT 來說，語言模型在每個分區的西班牙語部分中訓練。我們還提供了 SMT 和大型語言模型（LM）的對比。

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

NMT 表現出一個更陡峭的學習曲線，其從並不好的結果開始（對於有 0.4M 詞量的第一分區為 1.6 和 16.4 BLEU），比 SMT 優於 1 BLEU（24M 詞量），NMT 甚至在整個數據集上要比帶大型 LM 的 SMT 更優秀（31.1 / 28.4 / 30.4 分別對應於 NMT、SMT 和 SMT+BigLM）

NMT 和 SMT 學習曲線的對比是很明顯的：NMT 不能在語料庫少於百萬級詞量的情況下順利進行訓練。

挑戰三：生僻詞

傳統觀點表示 NMT 在生僻詞上表現得特別差。

測試這個挑戰的 NMT 和 SMT 系統在德語-英語測試集上都實現了案例敏感的（case-sensitive）34.5 BLEU（34.5 BLEU 是在 NMT，且束大小（beam size）為 1 的情況下獲得的）。

NMT 系統（至少是那些使用位元組對編碼的系統）要比 SMT 系統在極低頻詞上表現得更好。位元組對編碼（Byte-pair encoding）有時對允許成功翻譯生僻辭彙是足夠的，即使位元組對編碼並不需要在形態學邊界上拆分詞。

SMT 和 NMT 系統實際上都對訓練語料庫中單次觀察到的辭彙表現很差，甚至比未觀察到的詞還要表現差。

挑戰四：長句子

注意力機制（attention mechanism）拯救了 NMT 正確翻譯長序列的能力，但到底有多好？

這一部分的系統和數據與挑戰二中用的是一樣的，但它用來翻譯基於在子詞（subwords）中的原句子長度的新測試集。

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

挑戰五：詞對齊

注意力機制是合適的詞對齊方法嗎？

詞對齊（word alignment）的概念在 SMT 和 NMT 中是非常不同的。我們對注意力向量（attention vectors/軟對齊矩陣）的序列和使用 fast-align 獲得的詞對齊進行比較。

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

注意力狀態（attention states）和 fast-align 對齊點除了德語-英語或多或少都有點相關性。

挑戰六：束搜索

為了增大束參數（beam parameter）常常需要回報遞減（diminishing returns），這些分數的增加通常預示著更大的射束。

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

增加束尺寸並沒有持續地改善翻譯質量。最優的束尺寸從 4（捷克語到英語）到大約 30（英語到羅馬尼亞語）不等。質量降低的主要原因是射束越寬，翻譯的長度越短。

總結

最後雖然神經機器翻譯有這些困難，當我們不能否認的是它十分高效。並且神經機器翻譯仍然已經克服了大量的挑戰，最顯著的是 NMT 在領域外和低資源條件下的翻譯十分出色。

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

論文地址：https://arxiv.org/pdf/1706.03872.pdf

摘要：我們探索了神經機器翻譯的六大挑戰：領域誤匹配、訓練數據的總量、生僻單詞、長句子、詞對齊和束搜索（beam search）。我們同樣展示了基於短語統計機器翻譯質量的不足和改進之處。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※MIT提出mNeuron：一個可視化深度模型神經元的Matlab插件
※如何解決LSTM循環神經網路中的超長序列問題
※腦技術商業化，正成為矽谷熱詞
※9 個測試教你如何考察創業公司
※量子計算，「潛在收益巨大的地方就要適用不同規則」｜創業

TAG:機器之心 |

您可能感興趣

※基於注意力機制，機器之心帶你理解與訓練神經機器翻譯系統
※神經機器翻譯漏譯問題的改進方法
※微軟提出新型通用神經機器翻譯方法，挑戰低資源語言翻譯問題
※圖解神經機器翻譯中的注意力機制
※神經機器翻譯：歷史與展望
※智能語音技術如何拯救翻譯機：翻譯機的技術抉擇和優勝略汰
※微軟翻譯正式發布新一代神經機器翻譯技術
※業界 | 微軟提出新型通用神經機器翻譯方法，挑戰低資源語言翻譯問題
※OpenAI背後的領袖：計算機視覺、機器翻譯、遊戲和機器人的變革者
※微軟翻譯使用AI來打破智能手機上的語言翻譯障礙
※FAIR機器翻譯最新研究：提出不使用平行本文的無監督機器翻譯模型
※解讀AI手語翻譯機的技術硬核
※高顏值的腕語智能翻譯機體驗，海外最好用，翻譯拾音性能出色
※帶外部記憶機制的神經機器翻譯
※翻譯機將臨勁敵？細數糖果翻譯手機的優勢
※主攻文檔翻譯，翻譯狗的機緣與速度
※微軟：中英機器翻譯取得突破性進展
※面向神經機器翻譯的模型存儲壓縮方法分析
※糖果手機全球首發「翻譯手機」，或終結翻譯機
※專家想用AI技術打造狗吠翻譯器，已能翻譯土撥鼠叫聲