當前位置:
首頁 > 新聞 > 神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

選自medium

作者:Ozan ?a?layan

機器之心編譯

參與:蔣思源、Smith


本文總結了最近發表的論文「神經機器翻譯的六大挑戰(Six Challenges for Neural Machine Translation)」,並希望讀者能看到神經機器翻譯的不足和未來的發展方向。

  • 該論文論述的神經機器翻譯(NMT)六大挑戰:領域誤匹配、訓練數據的總量、生僻詞、長句子、詞對齊和束搜索(beam search)。

  • Nematus 和 Moses 都是使用 WMT 和 OPUS 數據集訓練 NMT 和 SMT 系統,它們使用了 50K 子詞(BPE)辭彙。

  • 考慮了兩個語言對:英語-西班牙語和德語-英語。

挑戰一:領域誤匹配(Domain Mismatch)


單詞表達為不同風格時會有不同的譯文和意義。

5 個不同的德語-英語 統計機器翻譯(SMT)和 神經機器翻譯(NMT)系統使用了不同的語料庫單獨訓練,即 OPUS 中的法律、醫療、IT、可蘭經、字幕,然後再在所有 OPUS 語料庫中訓練一個新系統。

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

綠色為 NMT,藍色為 SMT

在對應領域中,NMT 和 SMT 系統效果差不多,但在領域外 NMT 幾乎在所有案例中都要比 SMT 表現更差(如 NMT 和 SMT 在醫療訓練集/法律測試集中獲得 3.9 vs 10.2 BLEU)。

挑戰二:訓練數據的總量

增加訓練數據的總量能得到更好的結果。

在全部 WMT13 (385M 詞) 上的英語-西班牙語系統,我們分區以獲得學習曲線。對於 SMT 來說,語言模型在每個分區的西班牙語部分中訓練。我們還提供了 SMT 和大型語言模型(LM)的對比。

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

NMT 表現出一個更陡峭的學習曲線,其從並不好的結果開始(對於有 0.4M 詞量的第一分區為 1.6 和 16.4 BLEU),比 SMT 優於 1 BLEU(24M 詞量),NMT 甚至在整個數據集上要比帶大型 LM 的 SMT 更優秀(31.1 / 28.4 / 30.4 分別對應於 NMT、SMT 和 SMT+BigLM)

NMT 和 SMT 學習曲線的對比是很明顯的:NMT 不能在語料庫少於百萬級詞量的情況下順利進行訓練。

挑戰三:生僻詞


傳統觀點表示 NMT 在生僻詞上表現得特別差。

測試這個挑戰的 NMT 和 SMT 系統在德語-英語測試集上都實現了案例敏感的(case-sensitive)34.5 BLEU(34.5 BLEU 是在 NMT,且束大小(beam size)為 1 的情況下獲得的)。

NMT 系統(至少是那些使用位元組對編碼的系統)要比 SMT 系統在極低頻詞上表現得更好。位元組對編碼(Byte-pair encoding)有時對允許成功翻譯生僻辭彙是足夠的,即使位元組對編碼並不需要在形態學邊界上拆分詞。

SMT 和 NMT 系統實際上都對訓練語料庫中單次觀察到的辭彙表現很差,甚至比未觀察到的詞還要表現差。

挑戰四:長句子


注意力機制(attention mechanism)拯救了 NMT 正確翻譯長序列的能力,但到底有多好?

這一部分的系統和數據與挑戰二中用的是一樣的,但它用來翻譯基於在子詞(subwords)中的原句子長度的新測試集。

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

挑戰五:詞對齊


注意力機制是合適的詞對齊方法嗎?

詞對齊(word alignment)的概念在 SMT 和 NMT 中是非常不同的。我們對注意力向量(attention vectors/軟對齊矩陣)的序列和使用 fast-align 獲得的詞對齊進行比較。

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

注意力狀態(attention states)和 fast-align 對齊點除了德語-英語或多或少都有點相關性。

挑戰六:束搜索

為了增大束參數(beam parameter)常常需要回報遞減(diminishing returns),這些分數的增加通常預示著更大的射束。

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

增加束尺寸並沒有持續地改善翻譯質量。最優的束尺寸從 4(捷克語到英語)到大約 30(英語到羅馬尼亞語)不等。質量降低的主要原因是射束越寬,翻譯的長度越短。

總結

最後雖然神經機器翻譯有這些困難,當我們不能否認的是它十分高效。並且神經機器翻譯仍然已經克服了大量的挑戰,最顯著的是 NMT 在領域外和低資源條件下的翻譯十分出色。

神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進

論文地址:https://arxiv.org/pdf/1706.03872.pdf

摘要:我們探索了神經機器翻譯的六大挑戰:領域誤匹配、訓練數據的總量、生僻單詞、長句子、詞對齊和束搜索(beam search)。我們同樣展示了基於短語統計機器翻譯質量的不足和改進之處。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

MIT提出mNeuron:一個可視化深度模型神經元的Matlab插件
如何解決LSTM循環神經網路中的超長序列問題
腦技術商業化,正成為矽谷熱詞
9 個測試教你如何考察創業公司
量子計算,「潛在收益巨大的地方就要適用不同規則」|創業

TAG:機器之心 |

您可能感興趣

基於注意力機制,機器之心帶你理解與訓練神經機器翻譯系統
神經機器翻譯漏譯問題的改進方法
微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
圖解神經機器翻譯中的注意力機制
神經機器翻譯:歷史與展望
智能語音技術如何拯救翻譯機:翻譯機的技術抉擇和優勝略汰
微軟翻譯正式發布新一代神經機器翻譯技術
業界 | 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
OpenAI背後的領袖:計算機視覺、機器翻譯、遊戲和機器人的變革者
微軟翻譯使用AI來打破智能手機上的語言翻譯障礙
FAIR機器翻譯最新研究:提出不使用平行本文的無監督機器翻譯模型
解讀AI手語翻譯機的技術硬核
高顏值的腕語智能翻譯機體驗,海外最好用,翻譯拾音性能出色
帶外部記憶機制的神經機器翻譯
翻譯機將臨勁敵?細數糖果翻譯手機的優勢
主攻文檔翻譯,翻譯狗的機緣與速度
微軟:中英機器翻譯取得突破性進展
面向神經機器翻譯的模型存儲壓縮方法分析
糖果手機全球首發「翻譯手機」,或終結翻譯機
專家想用AI技術打造狗吠翻譯器,已能翻譯土撥鼠叫聲