神經機器翻譯的六大挑戰以及基於短語統計機器翻譯的不足與改進
選自medium
作者:Ozan ?a?layan
機器之心編譯
參與:蔣思源、Smith
本文總結了最近發表的論文「神經機器翻譯的六大挑戰(Six Challenges for Neural Machine Translation)」,並希望讀者能看到神經機器翻譯的不足和未來的發展方向。
該論文論述的神經機器翻譯(NMT)六大挑戰:領域誤匹配、訓練數據的總量、生僻詞、長句子、詞對齊和束搜索(beam search)。
Nematus 和 Moses 都是使用 WMT 和 OPUS 數據集訓練 NMT 和 SMT 系統,它們使用了 50K 子詞(BPE)辭彙。
考慮了兩個語言對:英語-西班牙語和德語-英語。
挑戰一:領域誤匹配(Domain Mismatch)
單詞表達為不同風格時會有不同的譯文和意義。
5 個不同的德語-英語 統計機器翻譯(SMT)和 神經機器翻譯(NMT)系統使用了不同的語料庫單獨訓練,即 OPUS 中的法律、醫療、IT、可蘭經、字幕,然後再在所有 OPUS 語料庫中訓練一個新系統。
綠色為 NMT,藍色為 SMT
在對應領域中,NMT 和 SMT 系統效果差不多,但在領域外 NMT 幾乎在所有案例中都要比 SMT 表現更差(如 NMT 和 SMT 在醫療訓練集/法律測試集中獲得 3.9 vs 10.2 BLEU)。
挑戰二:訓練數據的總量
增加訓練數據的總量能得到更好的結果。
在全部 WMT13 (385M 詞) 上的英語-西班牙語系統,我們分區以獲得學習曲線。對於 SMT 來說,語言模型在每個分區的西班牙語部分中訓練。我們還提供了 SMT 和大型語言模型(LM)的對比。
NMT 表現出一個更陡峭的學習曲線,其從並不好的結果開始(對於有 0.4M 詞量的第一分區為 1.6 和 16.4 BLEU),比 SMT 優於 1 BLEU(24M 詞量),NMT 甚至在整個數據集上要比帶大型 LM 的 SMT 更優秀(31.1 / 28.4 / 30.4 分別對應於 NMT、SMT 和 SMT+BigLM)
NMT 和 SMT 學習曲線的對比是很明顯的:NMT 不能在語料庫少於百萬級詞量的情況下順利進行訓練。
挑戰三:生僻詞
傳統觀點表示 NMT 在生僻詞上表現得特別差。
測試這個挑戰的 NMT 和 SMT 系統在德語-英語測試集上都實現了案例敏感的(case-sensitive)34.5 BLEU(34.5 BLEU 是在 NMT,且束大小(beam size)為 1 的情況下獲得的)。
NMT 系統(至少是那些使用位元組對編碼的系統)要比 SMT 系統在極低頻詞上表現得更好。位元組對編碼(Byte-pair encoding)有時對允許成功翻譯生僻辭彙是足夠的,即使位元組對編碼並不需要在形態學邊界上拆分詞。
SMT 和 NMT 系統實際上都對訓練語料庫中單次觀察到的辭彙表現很差,甚至比未觀察到的詞還要表現差。
挑戰四:長句子
注意力機制(attention mechanism)拯救了 NMT 正確翻譯長序列的能力,但到底有多好?
這一部分的系統和數據與挑戰二中用的是一樣的,但它用來翻譯基於在子詞(subwords)中的原句子長度的新測試集。
挑戰五:詞對齊
注意力機制是合適的詞對齊方法嗎?
詞對齊(word alignment)的概念在 SMT 和 NMT 中是非常不同的。我們對注意力向量(attention vectors/軟對齊矩陣)的序列和使用 fast-align 獲得的詞對齊進行比較。
注意力狀態(attention states)和 fast-align 對齊點除了德語-英語或多或少都有點相關性。
挑戰六:束搜索
為了增大束參數(beam parameter)常常需要回報遞減(diminishing returns),這些分數的增加通常預示著更大的射束。
增加束尺寸並沒有持續地改善翻譯質量。最優的束尺寸從 4(捷克語到英語)到大約 30(英語到羅馬尼亞語)不等。質量降低的主要原因是射束越寬,翻譯的長度越短。
總結
最後雖然神經機器翻譯有這些困難,當我們不能否認的是它十分高效。並且神經機器翻譯仍然已經克服了大量的挑戰,最顯著的是 NMT 在領域外和低資源條件下的翻譯十分出色。
論文地址:https://arxiv.org/pdf/1706.03872.pdf
摘要:我們探索了神經機器翻譯的六大挑戰:領域誤匹配、訓練數據的總量、生僻單詞、長句子、詞對齊和束搜索(beam search)。我們同樣展示了基於短語統計機器翻譯質量的不足和改進之處。
※MIT提出mNeuron:一個可視化深度模型神經元的Matlab插件
※如何解決LSTM循環神經網路中的超長序列問題
※腦技術商業化,正成為矽谷熱詞
※9 個測試教你如何考察創業公司
※量子計算,「潛在收益巨大的地方就要適用不同規則」|創業
TAG:機器之心 |
※基於注意力機制,機器之心帶你理解與訓練神經機器翻譯系統
※神經機器翻譯漏譯問題的改進方法
※微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
※圖解神經機器翻譯中的注意力機制
※神經機器翻譯:歷史與展望
※智能語音技術如何拯救翻譯機:翻譯機的技術抉擇和優勝略汰
※微軟翻譯正式發布新一代神經機器翻譯技術
※業界 | 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
※OpenAI背後的領袖:計算機視覺、機器翻譯、遊戲和機器人的變革者
※微軟翻譯使用AI來打破智能手機上的語言翻譯障礙
※FAIR機器翻譯最新研究:提出不使用平行本文的無監督機器翻譯模型
※解讀AI手語翻譯機的技術硬核
※高顏值的腕語智能翻譯機體驗,海外最好用,翻譯拾音性能出色
※帶外部記憶機制的神經機器翻譯
※翻譯機將臨勁敵?細數糖果翻譯手機的優勢
※主攻文檔翻譯,翻譯狗的機緣與速度
※微軟:中英機器翻譯取得突破性進展
※面向神經機器翻譯的模型存儲壓縮方法分析
※糖果手機全球首發「翻譯手機」,或終結翻譯機
※專家想用AI技術打造狗吠翻譯器,已能翻譯土撥鼠叫聲