當前位置:
首頁 > 新聞 > WMT 2019國際機器翻譯大賽:微軟亞洲研究院以7項第一成為冠軍

WMT 2019國際機器翻譯大賽:微軟亞洲研究院以7項第一成為冠軍

雷鋒網 AI 科技評論按,近日,由國際計算語言學協會 ACL(The Association for Computational Linguistics)舉辦的 WMT 2019 國際機器翻譯比賽的客觀評測結果揭曉,微軟亞洲研究院機器學習組在參加的 11 項機器翻譯任務中,有 7 項獲得了第一名,另外 4 項獲得第二名。

WMT 2019國際機器翻譯大賽:微軟亞洲研究院以7項第一成為冠軍

圖片來自大賽網站,橫向為源語種,縱向為目標語種

7項任務獲第一,4項任務獲第二

WMT 的全稱為 Conference on Machine Translation (http://www.statmt.org/wmt19/),是全球學術界公認的國際頂級機器翻譯比賽。自 2006 年至今,WMT 機器翻譯比賽已經成功舉辦 14 屆,每一次比賽都是全球各大高校、科技公司與學術機構展示自身機器翻譯實力的較量,更是見證了機器翻譯技術的不斷進步。

在本屆 WMT 2019 大賽中(http://www.statmt.org/wmt19/translation-task.html),共有來自全球的 50 多支隊伍參加,包括微軟、Facebook、百度、位元組跳動、平安、日本情報通信研究機構(NICT)等企業、科研機構和高校。大賽共設置了 19 項不同語言之間的翻譯任務,微軟亞洲研究院參加了 11 項,其中 7 項翻譯任務獲第一,包括:德語-英語、德語-法語、法語-德語、中文-英語、英語-立陶宛語、英語-芬蘭語、俄語-英語。另外 4 項任務獲得第二,包括:英語-德語、立陶宛語-英語、芬蘭語-英語、英語-哈薩克語。來自微軟的另外一支團隊則在英語-德語的任務上獲得了第一名。

結果顯示,此次大賽的亞軍團隊在 3 項任務中獲得了第一,季軍團隊則有兩項獲得第一,來自微軟亞洲研究院的神經網路機器翻譯演算法的表現遙遙領先於其他參賽隊伍。

機器翻譯演算法改進

2018 年 3 月,由微軟亞洲研究院與微軟雷德蒙研究院共同研發的機器翻譯系統便在 WMT 2017 大會上發布的通用新聞報道測試 newstest2017 機器翻譯系統融合了微軟亞洲研究院機器學習組的最近研究成果——對偶學習(Dual Learning)和推敲網路(Deliberation Networks),以及自然語言計算組的最新技術——聯合訓練(Joint Training)和一致性規範(Agreement Regularization)。

在 WMT 2019 的比賽中,微軟亞洲研究院機器學習組再次將多個創新的演算法運用在了機器翻譯的任務中,從學習機制、預訓練、網路架構優化、數據增強等方面,提升了機器翻譯結果的質量。

此次使用的創新演算法包括:

  • MADL:Multi-agent dual learning,多體對偶學習

  • MASS:Masked sequence to sequence pre-training,屏蔽序列到序列的預訓練

  • NAO:Automatic neural architecture optimization,自動神經網路架構優化

  • SCA:Soft contextual data augmentation,軟性上下文數據增強

其中,關於 NAO 的論文已被 NIPS 2018 收錄,關於 MADL 的論文已被 ICLR 2019 收錄,關於 MASS 的論文則被 ICML 2019 收錄。

新的學習機制:MADL 多體對偶學習

在機器翻譯中,訓練數據的數據量越大、質量越高,其訓練的翻譯結果越好。基於對偶學習,創新的 MADL 演算法利用正向與反向翻譯的多個模型對單語數據進行前向和後向翻譯並打分,然後將得分最高的數據放置到訓練數據中從而獲得更多高質量的數據,或者將單語數據的前向後向重建誤差加入到損失函數里來增強學習過程。MADL 不局限於某個語種,可以在任何源語種和目標語種之間提供這樣的對偶學習能力。

更好的預訓練:MASS 屏蔽序列到序列的預訓練

MASS 是針對序列生成設計的預訓練演算法,比 BERT 以及 GPT/2 更加通用。BERT 模型通常是屏蔽掉句子中的一個單詞,然後通過分類來預測這個詞;GPT 模型是給定前面的詞,通過分類生成後面的詞,直至一句話或整篇文檔;兩者都是預訓練一個編碼器。而翻譯則是基於編碼器-解碼器-注意力框架,因此 BERT 和 GPT/2 並不能很好地適用於翻譯任務。但 MASS 則能將句子中的部分連續片斷隨機屏蔽,然後訓練一個編碼器-解碼器-注意力模型預測生成該片斷,從而利用海量單語數據預訓練然後初始化翻譯模型。因此,MASS 比 BERT 和 GPT/2 都更適用於機器翻譯這個應用場景。實驗證明,MASS 屏蔽翻譯句子中 50% 的片斷效果最好。

網路架構優化: NAO 自動神經網路架構優化

NAO 是從神經網路結構優化的角度去提升機器翻譯水平。不同的網路結構通常對於翻譯結果有著較大影響,NAO 把離散的網路結構嵌入到連續的向量空間,從而通過連續優化找到更好的網路結構。與固定的 Transformer 相比,NAO 可以找到更多樣的網路結構,和 Transformer 形成互補優勢,使得機器翻譯多模型集成的結果更佳。

數據增強:SCA 軟性上下文數據增強

所謂 SCA 軟性上下文數據增強,是在雙語訓練數據中隨機屏蔽某個詞,再基於語言模型利用上下文來預測這個詞,隨後選擇概率最高的幾個詞,根據預測概率把這些預測的詞線性組合到一起,替換原來被屏蔽的詞。這樣一個句子/句對可以生成多個句子/句對,同一個句子的翻譯就可以出現多個合理的翻譯結果,這也與實際翻譯過程中翻譯結果並不唯一這一事實相吻合。通過如此軟性上下文數據增強,從而擴大訓練數據的規模,增強數據質量,得到更好的翻譯結果。

在此次的 11 項機器翻譯任務中,微軟亞洲研究院的研究員們在每個翻譯任務上採用了上述不同的技術。未來,研究團隊計劃將這四個層面的創新技術整合,並且通過與微軟翻譯產品部門的合作,將新技術儘快轉化到微軟翻譯產品中。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

不得了喲!這隻近紅外靈敏光譜儀,還沒一毛硬幣大!
研發轎車、開放一鍵加電以及跳過L3,蔚來是如何思考的?

TAG:雷鋒網 |