機器翻譯新突破：微軟中到英新聞翻譯達人類水平

科技 03-16

關鍵時刻，第一時間送達

歡迎下載騰訊新聞客戶端，關注科技頁卡，查看更多科技熱點新聞

昨日，微軟研究團隊表示，微軟和微軟亞研創造了首個在質量與準確率上匹配人類水平的中英新聞機器翻譯系統。

黃學東告訴機器之心，他們採用專業人類標註與盲測評分代替 BLEU 分值而具有更高的準確性，且新系統相比於現存的機器翻譯系統有非常大的提升。因此，根據人類盲測評分，微軟機器翻譯取得了至少和專業翻譯人員相媲美的效果。

微軟亞洲與美國實驗室的研究者稱，其中英新聞機器翻譯系統在常用的新聞報道測試集 newstest 2017 上達到了人類水平。該測試集由來自業界和學界的團隊共同開發，去年秋季在 WMT17 會議上發布。為了保證結果既準確又能達到人類水平，該團隊聘請了外部雙語評估員，他們對比了微軟的結果與兩組獨立翻譯的人類譯文。

微軟語音、自然語言與機器翻譯的技術負責人黃學東稱之為自然語言處理最具挑戰性任務中的重要里程碑。他對機器之心說：「我們的新系統相比之前的翻譯系統有非常大的提升，因此它確實是一個重大突破，是一個歷史性的里程碑。」

「機器翻譯達到人類水平是我們所有人的夢想，」黃說道，「我們只是沒想到這麼快就實現了。」

黃學東也領導了最近在對話語音識別任務中達到人類水平的研究組，他認為取得機器翻譯任務的這一里程碑尤其令人高興，因為它可以幫助人們更好地理解彼此。

黃學東說：「消除語言障礙，幫助人們更流暢地交流，這真的非常了不起，非常非常有價值。」

機器翻譯是研究者研究了數十年的問題，專家稱，很長時間以來人們都認為機器翻譯無法達到人類水平。研究者現在仍應該注意該里程碑時間並不意味著機器翻譯問題已經被解決。

微軟亞洲研究院副院長、自然語言處理組主任周明參與了該項目，稱研究團隊非常激動能夠在該數據集上達到與人類匹配的機器翻譯水平。但是他提到，目前仍然存在很多挑戰，如還需要在實時新聞報道上對該系統進行測試。

微軟機器翻譯團隊研究經理 Arul Menezes 稱，他們團隊計劃在測試集上證明該系統在中英語言對上可以達到與人類匹配的水平（中英語言對數據較多），此外，測試集還包括大眾新聞報道中更常見的辭彙。

「考慮到目前數據和可用資源所能達到的最佳案例，我們想找出該系統是否能夠實際匹配人類專業譯者的水平。」Menezes 稱，他也主導了該項目。

Menezes 稱研究團隊可以將這一技術突破應用於微軟的多語商用翻譯產品。這將為更準確、自然流暢的跨語言翻譯和更複雜或罕見的辭彙翻譯鋪平道路。

對偶學習、推敲、聯合訓練和一致性正則化

儘管學術和業界的研究者多年來一直在研究機器翻譯，但近期使用深度神經網路訓練 AI 系統的方法取得了實質性的突破。這些機器翻譯系統能夠輸出更流暢、自然的譯文，且比以前的統計機器翻譯方法有更廣闊的適用範圍。

為了在該數據集上訓練出能達到人類水平的翻譯系統，位於北京、雷德蒙德的三個微軟研究團隊通力合作，增加了許多其它訓練方法幫助系統更加流暢和準確。在許多情況下，這些新方法模擬人類改進翻譯工作的過程，一遍遍地迭代直到實現正確結果。

微軟亞研首席研究員劉鐵岩領導了該項目的機器學習團隊，他表示：「我們大部分研究都受到人類工作方式的啟發。」

他們使用的一種方法是對偶學習（dual learning）。我們可以把它看作一種核查系統工作的方法：每次他們向系統發送一個中譯英的語句，然後再將英譯文翻譯成中文。這就好像人們想要確保自動翻譯結果是準確的，這一方法允許系統從自身的錯誤中學習。微軟研究團隊研發的對偶學習也可用於提升其他 AI 任務的結果。

另一種方法稱為推敲網路（deliberation network），它與人類經常通讀全文來編輯和修改譯文的過程非常相似。研究人員會教系統重複翻譯相同語句的過程，並逐步潤色和提升譯文效果。

研究者同樣開發了兩種新技術以提升其翻譯準確率，周明說。一項叫作聯合訓練（joint training）的技術可用於迭代地提升英中、中英翻譯系統。通過這一方法，英中翻譯系統把新的英語語句翻譯成中文，從而獲得新的句對，用於增強中英翻譯訓練集。相同操作接著再用於中英翻譯系統。隨著不斷收斂，兩個系統的表現都獲得了提升。

另一項技術是一致性正則化（agreement regularization）。有了它，系統通過從左到右或從右到左的讀取即可生成翻譯。如果這兩個翻譯技術生成了相同的翻譯，則結果相比沒有獲得相同翻譯更加值得信任。該方法用於鼓勵系統生成一致的翻譯結果。

周明稱他希望這些方法和技術也對其他語言的機器翻譯提升有所幫助，並帶來翻譯領域之外的 AI 突破。

「這些有助於機器翻譯的方法和技術也可應用於整個 AI 研究領域」他說。

沒有「正確」答案

該研究團隊使用的測試集包含了一個在線新聞樣本的 2000 個語句，同時該測試集也被專業譯者翻譯過。

微軟在該測試集上進行了多輪評估，每次隨機選取數百個譯文。為了驗證微軟的機器翻譯水平和人類相當，該公司在該測試集的評估規範之外，還聘請了外部雙語語言顧問來對比微軟和人類譯者的翻譯結果。

驗證結果的方法也表明訓練準確的機器翻譯系統的複雜性。在其他任務中，例如語音識別，判斷系統的表現是否和人類一樣好是很直接的，因為理想結果對於人類和機器來說都是一樣的。研究者稱其為模式識別任務。

而在翻譯任務中存在很多微妙差別。即使兩個文筆流暢的人類譯者對同一句話的譯文也可能略有不同，並且二者都是正確的。這是因為一句話的正確譯文並不是唯一的。

「機器翻譯相比模式識別任務要複雜得多，」周說。「人們可以使用不同的詞來描述同樣的東西，你未必能夠指出哪一個更好。」

研究者稱正是這種複雜性使得機器翻譯尤其困難，也正是這一點讓它變得如此有趣。

劉說沒有人知道機器翻譯是否有朝一日能將任何語言文本翻譯得足夠好，在準確性和抒情性方面都能和人類譯者相當。但是，他說，近期的這些研究突破將使他們邁向下一個長期計劃，向這個目標和其它偉大的 AI 成就前進，例如在語音轉語音翻譯中達到人類水平。

「我們可以預測，我們一定能做得越來越好。」劉說。

附論文：Achieving Human Parity on Automatic Chinese to English News Translation

摘要：機器翻譯近年來發展迅速，現在數百萬人使用在線翻譯系統和移動 app 進行跨語言溝通。那麼我們自然會想到這個問題：機器翻譯系統能否接近或達到人類翻譯水平。本論文中，我們首次解決了如何定義和準確評估機器翻譯是否與人類翻譯水平相當的問題。我們介紹了微軟的機器翻譯系統，並在廣泛使用的 WMT 2017 中英新聞翻譯任務上對該系統的譯文質量進行了評估。評估結果表明我們最新的神經機器翻譯系統實現了新的當前最優結果，譯文質量與人類專業譯者水平相當。我們還發現它顯著優於眾包業餘譯者的譯文質量。

01 人類翻譯水平

直觀來看，我們將與人類翻譯水平相當定義為：

1. 如果一個具備雙語能力的人判斷人類輸出的譯文質量與機器輸出的譯文質量相當，則機器達到人類水平。

2. 如果機器翻譯系統在測試集上的譯文質量評分（人工評分）與人類譯文得分沒有顯著差別，則機器達到人類水平。

微軟選擇了第二個定義來鑒定機器翻譯是否達到了人類翻譯水平，這相對而言比較公平且比較有實際意義。給定可靠的翻譯質量評分指標，基於人類直接測評的方式，我們可以使用成對統計顯著性檢驗來決定機器翻譯系統在測試集上是否達到了人類翻譯水平。

現有的多種機器翻譯評測方法通常基於參考譯文，可能會出現偏差，因此微軟採用了 WMT17 [6] 使用的直接評估方法作為人工評分方法。為了避免人工評分過程中出現偏差，微軟和 IWSLT17 [7] 一樣使用了基於來源（source-based）的評價方法。

02 實驗

表 1 第一部分展示了基線模型的結果。首先，我們對比了 WMT 2017 最佳結果搜狗系統 [42]。儘管搜狗系統是多個系統的集成，我們這裡仍把它作為對照。該表中的其他系統都是單個系統。我們的基線系統 Base 在 1800 萬句子上訓練。BT 在基線模型的基礎上添加了回譯數據。

表 1： WMT 2017 中英測試集上的自動評估結果（BLEU 值）。

選擇數據的實驗結果

Base8K 使用基線數據和回譯數據，但是它使用的模型架構較大，處理大型數據集的效果更好。

表 2：WMT 2017 中英測試集上的選擇數據評估結果。

組合系統的實驗結果

如表 3 所示，結合一組異構系統可以互補，實現更好的結果。我們對許多組合系統的配置與特徵進行了實驗，發現最有幫助的評分特徵為 SY SScore、LMScore、R2Lscore、R2LSV 和 E2ZSV。這是非常令人驚奇的，因為組合系統關注於建模相似的特徵。這可能是由於這些模型學習互補特徵，它們有額外的能力相互補充。

表 3：WMT 2017 中英測試集上的組合系統結果。

03 人類評估結果

表 4 展示了我們的大規模人類評估結果。基於這些結果，我們認為，根據定義 2，我們在新聞領域中英翻譯方面已經達到了人類水平，因為我們的系統結果和人類譯文無顯著差別。

表 4：人類評估結果（每個系統至少有 n≥1827 個評估結果）表明我們的研究系統 Combo-4、Combo-5 和 Combo-6 達到了和人類相當的中英翻譯水平（根據定義 2），因為其翻譯結果和 Reference-HT（人類翻譯）無顯著差別。我們所有系統的譯文質量都顯著超越了 Reference-PE（基於機器翻譯輸出的譯後編輯結果），以及 Reference-WMT（也是人類翻譯）。# 表示集群的排名，Ave% 是平均原始分數 r ∈ [0,100]，Ave Z 表示標準 z 分數。n≥x 表示我們為該系統收集了至少 x 份評估結果。在表 5g 中表示為 Meta-1。

上表中，根據 p-level（p ≤ 0.05）的 Wilcoxon 秩和檢測（和 WMT17 一樣），更高層集群的系統顯著優於更低集群的系統。相同集群中的系統通過 z 分數進行排序（z 分數即圍繞平均值的標準差），z 分數在標註者級別上進行計算，以避免不同標註行為的影響，同時保證質量。

表 5：我們在 Subset-1（5a、5b、5c）上實現三次迭代的完整結果，以及在 Subset2 (5d)、Subset-3 (5e) 和 Subset-4 (5f) 上的評估結果對比。我們還展示了 Meta-1（5g）的組合數據結果，它將 Subset-1 上所有迭代的標註組合在一起。# 表示集群的排名、Ave % 表示平均原始分數，r ∈ [0,100]、Ave z 為標準化的 z 分數。n ≥ x 表示我們為各系統及其評估活動收集了至少 x 份評估結果。所有活動涉及 a = 15 個標註者。根據 p-level（p ≤ 0.05）上的 Wilcoxon 秩和檢驗，更高層集群中的系統顯著地優於低層集群中的所有系統。同一集群中的系統根據 z 分數排序，但同時與質量有緊密聯繫。

04 人類分析

表 7 展示了標註出的錯誤的分布，即包含特定錯誤類別的句子片段所佔比例。

表 7：錯誤分布，即包含特定錯誤類別的句子片段所佔的比例。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 騰訊科技 的精彩文章:

※專訪TCL多媒體CEO王成：海外市場大有作為

TAG:騰訊科技 |