當前位置：

首頁 > 科技 > 號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜？

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜？

科技 09-08

如今，又一個新的挑戰者高調加入進來，直接把矛頭指向堪稱行業技術標杆的谷歌、微軟以及Facebook。

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜？

上周，來自德國的DeepL翻譯上線，號稱實現了NMT技術的新突破，打造出了「世界上最精確、語言組織最自然的機器翻譯系統」；並宣布在自家組織的盲測中，打敗了谷歌翻譯以及微軟與Facebook的NMT系統，釁意十足。

目前，DeepL翻譯已支持英德法西等42門歐洲語言，正在對漢、日、俄等語言進行訓練，並計劃在將來發布一款API，讓開發者能夠將DeepL翻譯整合入其應用中。

公司前身

首先要說，這家公司的來歷並不簡單。

公司的前身是運營已近十年的在線外語詞典Linguee，DeepL翻譯也完全由Linguee團隊打造。Linguee在國內沒什麼存在感，至於在海外……有谷歌翻譯專美於前，存在感也不是很高，但還是有一批認可它的用戶。

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜？

Linguee的英漢、漢英詞典界面

不過，Linguee的成敗現在已經不重要，畢竟都換馬甲了——Linguee在今年正式更名DeepL，以「Deep」提醒VC自己是一家正兒八經的深度學習公司。

真正重要的是Linguee的技術積累。Linguee由前谷歌翻譯研究員GereonFrahling在2007年離職開發，2009年正式上線。就所知，Linguee的核心優勢是它的爬蟲和機器學習系統，前者抓取互聯網上的雙語對照翻譯，後者對這些翻譯的質量進行評估。兩者結合，使Linguee成為了當時「世界上首個翻譯搜索引擎」。十年積累，Linguee無論在數據和對演算法的研究上都不可小覷。

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜？

去年在倫敦Noah上演講的GereonFrahling

一年前，其研究團隊著手欲實現一個新目標：利用在機器翻譯領域的多年專業積累，打造一套業內最先進的NMT系統。這便是8月29日上線的DeepL翻譯。

三大優勢

既然底子厚實，我們來看看這些積累給DeepL帶來了哪些資源優勢。

以下信息均是DeepL一家之言，尚無第三方背書，大家需自行判斷其含金量。

數據

Linguee的數據集有逾十億組對照翻譯語句，號稱是世界上最大的人工翻譯數據集。Linguee能隨時搜索近似翻譯結果。

計算力

DeepL在冰島搭建了一台超算，號稱在全球HPC中性能排名第23位，浮點運算能力達到5.1petaFLOPS。因而能實現令DeepL十分自豪的計算速度：每秒處理百萬量級的詞語翻譯。

演算法

採用CNN而不是NMT產品通用的RNN。DeepL宣稱其技術積累使得它能夠克服CNN的主要短板，因而能實現比基於RNN的競品演算法更精確、自然的翻譯結果。

效果展示

DeepL宣稱其翻譯系統的表現打敗了谷歌翻譯以及微軟、Facebook的NMT系統，是基於兩個指標：盲測反饋和BLEU分數。

盲測

DeepL邀請了職業翻譯者，對DeepL翻譯、谷歌翻譯、微軟翻譯以及Facebook的NMT系統進行了盲測，要求測試者選出所認為的最好的翻譯結果。測試語言為三組，分別是英德、英法、英西互譯，樣本為100個句子。DeepL並未公布每組參與測試的職業譯者數量。測試結果如下：

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜？

如圖所示，在每一門測試中，選擇DeepL的測試者都最多。DeepL在英譯德、英譯法、英譯西的優勢尤其明顯。其官方統計是：選擇DeepL為最佳翻譯結果的次數，與選擇另外三家NMT服務的平均比例為3：1。

BLEU

BLEU是業內評估機器翻譯質量最常用的打分演算法，其得分被認為與人類的評判結果具有較大相關性。

DeepL宣布，其英譯德、英譯法的BLEU得分超過了所有已發表的NMT研究，包括谷歌Transformer。結果如下：

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜？

如圖，在英譯法項目上，DeepL的BLEU分數超過次優方案約3.5%。

業內觀點

踏入江湖的第一日，DeepL就自封「天下第一」。業內同行對此怎麼看？

對此，諮詢了搜狗語音交互中心總監陳偉、商鵲網CEO鄒劍宇，以及Facebook機器學習工程師王楊。需要說明的是，三位老師均表示：由於缺乏關於DeepL演算法、資料庫的第一手資料，也沒有來自第三方的信息，無法對其翻譯水平做出客觀判斷。商鵲網的CEO鄒劍宇評論道：「從相關報道中，對演算法的描述並不詳細，沒有論文披露細節，所以並不好理解。「

因此，以下僅為這四位看到DeepL宣傳信息後的一些個人看法。

一、

在Facebook從事應用機器學習的工程師王楊，聽到這件事的第一反應是懷疑——單是同時勝過谷歌翻譯和FacebookNMT這一點，不拿出有足夠說服力的證據就難以取信於人。谷歌的NMT積累深厚，Facebook的NMT也在快速發展。一個新的產品想要如其所宣傳的那樣實現大幅超越，很難。

若DeepL確實在技術上實現了突破，那麼不排除他們有全新的多語種（multilingual）模型。

至於DeepL的演算法模型基於CNN而不是RNN，王楊表示「這從側面支持了Facebook的研究」。FAIR（FacebookAIResearch）一直認為CNN在機器翻譯上的潛力遠遠大過RNN，尤其是計算速度，這也是Facebook在NMT領域的主要研究方向之一。

二、

搜狗語音交互中心總監陳偉，他們機器翻譯團隊剛剛在WMT2017評測中獲得中英、英中兩個翻譯方向的第一名，他認為數據對DeepL的貢獻可能遠大過其它因素。而Linguee的數據爬取和積累，是一項不小的優勢。

陳偉評論道：

「從BLEU對比看，提升的比較明顯，感覺他們十億量級的高質量數據對效果幫助比較大。實測大家都覺得好，這至少說明它數據的全面性還是夠的。」

據一位德語專業的譯員說，DeepL德英互譯的體驗確實不錯，這絲毫不意外——作為一家德國公司，順理成章的，DeepL重點關注的是德英、法英這些語種的翻譯。這為DeepL在這幾門語種的數據積累也提供了一定的聚焦和便利。

DeepL公布的盲測、BLEU評分，衡量的均是德、法、西這三門歐洲語言與英語之間的互譯。

在演算法方面，陳偉表示：

「沒看到他們技術的詳細介紹，只了解到使用了CNN而沒有使用RNN，但是我感覺架構變動不會太大，應該類似於Facebook的convs2s。

他並不認可「CNN是神經機器翻譯未來」的說法：

在搜狗的實驗對比中，「RNN-NMT、CNN-NMT和谷歌的Transformer框架。三個技術我們都認真研究和優化過，目前Transformer框架已經在搜狗翻譯系統上線，從機器評分和人工評測來看，都領先主要競品，較RNN-NMT、CNN-NMT提升也比較明顯。
業內也沒有一致觀點認為CNN是NMT的未來。我覺得技術方案無論是CNN、RNN、Transformer都沒做到極致，目前主流技術框架到底是什麼沒有定論，演算法細節的打磨和多種技術的融合會是未來發展趨勢，另外數據量會是各家公司的技術壁壘。」

最後，陳偉總結，根據DeepL公布的報告，目前的評測存在三個地方導致難以評估其技術：

人工評測的測試數據量僅有100句，而一般人工評測或者BLEU評測會採用幾千句的數量。

DeepL對比其他家並沒有使用相同的訓練數據集，因此性能無法很好評估。

更多的技術細節沒有公布，很難把握具體的情況。

三、

商鵲網CEO鄒劍宇十分認同數據和計算資源對NMT產品的重要性：

「報道說其訓練引擎是基於一台冰島超級計算機，可以說深度學習真的很需要計算力。Linguee本身是一個不錯的語料庫公司，數據積累有自己的特點，這應該是其引擎優秀表現的一個基礎。
對於引擎的評測，Linguee引擎的盲測很好，BLEU值超過其他引擎最優質3個百分點（行業通識是，2個BLEU值的提高就可以稱作『顯著』）。」

對於BLEU值究竟能在多大程度上客觀反映翻譯質量，鄒劍宇強調，需要合理看待其參考價值，不可把它等同於普通人面對翻譯結果的直觀體驗：

「翻譯評測有三類對象：科研人員，譯員和普通閱讀用戶，三者評測的目標和方法不一致。BLEU是一個科研環境的評測參數，和人的閱讀體驗感受有很大的不同，不可以同類而論。」

他最後忍不住拿自家產品做對比，表示商鵲網的新引擎甚至達到了比谷歌翻譯高出6個百分點的BLEU值。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 太平洋電腦網 的精彩文章:

※最新旗艦三防手機 Snopow雪豹P10 虹膜識別6G運行內存
※7月大數據公布：OPPO R11成為全球暢銷的安卓手機
※搭載AMD處理器！聯想推出ThinkPad系列最新產品
※暗能量相機研究宇宙黎明時期：瞄準23個年輕星系

TAG:太平洋電腦網 |