當前位置:
首頁 > 科技 > 號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?

如今,又一個新的挑戰者高調加入進來,直接把矛頭指向堪稱行業技術標杆的谷歌、微軟以及Facebook。

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?

上周,來自德國的DeepL翻譯上線,號稱實現了NMT技術的新突破,打造出了「世界上最精確、語言組織最自然的機器翻譯系統」;並宣布在自家組織的盲測中,打敗了谷歌翻譯以及微軟與Facebook的NMT系統,釁意十足。

目前,DeepL翻譯已支持英德法西等42門歐洲語言,正在對漢、日、俄等語言進行訓練,並計劃在將來發布一款API,讓開發者能夠將DeepL翻譯整合入其應用中。

公司前身

首先要說,這家公司的來歷並不簡單。

公司的前身是運營已近十年的在線外語詞典Linguee,DeepL翻譯也完全由Linguee團隊打造。Linguee在國內沒什麼存在感,至於在海外……有谷歌翻譯專美於前,存在感也不是很高,但還是有一批認可它的用戶。

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?

Linguee的英漢、漢英詞典界面

不過,Linguee的成敗現在已經不重要,畢竟都換馬甲了——Linguee在今年正式更名DeepL,以「Deep」提醒VC自己是一家正兒八經的深度學習公司。

真正重要的是Linguee的技術積累。Linguee由前谷歌翻譯研究員GereonFrahling在2007年離職開發,2009年正式上線。就所知,Linguee的核心優勢是它的爬蟲和機器學習系統,前者抓取互聯網上的雙語對照翻譯,後者對這些翻譯的質量進行評估。兩者結合,使Linguee成為了當時「世界上首個翻譯搜索引擎」。十年積累,Linguee無論在數據和對演算法的研究上都不可小覷。

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?

去年在倫敦Noah上演講的GereonFrahling

一年前,其研究團隊著手欲實現一個新目標:利用在機器翻譯領域的多年專業積累,打造一套業內最先進的NMT系統。這便是8月29日上線的DeepL翻譯。

三大優勢

既然底子厚實,我們來看看這些積累給DeepL帶來了哪些資源優勢。

以下信息均是DeepL一家之言,尚無第三方背書,大家需自行判斷其含金量。

  • 數據

Linguee的數據集有逾十億組對照翻譯語句,號稱是世界上最大的人工翻譯數據集。Linguee能隨時搜索近似翻譯結果。

  • 計算力

DeepL在冰島搭建了一台超算,號稱在全球HPC中性能排名第23位,浮點運算能力達到5.1petaFLOPS。因而能實現令DeepL十分自豪的計算速度:每秒處理百萬量級的詞語翻譯。

  • 演算法

採用CNN而不是NMT產品通用的RNN。DeepL宣稱其技術積累使得它能夠克服CNN的主要短板,因而能實現比基於RNN的競品演算法更精確、自然的翻譯結果。

效果展示

DeepL宣稱其翻譯系統的表現打敗了谷歌翻譯以及微軟、Facebook的NMT系統,是基於兩個指標:盲測反饋和BLEU分數。

  • 盲測

DeepL邀請了職業翻譯者,對DeepL翻譯、谷歌翻譯、微軟翻譯以及Facebook的NMT系統進行了盲測,要求測試者選出所認為的最好的翻譯結果。測試語言為三組,分別是英德、英法、英西互譯,樣本為100個句子。DeepL並未公布每組參與測試的職業譯者數量。測試結果如下:

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?

如圖所示,在每一門測試中,選擇DeepL的測試者都最多。DeepL在英譯德、英譯法、英譯西的優勢尤其明顯。其官方統計是:選擇DeepL為最佳翻譯結果的次數,與選擇另外三家NMT服務的平均比例為3:1。

  • BLEU

BLEU是業內評估機器翻譯質量最常用的打分演算法,其得分被認為與人類的評判結果具有較大相關性。

DeepL宣布,其英譯德、英譯法的BLEU得分超過了所有已發表的NMT研究,包括谷歌Transformer。結果如下:

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?

如圖,在英譯法項目上,DeepL的BLEU分數超過次優方案約3.5%。

業內觀點

踏入江湖的第一日,DeepL就自封「天下第一」。業內同行對此怎麼看?

對此,諮詢了搜狗語音交互中心總監陳偉、商鵲網CEO鄒劍宇,以及Facebook機器學習工程師王楊。需要說明的是,三位老師均表示:由於缺乏關於DeepL演算法、資料庫的第一手資料,也沒有來自第三方的信息,無法對其翻譯水平做出客觀判斷。商鵲網的CEO鄒劍宇評論道:「從相關報道中,對演算法的描述並不詳細,沒有論文披露細節,所以並不好理解。「

因此,以下僅為這四位看到DeepL宣傳信息後的一些個人看法。

一、

在Facebook從事應用機器學習的工程師王楊,聽到這件事的第一反應是懷疑——單是同時勝過谷歌翻譯和FacebookNMT這一點,不拿出有足夠說服力的證據就難以取信於人。谷歌的NMT積累深厚,Facebook的NMT也在快速發展。一個新的產品想要如其所宣傳的那樣實現大幅超越,很難。

若DeepL確實在技術上實現了突破,那麼不排除他們有全新的多語種(multilingual)模型。

至於DeepL的演算法模型基於CNN而不是RNN,王楊表示「這從側面支持了Facebook的研究」。FAIR(FacebookAIResearch)一直認為CNN在機器翻譯上的潛力遠遠大過RNN,尤其是計算速度,這也是Facebook在NMT領域的主要研究方向之一。

二、

搜狗語音交互中心總監陳偉,他們機器翻譯團隊剛剛在WMT2017評測中獲得中英、英中兩個翻譯方向的第一名,他認為數據對DeepL的貢獻可能遠大過其它因素。而Linguee的數據爬取和積累,是一項不小的優勢。

陳偉評論道:

「從BLEU對比看,提升的比較明顯,感覺他們十億量級的高質量數據對效果幫助比較大。實測大家都覺得好,這至少說明它數據的全面性還是夠的。」

據一位德語專業的譯員說,DeepL德英互譯的體驗確實不錯,這絲毫不意外——作為一家德國公司,順理成章的,DeepL重點關注的是德英、法英這些語種的翻譯。這為DeepL在這幾門語種的數據積累也提供了一定的聚焦和便利。

DeepL公布的盲測、BLEU評分,衡量的均是德、法、西這三門歐洲語言與英語之間的互譯。

在演算法方面,陳偉表示:


「沒看到他們技術的詳細介紹,只了解到使用了CNN而沒有使用RNN,但是我感覺架構變動不會太大,應該類似於Facebook的convs2s。

他並不認可「CNN是神經機器翻譯未來」的說法:


在搜狗的實驗對比中,「RNN-NMT、CNN-NMT和谷歌的Transformer框架。三個技術我們都認真研究和優化過,目前Transformer框架已經在搜狗翻譯系統上線,從機器評分和人工評測來看,都領先主要競品,較RNN-NMT、CNN-NMT提升也比較明顯。

業內也沒有一致觀點認為CNN是NMT的未來。我覺得技術方案無論是CNN、RNN、Transformer都沒做到極致,目前主流技術框架到底是什麼沒有定論,演算法細節的打磨和多種技術的融合會是未來發展趨勢,另外數據量會是各家公司的技術壁壘。」

最後,陳偉總結,根據DeepL公布的報告,目前的評測存在三個地方導致難以評估其技術:


  1. 人工評測的測試數據量僅有100句,而一般人工評測或者BLEU評測會採用幾千句的數量。

  2. DeepL對比其他家並沒有使用相同的訓練數據集,因此性能無法很好評估。

  3. 更多的技術細節沒有公布,很難把握具體的情況。

三、

商鵲網CEO鄒劍宇十分認同數據和計算資源對NMT產品的重要性:


「報道說其訓練引擎是基於一台冰島超級計算機,可以說深度學習真的很需要計算力。Linguee本身是一個不錯的語料庫公司,數據積累有自己的特點,這應該是其引擎優秀表現的一個基礎。

對於引擎的評測,Linguee引擎的盲測很好,BLEU值超過其他引擎最優質3個百分點(行業通識是,2個BLEU值的提高就可以稱作『顯著』)。」

對於BLEU值究竟能在多大程度上客觀反映翻譯質量,鄒劍宇強調,需要合理看待其參考價值,不可把它等同於普通人面對翻譯結果的直觀體驗:


「翻譯評測有三類對象:科研人員,譯員和普通閱讀用戶,三者評測的目標和方法不一致。BLEU是一個科研環境的評測參數,和人的閱讀體驗感受有很大的不同,不可以同類而論。」

他最後忍不住拿自家產品做對比,表示商鵲網的新引擎甚至達到了比谷歌翻譯高出6個百分點的BLEU值。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 太平洋電腦網 的精彩文章:

最新旗艦三防手機 Snopow雪豹P10 虹膜識別6G運行內存
7月大數據公布:OPPO R11成為全球暢銷的安卓手機
搭載AMD處理器!聯想推出ThinkPad系列最新產品
暗能量相機研究宇宙黎明時期:瞄準23個年輕星系

TAG:太平洋電腦網 |