「CNN超越RNN」DeepL機器翻譯碾壓谷歌、Facebook和微軟
1新智元編譯
谷歌、微軟、Facebook等科技巨頭都將機器學習應用於翻譯,但是一家名叫DeepL的小公司已經超越它們。DeepL開發的翻譯工具與谷歌等的競爭產品一樣快,但其準確度和對翻譯內容的微妙把握比我們嘗試過的任何翻譯工具都更好。
我除了英文,只會講一些法語,但幸運的是,我的同事Frederic會講很多國家的語言。我們都認為DeepL的翻譯總體上優於谷歌翻譯和Bing翻譯。
我們找了幾段德語的新聞,分別用DeepL翻譯和谷歌翻譯翻譯成英文,結果如下:
上:DeepL的翻譯結果;下:谷歌翻譯的翻譯結果
Frederic對這兩段的翻譯評價道:「谷歌的翻譯往往是按字面意思非常直接地翻譯,這會錯過一些微妙的表達和成語(或把成語翻譯錯),DeepL通常能提供更自然的翻譯結果,更接近一位受過訓練的人類譯者的翻譯。」
第二句話的分析更自然;該措施是「旨在」完成某事而不僅僅是正在做某事;警察「在路上開著裝甲車」,而不僅僅是在車上;「martial appearance」這個詞雖然不夠好,但遠遠優於「fighters」......
我自己用一些我很熟悉的法語文學作品進行了一些測試,同樣,我認為DeepL的翻譯結果優於其他。它在時態、意圖、一致上犯錯誤更少,能更好地理解和翻譯成語,因此翻譯結果更具有可讀性。DeepL自己的盲測也是如此。你可以在DeepL主頁自己測試一下:https://www.deepl.com/translator
被選為最好的翻譯的概率
BLEU 分數
確實,就算譯文出現上文提到的那些類型的錯誤,意思還是可以成功地傳達到的,正如我們用最爛的機器翻譯程序也能夠傳達意思。
DeepL的誕生來自同樣優秀的Linguee,這是一個已經有許多年頭的翻譯工具,雖然挺受歡迎,但從未達到谷歌翻譯的受歡迎程度——後者畢竟在品牌和地位方面都具有巨大的優勢。Linguee的聯合創始人Gereon Frahling原來在Google Research工作,但在2007年離職創辦Linguee。
該團隊多年來一直研究機器學習與他們核心的機器翻譯相關的任務,但去年,他們才開始認真研究一個全新的翻譯系統,並創辦一個新的公司,兩者都被命名為DeepL。
Frahling在一封電子郵件中告訴我,現在時機已經成熟:「我們已經創建一個神經翻譯網路,其中包含了大量最新的研究成果,我們也添加了自己的想法。」
在盲測中,翻譯員更傾向於選擇DeepL Translator的翻譯結果,比例大概在3:1。
為了訓練我們的神經網路,我們在冰島搭建了超級計算機,每秒能執行5.1peta 浮點運算。在當前的TOP 500 超級計算機排名上排在23名。
隨著計算能力在一秒內翻譯100萬字; DeepL Translator可以每天幫助世界各地的數百萬人。
神經網路的性能取決於其訓練的材料的質量。 DeepL的神經網路訓練了搜索引擎Linguee提供的數十億高質量翻譯句子。這給了DeepL一個無可比擬的優勢。
他們有超過包含10億翻譯和查詢的巨大資料庫,通過搜索網路上類似的文字片段,為新模型的訓練提供了堅實的基礎。他們擁有聲稱是世界上第23強大的超級計算機,位於冰島。
大學、研究機構以及Linguee的競爭對手們發表的最新研究表明,卷積神經網路(CNN)是更好的途徑,而不是該公司一直使用的循環神經網路(RNN)。這篇文章不是要說CNN和RNN之間的差異,只需說對於較長的、有較複雜相關性的句子來說,CNN是更好的選擇。
一個CNN可以粗略地說是一次處理句子的一個詞。例如,經常出現的情況是,句子的最後一個詞決定了句子最開頭的字的形式,這就會出問題。只是為了發現網路選擇的第一個詞是錯誤的,需要通過整句話,然後再重新處理一遍,這就造成了浪費。因此,DeepL和機器學習領域的其他人應用「注意力機制」來監控這種潛在的問題,在CNN移動到下一個單詞或短語之前就解決這些問題。
當然,他們還有其他的秘密技巧,他們的結果是做出了這個翻譯工具,我個人是打算用作我的默認翻譯工具了。期待其他工具更進一步。
原文:https://techcrunch.com/2017/08/29/deepl-schools-other-online-translators-with-clever-machine-learning/
點擊閱讀原文可查看職位詳情,期待你的加入~
※「AI版摩爾定律」10張圖盤點計算機視覺、語音和文本理解里程碑
※「AI版摩尔定律」10张图盘点计算机视觉、语音和文本理解里程碑
※「不依賴離線訓練」為什麼說持續學習才是AI的關鍵
※「h-index Top 1000 计算机科学家」34名图灵奖得主、53 名华人学者上榜
TAG:新智元 |
※Windows Defender ATP機器學習和AMSI:發掘基於腳本的攻擊
※Google推出AI晶元Edge TPU,可在邊緣運行TensorFlow Lite機器學習模型
※NASA機器人上的Peratech QTC的技術
※樂高BrickHeadz系列新品登場;《復聯3》Egg Attack Action系列;Pepper機器人將進入中國
※FAIR開源Tensor Comprehensions,讓機器學習與數學運算高性能銜接
※FAIR 開源 Tensor Comprehensions,讓機器學習與數學運算高性能銜接
※機器視覺目標檢測補習貼之R-CNN系列—R-CNN,Fast R-CNN,Faster R-CNN
※ClickHouse如何結合自家的GNDT演算法庫CatBoost來做機器學習
※使用TensorFlow,Kafka和MemSQL進行實時機器學習
※Warm Weekly | Vans與梵高聯名;日本生產蜈蚣機器人;Uniqlo U 秋冬系列發布
※英特爾宣布Windows機器學習Movidius Myriad X VPU
※德國Festo推出仿生機器人BionicWheelBot
※機器學習基石-The Learning Problem
※Facebook發布Tensor Comprehensions:自動編譯高性能機器學習核心的C+庫
※VR動作遊戲《Astro Bot Rescue Mission》與機器人一起戰鬥
※LG展示「可穿戴」機器人CLOi SuitBot
※用iPhoneX和Galaxy Note 9機器跑分那個更高?
※對標Sony Xperia Touch!小狗機器人發布Puppy Cube s
※Github上線使用BCH的打賞機器人GitCash
※Mac上訓練機器學習模型,蘋果WWDC發布全新Create ML、Core ML 2