馬雲爸爸「翻譯情未了」? 回顧阿里翻譯平台的進擊之路!
雷鋒網AI科技評論按:在百度翻譯,谷歌翻譯幾乎要霸佔整個機器翻譯市場時,阿里翻譯跳出來宣布已成功研發阿里雲API工具,可以將神經網路翻譯訓練效率提升5倍,阿里翻譯平台將很快上線。希望阿里翻譯以後也能走進我們的生活中。
眾所周知,馬雲爸爸在創立阿里之前是做翻譯服務及開翻譯公司的。隨著近幾年阿里的業務不斷擴大,全球化戰略進程加速,語言問題也成了最基礎的需求之一。尤其是跨境電商交易對多語言翻譯需求尤甚。此前阿里在語言服務上做過不少努力,包括收購國內最大的人工翻譯平台,但這遠遠不能滿足阿里平台上億級別客戶的需求。正當阿里為此感到苦悶時,谷歌的神經網路翻譯技術出現了,可以說是為阿里的翻譯平台插上了一對翅膀。
早在2015年6月份,阿里就已收購國內最大的眾包翻譯平台——365翻譯。當時把阿里翻譯平台定位為阿里巴巴的語言服務平台,將瞄準人機結合模式,在語言服務領域進行更多創新。365翻譯加入的確實為阿里的跨境電商領域分擔了一些翻譯業務上的壓力。並且在機器翻譯領域,和電商相關的幾個主要語種中,其翻譯的準確率基本和谷歌翻譯持平。然而,阿里語言服務平台的野心並不止於此。他們想藉助強大的人工翻譯團隊和電商大數據研發下一代基於神經網路技術的翻譯平台。
神經網路翻譯技術是一種用於自動翻譯的端到端的學習方法,該方法能夠克服傳統的基於短語的翻譯系統的缺點,可以將整個輸入句子視作翻譯的基本單元。從2016年以來的學術界頂級會議上,幾乎全是圍繞NMT相關的創新工作,之後谷歌、微軟等巨頭公司相繼發布NMT系統。
阿里翻譯團隊也緊緊抓住這一機會於2016年10月起正式開始自主研發NMT模型,2016年11月首次將NMT系統的輸出結果應用在中英消息通訊場景下的外部評測中並取得了不錯的成績,翻譯質量有了大幅度提升。
但是,由於NMT(神經網路機器翻譯)模型的結構複雜,且深度神經網路模型本身的訓練過程一般又會涉及很大量的計算,因此NMT系統往往需要較長的訓練周期,例如,使用3000萬的訓練數據在單塊GPU卡上一般需要訓練20天以上,才能得到一個初步可用的模型。
基於上述問題,2017年2月初開始,阿里翻譯團隊和阿里雲Large Scale Learning(大規模學習)的穆琢團隊合作,共同開發支持分布式訓練的NMT系統,並於2017年3月底完成了第一個版本的分布式NMT系統。
在2017年4月份的英俄電商翻譯質量優化項目中,分布式NMT系統大大提高了訓練速度,使模型訓練時間從20天縮短到了4天,為項目整體迭代和推進節省了很多時間成本。
圖:使用不同卡數時,在中英100萬訓練語料上獲得的收斂加速比
PAI是阿里推出全球化戰略「NASA」計劃後發布的首個重磅工具,可以完全兼容全球主流的深度學習開源框架。同時,底層提供強大的雲端異構計算資源,包含CPU、GPU、FPGA。在GPU方面,可靈活實現多卡調度。
除了基於MA的分布式實現,增加GPU卡的數量,有不同的收斂加速比以外,阿里翻譯項目組還嘗試了其他多種分布式實現方法,也都獲得了不同程度的加速效果,包括Downpour SGD、AllReduce SGD以及使用了BMUF(Blockwise Model-Update Filtering, 一種針對Model Average方法的改進方案)策略的Model Average方法。下圖中顯示,在硬體條件相同,BMUF的收斂效果要比MA(黃色柱狀)分布式要好。
阿里方面還表示:上一階段工作主要集中在模型訓練階段的加速策略上,接下來的工作主要分為兩方面:一方面是繼續挖掘分布式訓練的加速潛力,通過系統與演算法相結合的優化策略,最大化利用硬體資源,提升收斂加速比,並將分布式優化策略和演算法模型本身解耦,實現複雜深度學習模型分布式加速功能的組件化和通用化。
另一方面,需要在現有的服務化方案的基礎上,進一步通過模型精度壓縮、網路結構簡化等方式,在保證模型效果的同時,提高解碼速度,降低線上延時,進而增強線上服務能力,節約服務化所需的硬體成本。
阿里雲PAI工具使阿里翻譯平台的神經網路翻譯訓練效率提升5倍,確實非常厲害。這將大大加速阿里翻譯平台建設之路。正當雷鋒網編輯想對阿里的翻譯質量來一個評測對比,點擊阿里翻譯平台官網:www.alifanyi.com卻發現功能還未對外開放。
後來雷鋒網了解到:阿里翻譯團隊還在破解線上服務處理延時的難題,平台目前還在內測階段。不過雷鋒網編輯還是發現了一個能使用阿里翻譯界面的網站。現在就來對百度翻譯,谷歌翻譯,阿里翻譯做一個簡單的漢譯英測試。
百度翻譯:
谷歌翻譯:
阿里翻譯:
為了能使阿里翻譯體現出自己擁有電商大數據的優勢,特別選了一句跨境電商領域的句子:自有產品,經營主體自行生產或自有品牌的產品,以及外部採購以自己名義進行銷售的產品。從翻譯結果對比來看,阿里翻譯似乎比百度和谷歌的翻譯好一點。接下里進行第二項測試,英譯漢測試:
百度翻譯
谷歌翻譯
阿里翻譯
這次阿里翻譯似乎表現的不太好,表現最好的是百度翻譯。不過從一些關鍵詞的翻譯還是能體現出阿里翻譯的特色,比如:jurisdiction,翻譯為「法域」;buyer和seller翻譯為買家和賣家。可以猜測阿里翻譯在跨境電商等類似的特定場景下會表現的更好。總的來說,阿里翻譯的漢譯英表現還不錯,但在英譯漢的情況下表現的不如谷歌翻譯和百度翻譯。
阿里翻譯現在還沒上線,但憑藉自己擁有海量的電商跨境交易數據和強大的365人工翻譯團隊,再加上阿里雲PAI工具對神經網路翻譯訓練效率的提升,相信不久後阿里翻譯會有一個質的飛躍,在機器翻譯領域佔取一定的市場份額也不是沒有可能。希望阿里翻譯平台開放後能給用戶一個驚喜。
據雷鋒網了解:在阿里巴巴內部,PAI已經被廣泛使用。淘寶搜索使用PAI的參數伺服器,可以把百億個特徵的模型,分散到數十個乃至於上百個參數伺服器上,打破規模瓶頸。最終實現搜索結果基於商品和用戶的特徵進行排序。現在,阿里翻譯團隊還在破解線上服務處理延時的難題,為神經網路機器翻譯模型的大規模應用掃除最後障礙。
via雷鋒網
TAG:雷鋒網 |
※你見過哪些快竄上天的奇葩翻譯?六神花露水、老乾媽該怎麼翻譯?
※西遊記:唐僧的「緊箍咒」為什麼讓悟空頭痛?聽完翻譯你就懂了!
※李鍾碩台詞翻譯大賽投票即將結束,快看看你進前二十了嗎?
※來,給我翻譯翻譯什麼叫驚喜?
※看看這塊「土豪金」,翻譯翻譯,什麼叫做「腕兒」
※翻譯打卡,你來了嗎?
※最強騷話王阿福的經典台詞都是錯的,來看看網友怎麼翻譯?
※爸媽版「內心戲」來襲,正在以光速為你翻譯解讀……
※為什麼山東隊翻譯「胡說八道」?凱撒一句話透漏了真實原因!
※里皮很冤枉!吐槽國腳無榮譽感是翻譯烏龍 董路卻跟網友吵起來了
※美軍阿富汗翻譯官明面做翻譯帶路賺美元,暗地當蛇頭偷渡掙黑錢
※對搜狗來說,賣「速記翻譯筆」和「旅行翻譯包」會是好生意嗎?
※宋智孝採訪新聞翻譯,被媽媽們感動到哭!
※Faker直播時說了什麼讓翻譯小姐姐紅了臉翻譯不下去?觀眾嗨了!
※路飛叫魯夫,山治叫香吉士?這些名字啥情況,是瞎翻譯的么?
※吊打譯製片,民間字幕組玩轉神翻譯,原來他們才是翻譯界的王者!
※台灣女翻譯的大腿,「友邦」隨便摸!
※國際巨星李冰冰居然被女翻譯搶了鏡!看著女翻譯的眼神好無奈
※江疏影的英語太厲害了吧!竟然都可以去給英國首相做翻譯了?
※那些年,流行的「網路語」,翻譯成「古文」美翻了!你知道嗎?