當前位置:
首頁 > 科技 > Facebook最新機器翻譯研究成果—CNN比RNN更有效

Facebook最新機器翻譯研究成果—CNN比RNN更有效



Facebook最新機器翻譯研究成果—CNN比RNN更有效




Facebook最新機器翻譯研究成果—CNN比RNN更有效


圖:Pixabay


語言翻譯對於Facebook使世界更加開放和連接,使每個人都能用自己的首選語言以儘可能最高的準確性和最快的速度來分享帖子或視頻的使命具有十分重要的意義。


今天,Facebook人工智慧研究(FAIR)團隊發布了使用新穎的卷積神經網路(CNN)方法進行語言翻譯的研究結果,該方法以9倍於循環神經系統的速度獲得目前最先進的準確度。另外,FAIR序列建模工具包(fairseq)源代碼和經過訓練過的系統可以在GitHub的開源許可下使用,以便其他研究人員可以構建用於翻譯,文本摘要和其他任務的自定義模型。

為什麼是卷積神經網路(CNN)?


CNN最初是由Yann LeCun在幾十年前開發的,現如今,CNN在多個機器學習領域,如圖像處理方面的應用已經非常成功。但是,由於循環神經網路(RNN)是文本應用的現任技術,並且因其具有高精度,現早已成為語言翻譯的首選。


雖然歷史上,RNN在語言翻譯任務上的表現優於CNN,但它的設計具有固有的局限性,這一點可以通過查看他們如何處理信息的來加以理解。計算機是通過以一種語言來閱讀句子,並以另一種語言來預測具有相同含義的一系列單詞來進行文本翻譯的。RNN是按照嚴格的從左到右或從右到左的順序,逐字逐句進行執行的。對於驅動現代機器學習系統的高度並行的GPU硬體來說,這是一個不太自然的契合。計算不能完全並行化,因為每個單詞必須排隊等候,直到網路完成前一個單詞。相比之下,CNN可以同時計算所有元素,充分地利用了GPU的並行性。因此,它們在計算上更有效率。CNN的另一個優點是以分層的方式來處理信息,這使得捕獲數據中的複雜關係變得更加簡單。


在以往的研究中,CNN在應用於翻譯方面並沒有顯示出超越RNN的優越性。然而,由於看到了CNN在架構潛力,FAIR開始著手研究CNN在這方面的應用,從而導致了一個翻譯模型設計的誕生,充分顯示了CNN在翻譯方面的強大性能。強大的計算效率使得CNN有望擴展翻譯的規模,範圍可覆蓋全球6500多種語言。


以創紀錄的速度取得當前最佳地位

我們的研究結果表明,與RNN相比,在由機器翻譯會議(WMT)提供的廣泛使用的公共基準數據集上,我們已經達到了一個新的最先進的地位。特別是,CNN模型在WMT 2014英語—法語任務上的結果優於之前的最佳結果—1.5 BLEU(這是一個廣泛使用的用於判斷機器翻譯準確性的度量標準)。在WMT 2014英語—德語中,我們提高了0.5 BLEU;在WMT 2016英語—羅馬尼亞語中提高了1.8 BLEU。


對於在實際中的應用,神經機器翻譯需要考慮的一個因素是,一旦我們向系統顯示一個句子,需要多長時間來獲得一個翻譯結果。FAIR CNN模型在計算上非常有效,比強RNN系統快了接近9倍。許多研究集中在通過量化權重或濃縮等方法來加速神經網路,列舉幾種方法,並且這些方法可以同樣適用於CNN模型,用以提高速度,顯示出在未來的巨大潛力。


具有多跳注意(multi-hop attention)和門控(gating)來獲得更佳翻譯效果


我們的架構的一個顯著組成部分是多跳注意。注意機制類似於一個人在翻譯句子時會分解句子的方式:不同於僅僅看一次句子,然後寫下完整的翻譯而不回頭查看的方式,我們的網路(翻譯時)會在句子上採取重複地「回瞥」從而選擇下一步將會翻譯哪個詞,很像人類在翻譯時,寫下句子,然後偶爾回顧一下具體的關鍵詞。多跳注意是這種機制的增強版本,它允許網路進行多次這樣的瞥見,以產生更好的翻譯結果。這些瞥見也取決於彼此。例如,第一瞥可以集中在一個動詞上,而第二個瞥見則將注意力集中在相關聯的輔助動詞上。


在下圖中,我們展示了系統何時讀取法語短語(編碼),然後輸出英文翻譯(解碼)的過程。我們首先運行編碼器,使用CNN為每個法語單詞創建一個向量,同時進行計算。接下來,解碼器CNN會以一次一個的頻率產生英文單詞。在每一步,注意力都會關注法語句子,以決定哪些詞語與翻譯中的下一個英文單詞最為相關。在解碼器中有兩個所謂的層,下面的動畫說明了在每個層中注意力是如何執行的。綠線的強度表示網路對每個法語單詞的重視程度。當網路被訓練時,翻譯可以一直進行,而對於英文單詞的計算也可以同時進行。


Facebook最新機器翻譯研究成果—CNN比RNN更有效



我們系統的另一個方面是門控,控制神經網路中的信息流。在每個神經網路中,信息都要流經所謂的隱藏單元。我們的門控機制將控制哪些信息會傳遞到下一個單位,以便能夠產生良好的翻譯。例如,當預測下一個字時,網路會考慮到迄今為止所產生的翻譯。門控將允許它放大翻譯的一個特定方面或獲得更廣泛的概況,而這些取決於網路認為哪些內容更適合於當前的語境。


發展前景

這種方法是機器翻譯的一種可替代架構,為其他文本處理任務開闢了新的可能性。例如,對話系統中的多跳注意使得神經網路能夠集中在談話的不同部分,例如兩個單獨的事實,並將它們結合在一起,以便更好地應對複雜的問題。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器人圈 的精彩文章:

AI在中國製造業的應用如何評價?這本叢書將補空白!
AI已經觸摸到零售和廣告業,這五大領域不容錯過
同濟大學人工智慧研究院揭牌

TAG:機器人圈 |

您可能感興趣

Facebook Messenger迎來全新AR功能和M翻譯器
Facebook 開源 ConvNet AI:重新定義在線翻譯!
Timekettle時空壺翻譯耳機WT2 Plus使用評測
RaoTips翻譯 有關Batch Brew
翻譯們又要失業?Facebook最新無監督機器翻譯成果,BLEU提升10個點!
Facebook Messenger更新:自動翻譯外語 引入AR體驗
LG 的最新耳機支持一鍵啟用 Google Assistant 和翻譯功能
谷歌將AutoML應用於Transformer架構,翻譯結果飆升,已開源
Google為iOS版Gboard輸入法增加翻譯功能
NLP重磅!谷歌、Facebook新研究:2.26億合成數據訓練神經機器翻譯創最優!
通吃BERT、GPT-2,用TF 2.0實現谷歌破世界紀錄的機器翻譯模型Transformer
Facebook Messenger 將提供聊天翻譯功能
經濟學人翻譯練習 The Economist
Google Brain新成果:一個能夠理解機器思維方式的AI翻譯器
無監督神經機器翻譯——UNdreaMT
Please翻譯一下your English
開發小哥把Google Lens中AR翻譯功能移植到VR平台
Twitter PWA Win10版更新:翻譯實用
「安卓手機非常卡頓」扔進谷歌翻譯,Android Phone is very fast
Deep Voice Report個人翻譯