快9倍!Facebook開源機器學習翻譯項目fairseq
Facebook的使命是讓世界變得更加開放,讓每個人都能以最高的準確性和最快的速度使用自己喜歡的語言來發帖子和視頻進行互動,語言翻譯對此十分重要。
雷鋒網了解到,今天,Facebook的人工智慧研究團隊發表了他們的研究成果Fairseq,他們使用了一種新型的卷積神經網路來做語言翻譯,比循環神經網路的速度快了9倍,而且準確性也是現有模型中最高的。此外,FAIR序列建模工具包的源代碼和訓練好的系統都已經在開源平台GitHub上公布,其他的研究者可以在此基礎上建立自己的關於翻譯、文本總結和其他任務的模型。
為什麼選擇卷積神經網路?卷積神經網路在數十年前由Yann Lecun 提出,已經在諸如圖像處理之類的領域取得了成功。 循環神經網路卻是文本領域的現有技術,並且由於其極高的效率而成為語言翻譯的首選。
儘管循環神經網路以前在語言翻譯上比卷積神經網路表現的更好。但是其設計具有固有的局限性,這可以通過它們怎麼處理信息來理解。計算機一句一句地來翻譯一個文本然後去預測另外一種語言具有相同意思的單詞序列。循環神經網路以嚴格的從左到右或者從右到左的來進行運算,一次處理一個單詞。這和現在高度並行的GPU硬體有點不符合。由於單詞只能一個接著一個進行處理,計算不能完全並行。而卷積神經網路可以同時計算所有的元素,充分利用了GPU的並行性。CNN的另一個優點是它對信息進行分層處理,這讓它可以更容易獲得數據之間的複雜關係。
雷鋒網獲悉,在先前的研究中,卷積神經網路在翻譯任務上的表現要差於循環神經網路。然而,由於卷積神經網路架構上的潛力,FAIR開始了研究,發現所設計的翻譯模型顯示了CNN在翻譯方面的優異性能。CNN優異的計算性能將有可能會擴展可翻譯的語言,將包括全球的6500種語言。
最快最好的結果Facebook團隊的結果表明,在廣泛應用的標準測試數據集(WMT會議提供)上,其比RNN表現的更好。尤其是卷積神經網路比先前在WMT發表的結果都要好。在英語-法語任務上提高了1.5 BLEU,在英語-德語任務上提高了0.5BLEU,在WMT2016的英語-羅馬尼亞語任務上,提高了1.8BLEU。
對神經機器學習實際應用考慮的一個方面在於翻譯一個句子所需要的時間。 FAIR的卷積神經網路模型計算的相當快速,比循環神經網路快樂整整9倍。許多研究都通過量化權重或者其他的方法的方法來加速神經網路,這也同樣可以用於卷積神經網路。
用多跳注意和門控來獲得更好的翻譯效果
團隊的架構一個重要的部分就是多跳注意。注意力的機制類似於一個人在翻譯句子的時候會把句子分開翻譯,而不是僅僅看一次句子然後就直接寫下完整的翻譯。所設計的網路會重複地掃描句子來決定它將要翻譯的下一個單詞。多跳注意是這種機制的加強版,它讓網路更多次地掃描句子來產生更加好的結果。每一次掃描之間都相互影響。舉一個例子,第一次掃描會注意到一個動詞,然後第二次掃描會注意到相關聯的助動詞。
在下面這幅圖中,Facebook團隊展示了一個系統是怎麼閱讀一個法語短語然後再翻譯成英語的。首先,用卷積神經網路來生成每一個法語單詞的對應向量,在此同時進行計算。然後解碼的CNN再生成對應的英語單詞。在每一步,都掃描一下法語單詞來看一下哪些詞語與下一個要翻譯的英文單詞關係最為密切。在解碼器中有兩層,下面的動畫說明了每一層的注意力機制是怎麼完成的。綠線的強度表現了網路對每一個法語單詞的注意力。當網路訓練好之後,也就可以進行翻譯了,英文單詞的計算也可以同時進行。
系統的另一個方面是門控,其控制神經網路裡面的信息流。在每個神經網路中,信息都流過所謂的隱藏單元。的門控機制精確的控制了傳向下一個單元的信息,一個好的翻譯才因此產生。例如,當預測下一個單詞的時候,網路會把它前面的翻譯部分考慮進去。門控允許它在翻譯的一個特定方向進行放大—這一切都取決於網路認為其在上下文中認為合不合適。
以後的發展這一種方法是機器翻譯的一種替代框架,也給其它的文本處理任務提供了新的思路。例如,多跳機制在對話系統中允許網路注意對話的不同部分。例如對兩個沒有聯繫的事實,可以把它們聯繫在一起來更好地回答覆雜的問題。
via code.facebook,雷鋒網編譯
※GTC大會第二日亮點:NVIDIA將推出多用戶VR系統,計劃培養100000名開發人員 | GTC 2017
※Pico發布多款VR新品,押注VR一體機是因為「手機無法滿足VR的訴求」
※支付寶緊跟微信支付挺進美國,海外布局到底誰更厲害?
※爭議:VR 對眼睛害處到底大不大?能不能給小孩玩?
TAG:雷鋒網 |
※flask 項目中使用 bootstrapFileInput
※使用Skaffold一鍵將項目發布到Kubernetes
※使用Centos7.5+Nginx+Gunicorn+Django+Python3部署blog項目
※從論文到測試:Facebook Detectron開源項目初探
※使用Visual Studio Code編譯、調試Apollo項目
※Mozilla期望Firefox Fission項目能瓦解Spectre漏洞攻擊
※Blazor正式成為Microsoft官方.NET 和WebAssembly項目
※Andromeda項目:Surface Phone或以另外形式亮相
※All You Need Is Light:Olafur Eliasson的小太陽項目
※700 Manhattan Development項目在Koreatown開工建設
※Kickstarter升級Hardware Studio:讓投資者知道眾籌項目發展進度
※軟體定義網路項目OpenContrail改名為Tungsten Fabric
※Essentium、易生和Polymaker加入「Ultimaker材料聯盟項目」
※blogfoster-scripts:一款簡化 Node.js 項目初始化的工具
※國際 | Trump International Hotel & Tower New York(紐約)酒店翻新項目
※項目簡說之block collider
※Python web開發:Flask的項目配置
※重磅!神級項目圖靈獎加持:Todarand=Todacorp+Algorand
※GitHub 熱門項目:Python Fire
※Decred 的未來:項目負責人 Jake Yocom-Piatt 獨家專訪