全球溝通無障礙?Facebook的新技術會成功嗎?
《創世記》第11章中記載,人類計劃建立通天的高塔,而上帝讓人類說不同的語言,使得他們無法協作,計劃最終失敗。
現實中,不同語言成為了各自所屬文化的因子,構建出一種多樣的美。但語言仍像鴻溝,阻礙著人類的交流。
最近,Facebook用人工智慧對翻譯系統進行了一次重大改造。
他們的工程師發現,網站上對帖文和回復進行翻譯的按鈕每天會被點擊數十億次,翻譯動作有數千個方向(比如中英互譯,英文到中文是一個方向,反之又是另一個方向)之間。
如此巨量的翻譯工作,Facebook一直以來做的卻不好。他們過去使用的統計機器系統,翻不準俗語,識別不了錯字和縮寫,無法理解上下文,很難準確翻譯帖文的意圖。於是,工程師們用改用一種名叫「帶注意力的長短時記憶」(Long Short-Term Memory with attention, LSTM) 的深度學習技術,設計了一套人工智慧翻譯系統。
目前,新的神經機器翻譯系統已完全取代了過去的機翻系統,部署到Facebook網站、Instagram以及其他產品中。改造的效果顯著:按照業界公認的BLEU標準,Facebook新翻譯系統各種語言互譯得分比舊系統提高了11%。
人際溝通大多通過語言完成。而當參與方不使用統一語言,溝通就必須通過翻譯。因此翻譯系統的準確度極大影響著溝通的成果。但遺憾的是,絕大多數網上和手機上的翻譯網站和軟體,背後的技術都來自機器翻譯。
通常,機翻系統對常見的單詞、短語和句法簡單的句子翻譯效果較好。如果一句話就是主謂賓,比如「我吃米飯」,系統翻譯成 「I eat rice」,這沒問題。
但比如中日互譯、或者下圖中土耳其語和英文互譯,原文的語言和翻譯後語言在句法上有很大的差別,機器翻譯就會捉襟見肘了。下圖是機翻結果:
翻譯出的英文沒有語法錯誤,但還是不太容易懂什麼意思。這是因為機翻會把句子拆成一個個欄位,結果就是把一個個欄位的翻譯放出來,沒有對目標語言的語序、語法和表達習慣進行優化。
人工智慧怎樣做到更準確、更有人味兒地翻譯呢?
維基百科解釋, LSTM是一種在時間上遞歸神經網路 (Recurrent Neural Network),適合於處理和預測時間序列中間隔和延遲相對較長的重要事件。翻譯正好是這種類型的工作,因為很長的一句話,可能後半段是對前半段的邏輯呼應,但機翻系統根本不記得前面說的是什麼。
LSTM能記住整句話的內容,對句子的上下文進行反溯,理解邏輯,從而給出更、流利和地道的翻譯結果,如下圖:
「注意力」(attention) 也是深度學習里一個很有趣的機制,它有點像人類觀察事物時眼神的聚焦,鍋里有菜,你會自動把更多注意力分配到菜上而不是鍋或者鍋柄。
注意力能夠幫助新系統留意一些在標準英語辭典里沒有出現的詞,這些詞很有可能是縮寫和短語,比如idk (I don』t know)、tmrw (tomorrow),也有可能是網路用語。當神經機器在句子里發現這樣的詞,會先留空不翻譯,分配一定的計算力,去其他詞庫和訓練數據集查找這個詞的釋義,最後再翻譯出來。
不僅如此,研發團隊還利用了一些神經網路剪枝(保留重要的權重)和壓縮編碼的演算法,極大地降低神經翻譯系統的辭彙表大小,減小了計算量,但沒有拉低翻譯精度。
搞定了翻譯系統,並不是終點,工程師們還要把它部署到Facebook數十億用戶量級的後端系統中去。開發了深度學習框架Caffe的Facebook研究科學家賈揚清,已經帶隊開發出了更注重模塊化,利於移動端和大規模部署的Caffe2。在新框架上運行,神經翻譯系統的效率提升了2.5倍。
去年,全球5億人使用的Google Translate服務中部署了神經翻譯機器。當時PingWest品玩用一些經典中英段落測試互譯,仍會出現奇怪的翻譯:
In my younger and more vulnerable years my father gave me some advice that I』ve been turning over in my mind ever since。
「Whenever you feel like criticizing anyone,」he told me,」just remember that all the people in this world haven』t had the advantages that you』ve had。」
人工翻譯: 我年紀還輕,閱歷不深的時候,我父親教導過我一句話,我至今還念念不忘。
「每逢你想要批評任何人的時候,」他對我說,「你就記住,這個世界上所有的人,並不是個個都有過你那些優越條件。」 Google神經機器翻譯(去年): 在我更年輕,更容易年,我的父親給了我一些建議,我一直在我心中從此翻身。
「每當你覺得批評任何人,」他告訴我,「只記得,所有的在這個世界上的人都沒有,你有過的優勢。」
時隔一年之久再去測試,效果已經好了很多: 在我年輕,更脆弱的歲月里,我父親給了我一些建議,自從我一直在轉過頭來。
「每當你想批評任何人,」他告訴我,「只要記住,這個世界上所有的人都沒有你的優勢。」
※手機中的內存到底是啥意思?4G和6G的區別又在哪呢?
※HTC曾經的霸主 如今一敗塗地
TAG:虹英來說數碼 |