當前位置:
首頁 > 新聞 > 圖解神經網路機器翻譯原理:LSTM、seq2seq到Zero-Shot

圖解神經網路機器翻譯原理:LSTM、seq2seq到Zero-Shot

圖解神經網路機器翻譯原理:LSTM、seq2seq到Zero-Shot

20萬,這是新智元如今達到的用戶總數。在飛向智能宇宙的旅程中,感謝每一位和新智元同行的朋友。您的關注和支持是「新智元號」星艦永不枯竭的燃料。

圖解神經網路機器翻譯原理:LSTM、seq2seq到Zero-Shot

本文試圖為您深入淺出地講解機器學習翻譯引擎的工作原理,並解釋谷歌翻譯演算法的運作方式。

圖解神經網路機器翻譯原理:LSTM、seq2seq到Zero-Shot

如今機器翻譯系統則使用了不同的方法:它們通過分析大量文本來分配文本中的規則

如果谷歌翻譯引擎嘗試用較短的句子來翻譯,則會因為變數太多而無法進行。理想的狀態是教會計算機語法規則,然後讓它根據規則翻譯句子。可惜並不是這麼簡單。

飽受學習外語之苦的你肯定知道,規則總是有很多例外。當我們嘗試為程序描寫所有這些規則及其特例以及特例的特例時,翻譯的質量就無從保證。

如今機器翻譯系統則使用了不同的方法:它們通過分析大量文本來分配文本中的規則。

我們來看看機器翻譯這個「黑匣子」里是些什麼東西。深度神經網路可以在非常複雜的任務(語音/視覺對象識別)中取得優異結果,但儘管它們具有靈活性,卻只能用於輸入和目標具有固定維數的任務。

循環神經網路

這就是 LSTMs(Long Short-Term Memory networks)的用武之地了,LSTMs 可以幫助我們無法先驗獲知的序列。

LSTMs 是一種特殊的循環神經網路(RNN),能夠學習長期依賴(long-term dependency)。所有RNN看起來像一連串的重複模塊。

圖解神經網路機器翻譯原理:LSTM、seq2seq到Zero-Shot

因此,LSTM將數據從模塊傳輸到模塊,例如,為了生成Ht,我們不僅用Xt,而且用了所有值為X 的以前的輸入。要了解有關LSTM的結構和數學模型的更多信息,您可以閱讀「了解LSTM網路「。

雙向 RNN

下一步是雙向循環神經網路(BRNNs)。BRNN 所做的,是將常規RNN 的神經元分成兩個方向。一個方向是 positive time,或 forward states。另一個方向是 negative time,或 backward states。這兩個狀態的輸出並不和相反方向狀態的輸入相連接。

圖解神經網路機器翻譯原理:LSTM、seq2seq到Zero-Shot

為了理解為什麼BRNN 可以簡單的RNN效果更好,你可以想像我們有一個9個詞的句子,我們想預測第 5 個詞。只讓它知道前4 個詞,和讓知道前4個詞與最後4 個詞——當然,第二種情況下的質量會更好。

sequence to sequence 模型

接下來就可以說說 sequence to sequence 模型了(也稱為seq2seq)。基礎的seq2seq 模型由兩個RNN 組成:處理輸入的編碼器網路和生成輸出的解碼器網路。

圖解神經網路機器翻譯原理:LSTM、seq2seq到Zero-Shot

馬上,這個機器翻譯器就要誕生了!

但是,還有個問題。谷歌翻譯目前支持103種語言,難道我們要為每種語言提供103x102種不同的模型嗎?當然,這些模型的質量會因為該語言的普及程度和訓練這個網路所需的文件數量而有所不同。更明智的方法,是讓一個神經網路以任何語言作為輸入並轉換成任何語言。

Zero-Shot Translation

這個想法是由谷歌工程師在2016年底實現的。這種神經網路的架構建立在我們剛才說過的seq2seq模型上。

唯一的不同是編碼器和解碼器之間有 8 層 LSTM-RNN,它們在層之間具有殘留連接,並可以在一定程度上做出精度和速度的調整。

這個方法的主要意義在於,現在谷歌演算法對於每對語言只使用一個系統,而不是一個龐大的集合。

該系統在輸入句子的開頭需要一個「token」,它指定了您嘗試將短語翻譯成的語言。

這提高了翻譯質量,甚至可以在系統未見過的兩種語言之間進行翻譯,這種方法稱為Zero-Shot Translation。

BLEU

當我們談論谷歌翻譯演算法的改進和更好的結果時,我們如何正確地評估一種翻譯比另一種更好?

對於一些常用的句子,我們有專業翻譯人員的翻譯做參考。

有很多方法部分解決了這個問題,但最流行和最有效的指標是 BLEU (bilingual evaluation understudy)。想像一下,我們有兩個機器翻譯的備選:

備選 1:Statsbot makes it easy for companies to closely monitordata from various analytical platforms via natural language.

備選 2:Statsbot uses natural language to accurately analyzebusinesses』 metrics from different analytical platforms.

圖解神經網路機器翻譯原理:LSTM、seq2seq到Zero-Shot

雖然它們具有相同的含義,但質量不同,結構也不同。

我們來看看兩個人類翻譯的結果:

參考文獻 1:Statsbot helps companies closely monitor their data fromdifferent analytical platforms via natural language.

參考文獻 2:Statsbot allows companies to carefully monitor data fromvarious analytics platforms by using natural language.

顯然,備選 1 更好,與備選 2 相比,它分享了更多的單詞和短語。這是 BLEU 方法的核心理念。我們可以將備選的 n-gram 與參考翻譯的n-gram 進行比較,並計算匹配數(與其位置無關)。我們僅使用 n-gram 精度,因為有多個參考文獻時,計算召回率很困難,結果會是 n-gram 分數的幾何平均值。

現在您知道機器學習翻譯引擎的複雜性了。下一次當您使用谷歌翻譯時,別忘了想像一下,它在返回給您最佳結果之前,已經分析了數百萬份文檔。

編譯來源:https://blog.statsbot.co/machine-learning-translation-96f0ed8f19e4?nsukey=VImjuDSmJU5s7XG%2BcVgu5QIzrc0KecpUzpUdvUXxifDycOG5DXilsiMxZ4Tvs9ja9XQJ6EKe0fBnYzJwuvbqQw3MaRxVOHkwmW9xkA75dDpNwJM4VEBiPYXLER34D0txiOrVl2pS3flSlaIh9pq72G9ZPolOBX6io%2BdJtOk%2Fki51k1r5W82uKRxKNYWGHtjs

點擊閱讀原文可查看職位詳情,期待你的加入~

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「CVPR熱點」詳解英特爾弱監督視頻密集描述生成模型,舉一反三生成多角度描述
Gartner重磅發布2017新興技術成熟度曲線:13大AI技術處曲線巔峰
「IEEE Spectrum」神經網路視覺分類演算法的意外弱點
「中美AI實力對比」中國數據龐大多樣性差,公司強大影響力差
多目標跟蹤突破:上交大&中興 MOT Challenge 測評獲第一

TAG:新智元 |

您可能感興趣

《sequence to sequence:video to text》視頻描述的全文翻譯
RaoTips翻譯 有關Batch Brew
Ten Little Ones 中英文音頻和翻譯
Facebook Messenger迎來全新AR功能和M翻譯器
Deep Voice Report個人翻譯
Timekettle時空壺翻譯耳機WT2 Plus使用評測
Please翻譯一下your English
Windows 10 Mobile微軟翻譯應用:卒
「安卓手機非常卡頓」扔進谷歌翻譯,Android Phone is very fast
Facebook 開源 ConvNet AI:重新定義在線翻譯!
唯美英文翻譯句:I love you for my life past
12頁《The Dark Knight》劇本翻譯
Facebook Messenger更新:自動翻譯外語 引入AR體驗
我只好自作主張的翻譯一下Bake-Out、Outgassing
谷歌翻譯「安卓機卡頓」,Android is fast
外文翻譯丨「王者對戰」之 MySQL 8 vs PostgreSQL 10(深度)
Facebook Messenger 將提供聊天翻譯功能
南書房行走被譯成「South study walking」,機器翻譯靠譜嗎?
谷歌將AutoML應用於Transformer架構,翻譯結果飆升,已開源
經濟學人翻譯練習 The Economist