多模態機器翻譯論文推薦

知識 01-15

引

多信息融合是一個重要的研究趨勢，尤其是對於訓練數據缺乏的任務來說，如何融入其他相關信息來提高本任務的準確率是一個非常值得研究的問題。機器翻譯是一個熱門的研究領域，隨著訓練數據規模地增加，各種NN模型的效果也取得了突破的進展，google和百度均已部署上線NMT系統；融合圖像、音頻、視頻、文本等各種模態數據的多模態研究也是一個非常熱門的研究方向，本期PaperWeekly將為大家帶來NMT和多模態交叉研究的paper解讀，共3篇paper：

1、Attention-based Multimodal Neural Machine Translation, 2016

2、Multimodal Attention for Neural Machine Translation, 2016

3、Zero-resource Machine Translation by Multimodal Encoder-decoder Network with Multimedia Pivot, 2016

Attention-based Multimodal Neural Machine Translation作者

Po-Yao Huang, Frederick Liu, Sz-Rung Shiang, Jean Oh, Chris Dyer

單位

CMU

關鍵詞

Visual Features, Attention, Multimodal NMT

文章來源

ACL 2016

問題

多模態神經機器翻譯，在傳統的seq2seq翻譯模型上，利用圖像特徵信息幫助提高機器翻譯的結果

模型

在WMT16的多模態神經網路機器翻譯新任務上的工作。

提出了3種如何將visual feature加入到seq2seq網路中的encoder，從而使得decoder更好的attention到與圖像，語義相關部分的模型： global visual feature， regional visual feature，paralle threads.

global visual：直接將VGG中的fc7抽出的feature加入到encoder的first step(head)或者是last step(tail)

多模態機器翻譯論文推薦

regional visual：先用R-CNN抽出region box的信息，再用VGG得到fc7的特徵，將top4對應的region feature，以及global visual feature分別作為每一個step輸入到encoder中

多模態機器翻譯論文推薦

parallel threads: 與regional visual相對應的是，每個thread只利用一個region box的feature，和global visual一樣的網路，將top 4對應的4 threads和gloabl thread一起做average pooling，每個therad的參數共享; attention則對應所有threads中的所有hidden states

同時本文還提出了三種rescoring translation的結果的方法，用 1）language model 2）bilingual autoencoder 3）bilingual dictionary分別來挑選translation的句子，發現bilingual dictionary來刪選翻譯的句子效果最好

資源

數據集： WMT2016 (En-Ge)

圖像特徵提取： VGG， R-CNN

實驗結果

在En-Ge的結果如圖：

多模態機器翻譯論文推薦

相關工作

NMT： Kalchbrenner and Blunsom 2013

Attention NMT： Bahdanau 2014

Joint Space Learning： Zhang 2014，Su 2015，Kiros 2014

多模態上相關工作目前並沒有很多，值得快速入手

簡評

本文提出了一種針對圖像和文本結合的神經網路翻譯模型，非常自然的將圖像特徵加入到seq2seq模型的encoder部分，使decoder不僅能夠attention在文本上，同時也能夠focus到圖像上(global或者region)；並且模型的設計比較簡單，沒有加入太多複雜的模塊。

不過只是簡單的將圖像的特徵作為seq中的一個step，並沒有考慮文本和圖像之間的相關關係，如joint space，相信加入joint learing會有提升。

完成人信息

Lijun Wu from SYSU.

Multimodal Attention for Neural Machine Translation作者

Ozan Caglayan, Lo?c Barrault, Fethi Bougares

單位

University of Le Mans, Galatasaray University

關鍵詞

NMT, Attention

文章來源

arXiv 2016.09

問題

給定圖片和源語言描述的情況下，基於attention機制,生成目標語言的圖片描述。

模型

模型有兩個encoder，一個是textual encoder,是一個雙向GRU，用於獲取源語言文本的向量表示$A^ = _1,a^_2,…}$，另外一個是visual encoder,使用的是現成由ImageNet數據集訓好的ResNet-50網路，用於獲取圖片的向量表示。$A^ = _1,a^_2,…}$. Decoder部分，是兩層的stakced GRU,先用attention方式，分別獲取文本部分和圖像部分的context向量$c^$和$c^$,然後將兩個向量concat在一起，作為新的context 向量$c$。

如圖：

多模態機器翻譯論文推薦

這樣decoder部分的解碼翻譯的時候，不僅可以考慮到源語言的文本信息，也可以考慮到原始圖片的信息。

資源

IAPRTC-12 dataset for English and German

相關工作

2014年Bahdanau的Neural Machine Translation by Jointly Learning to Align and Translate，使NMT超過了傳統的PBMT，後來的NMT論文基本都是在這個文章基礎上進行的改進。

2015年Elliott的工作Multi-language image description with neural sequence models. 也是在給定源語言和圖片的情況下，生成目標語言。不過並沒有使用attention機制。

簡評

該文章的創新之處，在於對圖片描述文字進行翻譯的時候，考慮到了圖片本身的特徵信息並引入attention機制。在源語言文本生成出錯的情況下，因為有圖片信息參考，在一定程度上，可以減輕這種錯誤帶來的影響。不過文章並沒有利用外部英德平行語料，這可以考慮作為後面的改進方向。

完成人信息

中國科學技術大學

Zero-resource Machine Translation by Multimodal Encoder-decoder Network with Multimedia Pivot作者

Hideki Nakayama，Noriki Nishida

單位

The University of Tokyo

關鍵詞

pivot, multimodal, NMT

文章來源

arXiv, 2016.11

問題

在沒有平行語料的情況下，用image當作pivot來實現機器翻譯

模型

整體上講，模型分成兩部分。第一部分是多模態embedding，採用pairwise ranking loss來定義損失函數；第二部分是用RNN來實現的decoder,跟image caption裡面的decoder類似。對這個問題來說，我們的訓練數據包括$i^$：源端的圖片，$d^$：源端圖片對應的句子描述；$i^$：目標端的圖片，$d^$：目標端圖片對應的句子描述，和源端用的不一樣的語言。文中提出了2個模型來解決這個問題：

多模態機器翻譯論文推薦

模型1的多模態端包括了圖片的encoder和源句子的encoder。圖片encoder可以對源圖片和目標圖片通用。多模態端用$i^$,$d^$進行訓練，損失函數為：

$E^$表示圖片的encoder(比如用VGG-16提取圖片的feature), $E^$表示源句子的encoder(比如用RNN)，$d^_$表示和源端圖片不相關的描述。Decoder端用$i^$,$d^$進行訓練，損失函數為標準的 cross-entropy loss（稱作圖片損失):

模型2比模型1更複雜一點。在源端增加了一個目標句子描述的encoder。因此，在多模態embedding的學習中，損失函數增加了目標圖片和目標圖片描述的pairwise ranking loss.

多模態機器翻譯論文推薦

在decoder的學習中，模型2除了前面的公式2定義的圖片損失外，還增加了目標描述的reconstruction loss，即從多模態端輸入目標描述，希望通過embedding和decoder重建這個目標描述。

資源

兩個Multilingual image-description的數據集：IAPR-TC12（包含2萬圖片以及英語和德語的描述）和 Multi30K（包含3萬圖片以及英語和德語的描述)

相關工作

對於沒有平行語料的機器翻譯，多數文章是用某種常見語言作為pivot，比如「Neural Machine Translation with Pivot Languages」, 用英語作為西班牙語法語以及德語法語之間的pivot。缺點是翻譯的時候還是要經過pivot那一步。另外，還要一些工作是用一個模型實現many to many的翻譯。在這種情況下，沒有平行語料的語言對也能用這個模型進行翻譯。不需要經過pivot那個中間層，但是效果一般會差一點。比如「Google』s Multilingual Neural Machine Translation System」這篇文章。

簡評

這篇文章的思路很新穎，考慮用圖片來作為pivot，實現沒有平行語料的語言對之間的翻譯。訓練完成後可以直接從源語言到目標語言進行翻譯，不需要經過圖片。但是正如文中提到的，這種方法跟有語料訓練出來的翻譯效果比起來還是差很多，並且翻譯的句子都比較短。另外，對一些圖片難以表達的信息很難通過這種方式學到。

完成人信息

總結

交叉領域的研究總是會帶給大家驚喜，交叉領域的交叉領域更是如此，這個領域剛剛開坑，歡迎各位有志之士跳坑。並且在2016年舉辦了第一屆多模態機器翻譯（Multimodal Machine Translation）和多語看圖說話（Crosslingual Image Description）比賽，比賽主頁http://www.statmt.org/wmt16/multimodal-task.html, 總結性的paperhttp://anthology.aclweb.org/W/W16/W16-2346.pdf

您的贊是小編持續努力的最大動力，動動手指贊一下吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 科研圈 的精彩文章:

※華中師範大學化學生物學研究中心研究助理招聘
※可以探測蜘蛛腳步的超級橡皮泥
※韓春雨回應「撤回專利申請」：進行國際布局
※順德容桂攜手《環球科學》，打造中國「南方矽谷」

TAG:科研圈 |

您可能感興趣

※大規模分類體系構建論文專題
※乾貨解析·背景提升活動——論文篇
※惡作劇論文使用「概念陰莖」諷刺性別研究
※當論文數量變成評估標準，人文學術怎能發展？
※怎樣寫一篇核物理論文？用軟體即可
※音樂論文寫作專題2：音樂論文子項概念的科學表述和定義
※英語論文格式
※優秀科研論文皆應附帶科普文章
※論文標題，這麼寫才算好！
※論文快遞員——第40期：複合材料論文摘要精選
※中醫理論可以診斷航空發動機故障？竟然還有論文論證？
※引用次數最多的深度學習論文出自誰手？（最優化/訓練技巧篇）
※網上現奇葩論文：用中醫理論診斷航空發動機故障
※論文寫作文獻應該注意的二三事
※論文查重系統判斷抄襲的依據是什麼？
※法學論文寫作的 5 大硬傷及對策
※自然語言處理論文推薦11篇
※「谷歌大腦實習一周年」50 篇論文看機器學習、計算機視覺和自然語言趨勢
※維普論文查重適合論文前期修改