當前位置:
首頁 > 新聞 > ACM MM最佳論文全文:通過多對抗訓練,從圖像生成詩歌

ACM MM最佳論文全文:通過多對抗訓練,從圖像生成詩歌

雷鋒網 AI 科技評論按:多媒體信息處理領域頂級學術會議 ACM MM 2018(ACM International Conference on Multimedia)於 2018 年 10 月 22 日至 26 日在韓國首爾舉行。

本次會議共收到 757 篇論文投稿,接收論文 209 篇,接收率為 27.61%;其中口頭報告論文 64 篇,比例為 8.45%。投稿最多的領域是「理解-多媒體與視覺」、「理解-深度學習多媒體處理」、「理解-多模態分析與描述」、「互動-多媒體搜索與推薦」,投稿數量分別為 210 篇、167 篇、86 篇、79 篇。


獲獎論文名單

10 月 24 日下午,大會現場公布了最佳論文獲獎名單,雷鋒網 AI 科技評論摘錄如下

最佳論文一篇

Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training

超越敘事描述:通過多對抗訓練,從圖像生成詩歌

論文地址:https://dl.acm.org/authorize?N660819

論文中文全文見下文

最佳學生論文一篇

Understanding Humans in Crowded Scenes: Deep Nested Adversarial Learning and A New Benchmark for Multi-Human Parsing

理解密集場景中的人:深度內嵌對抗學習以及一個新的多人解析 benchmark

論文地址:https://dl.acm.org/authorize?N660810

最佳 Demo 論文兩篇

AniDance: Real-Time Dance Motion Synthesize to Song

AniDance:從舞蹈動作實時生成音樂

論文地址:https://dl.acm.org/authorize?N660964

Meet AR-bot: Meeting Anywhere, Anytime with Movable Spatial AR Robot

來見見 AR-bot:與可以在不同空間移動的 AR 機器人見面,隨時隨地

論文地址:https://dl.acm.org/authorize?N660976

最佳開源軟體比賽論文兩篇

Vivid: Virtual Environment for Visual Deep Learning

Vivid:用於視覺深度學習的虛擬環境

論文地址:https://dl.acm.org/authorize?N660990

A General-Purpose Distributed Programming System using Data-Parallel Streams

一個使用數據並行流的通用分散式變成系統

論文地址:https://dl.acm.org/authorize?N660991

ACM TOMM 期刊最佳論文一篇

Learning from Collective Intelligence: Feature Learning using Social Image and Tags

從集體智慧學習:用社交圖像和標籤學習特徵

論文地址:https://dl.acm.org/citation.cfm?id=2978656


最佳論文全文閱讀

ACM MM 2018 最佳論文《Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training》(超越敘事描述:通過多對抗訓練,從圖像生成詩歌 )由京都大學和微軟亞洲研究院合作完成。以下為微軟亞洲研究院提供的論文中文版全文。

摘要

根據圖像自動生成自然語言的技術引起了廣泛關注。本文中,我們更進一步,研究如何從圖像生成詩歌語言,進行自動的詩歌創作。這一工作涉及多項挑戰,包括發現圖像中的詩歌線索(例如,綠色中蘊含的希望),以及生成詩歌——既滿足與圖像的相關性,又滿足語言層面上的詩意。為解決上述問題,我們通過策略梯度將詩歌生成工作劃分成了兩個相關的多對抗訓練子任務,從而保證跨模態相關性和詩歌語言風格。為了從圖像中提煉詩歌線索,我們提出學習深度耦合的視覺詩意嵌入,在其中,機器可以連帶地學習圖像中物品、情感 和場景的詩意呈現。本文還介紹了兩種指導詩歌生成的判別網路,包括多模態判別器和詩歌風格判別器。為了便於研究,我們通過人工註解者收集了兩個詩歌數據集,它們有如下性質:1) 第一個是人類註解的「圖像-詩歌」對數據集(共8,292對),以及2)迄今為止最大的公共英文詩歌語料數據集(共有92,265首不同的詩歌)。我們應用自己的模型生成了八千張圖像,進行了大規模的實驗,其中一千五百張圖像是隨機選取來進行評估的。客觀評估和主觀評估均顯示,該方法相對於目前最先進的圖像生成詩歌方法,表現優異。我們請500名人類受試者來進行了圖靈測試,其中30名評估者是詩歌方面的專業人士,測試結果證明了我們方法的有效性。

1 引言

近來,同時涉及視覺和語言的研究引起了廣泛關注,關於圖像描述(像圖像標題技術和圖像生成短文)的研究數量呈現出爆髮式的增長。[1, 4, 16, 27]。圖像描述的研究旨在根據圖像生成使用人類語言描述事實的語句。在本文中,我們更進一步,希望完成更具認知性的工作:以詩歌創作為目的,根據圖像生成詩歌語言。該工作已引起了研究界和行業的巨大興趣。

圖 1:示例-人類對相同圖像寫出的描述和詩歌。我們可以看到,這兩種形式中相同顏色的用詞有著明顯差異。相對於描述圖像中的事實,詩歌更傾向於捕捉圖像中物體、場景和感情更深層次的含義和詩歌象徵(例如,騎士與獵鷹, 獵和發與進食,以及待與站)。

在自然語言處理領域,詩歌生成問題已經得到研究。例如,在[11, 32]中,作者主要關注風格和韻律的質量。在[7, 32, 37]中,這些工作更多地研究根據主題生成詩歌。在行業內,Facebook提出了使用神經網路來生成英文韻律詩 [11],微軟開發了一個叫作「小冰」的系統,其最重要的功能之一正是生成詩歌。不過,以端對端的方式從圖像生成詩歌仍然是一個新的主題,面臨著巨大挑戰。

圖像標題技術和圖像生成短文的重點在於生成關於圖像的描述性語句,而詩歌語言的生成則是更具挑戰性的難題。視覺呈現與圖像可激發的、有助於更好地生成詩歌的詩歌象徵之間,距離更遠。例如,圖像描述中的「人」在詩歌創作中可以進一步使用「明亮的陽光」和「張開的手臂」象徵「希望」,或使用「空椅子」和「黑暗」的背景象徵「孤獨」。圖1舉出了一個具體的例子,說明同一張圖像,其描述和其詩歌之間的差異。

為了從一幅圖像生成詩歌,我們尤其需要面臨以下三個挑戰:首先,與根據主題生成詩歌相比,這是一個跨模態的問題。從圖像生成詩歌的一種直觀方法是先從圖像中提煉關鍵詞或說明文字,然後以這些關鍵詞或說明文字為種子,生成詩歌,正如從主題生成詩歌那樣。但是,關鍵詞或說明文字會丟失許多圖像信息,更不用說對詩歌生成十分重要的詩歌線索了[7, 37]。其次,與圖像標題技術和圖像生成短文相比,從圖像生成詩歌是一項更主觀的工作,這意味著同一幅圖像可以對應不同方面的多首詩歌,而圖像標題技術/圖像生成短文更多地是描述圖像中的事實,並生成相似的語句。第三,詩句的形式和風格與敘述語句不同。本研究中,我們主要關注的是一種開放形式的詩歌——自由詩。儘管我們不要求格律、韻律或其他傳統的詩歌技術,但仍要有詩歌結構和詩歌語言。在本研究中,我們將這一素質定義為詩意。例如,詩歌的長度一般有限;與圖像描述相比,詩歌一般偏好特定的詞語;詩歌中的語句應與同一主題相關,保持一致。

為了應對以上挑戰,我們收集了兩個人類註解的詩歌數據集,在一個系統中通過集成檢索和生成技術來研究詩歌創作。為了更好地研究詩歌生成中圖像的詩歌線索,我們首先研究了使用圖像CNN特點的深度耦合視覺詩意嵌入模型,以及包含數千對圖像-詩歌的多模態詩歌數據集(即「多模態詩集」)中的 skip-thought向量特點[15]。然後我們使用這一嵌入模型,從一個更大的圖像單模態詩歌語料庫(即,「單模態詩集」)中檢索相關的和不同的詩歌。這些被檢索的詩歌的圖片,與多模態詩集一同,構成一個擴大的圖像-詩歌對數據集(即「多模態詩集(EX)」)。我們還提出使用最新的序列學習技術,訓練關於多模態詩集(EX)數據集的端對端詩歌生成模型。該架構保證我們能夠從擴展的圖像-詩歌對中發現並塑造大量的詩歌線索,這對詩歌生成而言至關重要。

為避免長序列(所有詩行一起)導致的曝光偏差問題以及無可用的特定損失函數來定量評測生成詩歌的問題,我們提出使用多對抗訓練的詩歌生成遞歸神經網路(RNN),並通過策略梯度對其進行進一步優化。我們使用兩個判別網路來對生成詩歌與給定圖像的相關性以及生成詩歌的詩意提供獎勵。我們對多模態詩集、單模態詩集以及多模態詩集(EX)進行實驗,根據圖像生成詩歌,然後以自動和人工的方式對生成的詩歌進行評價。我們定義了與相關性、新穎性和解讀一致性相關的自動評價標準,並對相關性、連貫性和想像力進行了用戶研究,來將生成的詩歌與通過基線方法生成的詩歌進行比較。本研究的成果如下:

我們提出以自動方式從圖像生成詩歌(英文自由詩)。就我們所知,這是首個嘗試在整體框架中研究圖像生成英文自由詩歌問題的努力,它使機器在認知工作中能夠具備接近人類的能力。

我們將深度耦合的視覺詩意嵌入模型與基於RNN的聯合學習生成器結合,其中兩個判別器通過多對抗訓練,為跨模態相關性和詩意提供獎勵。

我們收集了首個人類註解的圖像-詩歌對數據集,以及最大的公共詩歌語料數據集。通過應用自動和人工評價標準(包括對500多位人類受試者進行的圖靈測試),大量實驗證明,相對於幾個基線方法,我們的方法更為有效。為了更好地促進圖像生成詩歌的研究,我們將在不遠的將來公布這些數據集。

2 相關工作

2.1詩歌生成

傳統的詩歌生成方法包括基於模板和語法的方法[19, 20, 21]、約束優化下的生成歸納[32]以及統計機器翻譯模型 [10, 12]。近年來,通過應用深度學習,關於詩歌生成技術的研究已進入一個新階段。遞歸神經網路被廣泛用於生成詩歌(讀者難以分辨這些詩歌是機器生成的,還是詩人創作的) [7, 8, 11, 33, 37]。之前的詩歌生成工作主要關注詩歌的風格和韻律質量[11, 32],而近期的研究引入主題,作為詩歌生成的條件[7, 8, 32, 37]。對一首詩歌而言,主題仍然是沒有具體場景的抽象概念。許多詩歌都是詩人處於特定場景並觀看某些具體景色時創作出來的,受到這一事實的啟發,我們更近一步,嘗試解決視覺場景激發的詩歌生成問題。與之前的研究相比,我們的工作面臨著更多挑戰,特別是在考慮多模態問題方面。

2.2圖像描述

圖像標題技術一開始被視為為一幅給定圖像從數據集中搜索文字說明的檢索問題[5, 13],因此不能為所有圖像提供準確、適當的描述。為了解決這一問題,有人提出使用模板填充[17] 和卷積神經網路(CNN)與遞歸神經網路(RNN)範式[2, 27, 34]來生成可讀性達到人類水平的語句。近來,生成對抗網路(GAN) 被用於根據不同的問題背景來生成說明文字[1, 35]。與圖像標題技術相似,圖像生成短文有著類似的發展。近期關於圖像生成短文的研究主要關注的是生成語句的區域檢測和層次結構[16, 18, 23]。但是,正如我們所說的那樣,圖像標題技術和圖像生成短文旨在生成陳述圖像事實的描述性語句,而詩歌生成處理的則是一種需要詩意和語言風格約束的高級語言形式。

3 方法

在本研究中,我們的目的是根據圖像生成詩歌,讓生成的詩歌與輸入的圖像相關,並滿足詩意方面的要求。為此,我們將問題轉化為一個多對抗訓練學習的過程[9],並使用策略梯度對之進行進一步優化[30, 36]。CNN-RNN生成模型被用作智能體。該智能體的參數制定了一種政策,這種政策的執行將決定挑選哪些詞語作為動作。當智能體挑選出一首詩歌中的所有詞語時,它提供獎勵。我們定義了兩種判別網路,來判斷生成的詩歌是否與輸入圖片相匹配,以及生成的詩歌是否具有詩意,並就此提供獎勵。我們詩歌生成模型的目標是為一幅圖像生成一首詩歌的連串詞語,從而將預期的最終獎勵最大化。對於許多沒有不可微標準的任務而言,這種策略梯度已被證明極為有效[1, 24, 35]。

圖 2:使用多對抗訓練進行詩歌生成的架構。我們首先使用人類註解配對的圖像-詩歌數據集(多模態詩集)中的圖像-詩歌對(a)來訓練深度耦合的視覺詩意嵌入模型(e)。詞性分析器(斯坦福大學 NLP 工具)從詩歌中提取詩歌象徵(例如物品、場景和情感),圖像特徵(b)即為使用提取的這些象徵對 CNN 進行微調後取得的詩歌多 CNN 特徵。詩歌的語句特徵(d)是從受到最大公共詩歌語料庫(單模態詩集)訓練的 skip- thought 模型(c)中提取得到的。基於 RNN 的語句生成器(f)作為智能體得到訓練,兩種判別器(評判根據給定圖像生成的詩歌的多模態(g)和詩歌風格(h))為策略梯度(i)提供獎勵。詞性分析器從詩歌中提取詞性詞語。

如圖 2, 所示,架構包含幾個部分:(1) 用來學習圖像詩意呈現的深度耦合的視覺詩意嵌入模型(e) ,以及(2) 策略梯度優化的多對抗訓練。兩種判別網路(g和h)以RNN為基礎,作為智能體,為策略梯度提供獎勵。

3.1深度耦合的視覺詩意嵌入

視覺詩意嵌入模型的目標[6, 14]是學習嵌入空間,在該空間中不同模態的點(例如圖像和語句)可以得到映射。我們使用與圖像標題技術問題相似的方法,假設一對圖像和詩歌共享相同的詩歌語義,使嵌入空間是可習得的。通過將圖像和詩歌嵌入相同的特徵空間,我們能夠使用一首詩和一幅圖像呈現的詩歌向量來直接計算它們之間的相關性。此外,我們能進一步利用嵌入特徵,將詩歌生成中詩歌線索的優化呈現初始化。

我們深度耦合的視覺詩意嵌入模型的架構如圖2左邊部分所示。對於圖像輸入,在進行圖像生成詩歌重要因素的用戶研究後,我們使用了深層卷積神經網路(CNN)——該網路與象徵圖像中重要詩歌線索的三個方面(即,物品(v1)、場景 (v2)和情感(v3)有關。我們觀察到,詩歌中的概念通常是想像的和詩意的,而我們用來訓練CNN模型的分類數據集中的概念是具體的和普通的。為了縮小圖像視覺表達和詩歌文本表達之間的語義分歧,我們提出使用多模態詩歌數據集來微調這三種網路。我們挑選詩歌中與物品、情感和場景相關的常用關鍵詞作為標籤辭彙,然後以多模態詩歌數據集為依據,為物品、情感和場景的檢測分別建立了三個多標籤數據集。多標籤數據集建成後,我們分別在三個數據集中對預先訓練的CNN模型進行了微調,通過等式(1)中所示的S形交叉熵損失進行了優化。然後,我們為CNN模型的倒數第二個完全連通層的各方面採用了D維深層特徵,並獲得了串聯的N維(N = D × 3)特徵向量v(v ∈ RN)來作為每幅圖像視覺詩意嵌入的輸入:

其中,我們將全連接層輸出用作v1、v2、v3的特徵。視覺詩意嵌入的輸出向量x是K維向量,代表圖像特徵線性映射的圖像嵌入:

其中Wv∈RKxN是圖像嵌入矩陣,而bv∈RK是圖像偏差向量。同時,根據詩歌語句的skip-thought平均值計算出詩歌的表達特徵向量[15]。我們使用有M維向量(被記為t∈RM)的Combine-skip,因為如[15]中所示,它顯示出更好的表現。skip-thought模型在單模態詩歌數據集得到訓練。與圖像嵌入類似,詩歌嵌入被表示為:

其中Wt∈RKxM表示詩歌嵌入矩陣,而bt∈RK 表示詩歌偏差向量。最後,使用點積相似性最大限度地減少每對的排序損失,從而將圖像和詩歌一起嵌入:

其中mk是用於圖像嵌入x的比較研究(不相關,不成對)詩歌,而xk相反。α代表對比邊際。因此,我們訓練的模型在原始圖像-詩歌對的嵌入特徵之間會產生比隨機生成對更高的餘弦相似性(與點積相似定一致)。

3.2詩歌生成器作為智能體

圖像標題技術的傳統CNN-RNN模型在我們的方法中被用作智能體。我們沒有使用近期在圖像生成短文中被用於生成多條語句的層次方法[16],而是通過將句尾標記作為辭彙中的一個詞語來處理,使用了非分層遞歸模型。原因在於,相比段落,詩歌包含的詞語數量通常更少。此外,訓練詩歌中語句之間的層次一致性更低,這使得句子間的層次更難學習。我們還將層次遞歸語言模型用作基線來進行了實驗,我們會在實驗部分展示其結果。

生成的模型包括圖像編碼器CNNs和詩歌解碼器RNN。在本研究中,我們使用門控循環單元[3]作為解碼器。我們使用通過第3.1 節中所示深度耦合的視覺詩意嵌入模型習得的圖像嵌入特徵,作為圖像輸入編碼器。假設θ是模型的參數。傳統上,我們的目標是通過將觀察語句y = y1:T∈Y*的相似性最大化,來學習θ(其中T是生成語句的最大長度(包括代表語句開始的和代表語句結束的),而Y*代表所選詞語的所有序列空間)。

令r(y1:t)代表時間t時取得的獎勵,而R(y1:T)是累計獎勵,即R(yk:T) =。給定之前的所有詞語y1:(t-1),使pθ(yt|y1:(t-1)) 為在時間t時,挑選yt的參數條件概率。pθ是政策θ的參數函數。每批次的策略梯度獎勵可被計算為所有有效動作序列的總和,作為預期的未來獎勵。對所有可能動作序列進行迭代是成指數增長的,但我們能夠將它寫進期望中,這樣,就可以使用一個無偏估計量來對它進行近似:

我們通過遵循其梯度,來將J(θ)最大化:

在實踐中,期望梯度可以近似為使用一個蒙特卡洛樣本,使用方法如下:按順序從模型分布pθ(yt| y1:(t-1)中對每個yt進行取樣,其中t等於1到 T。如 [24]中所述,可引入基線b來降低梯度估計的方差,而不改變預期的梯度。因此,單一取樣的預期梯度近似等於:

3.3判別器作為獎勵

一首好的圖像詩歌必須至少滿足兩個標準:詩歌(1)與圖像相關,且(2)在合適長度、詩歌語言風格和詩句一致性方面具有詩意感。根據這兩個要求,我們提出了兩個判別網路來指導詩歌的生成:多模態判別器和詩歌風格判別器。深層判別網路在文本分類任務中已經被證明具備很高的有效性[1, 35],特別是對不能建立良好損失函數的任務。在本文中,我們提出的兩個判別器都有多個類別,包括一個正面類和多個負面類。

多模態判別器:為了檢查生成的詩歌y是否與輸入圖像x相匹配,我們訓練多模態判別器(Dm),來將 (x, y)分類成匹配、不匹配和已生成三個類別。Dm 包括一個多模態編碼器、模態融合層以及一個有softmax函數的分類器:

其中Wx、bx、Wc、bc、Wm、bm 是要學習的參數,⊙是元素級相乘,而Cm 代表多模態判別器的三種類型的概率。我們利用基於GRU的語句編碼器來進行判別器訓練。方程11提供了生成(x, y分類到每個種類,使用Cm(c|x, y)來表示)的概率的方法,其中c ∈。

詩歌風格判別器。與強調格律、韻律和其他傳統詩歌技術的大部分詩歌生成研究不同,我們關注的是一種開放形式的詩歌——自由詩。但是,如第1節所述,我們要求我們生成的詩歌具備詩意特點。我們沒有為詩歌指定具體的模板或規則,而是提出了詩歌風格判別器(Dp),將生成的詩歌朝人類創作的詩歌方向進行引導。在Dp中,生成的詩歌會被分為四類:詩意的、無序的、段落的和生成的。

詩意類是滿足詩意標準的正面例子。其他三類都被視為反面示例。無序類是關於詩句之間的內部結構和連貫性,而段落類則是使用了段落句子,而被當成反面示例。在Dp中,我們將單模態詩集當做正面的詩意示例。為構建無序類別的詩歌,我們首先通過分割單模態詩集中的所有詩歌,建立了一個詩句池。我們從詩句池中隨機挑選合理行數的詩句,重新構成詩歌,作為無序類的示例。[16]提供的段落數據集被用作段落示例。

完整的生成詩歌y被GRU編碼,並解析到完全連通層,然後使用softmax函數計算被歸到四種類別的概率。此過程的公式如下:

Cp = softmax(Wp ? GRUη(y) + bp),     (12)

其中η、Wp、bp是要學習的參數。生成的詩歌被歸類到類別c的概率可以用Cp(c|y)計算,其中c∈。

獎勵函數。我們將策略梯度的獎勵函數定義為生成的詩歌y(根據輸入圖像x生成)被分類到正面類別(多模態判別器Dm的匹配類以及詩歌風格判別器Dp的詩意類)的概率的線性組合,然後經過加權參數λ加權:

R(y|?) = λCm(c = paired|x, y) + (1 - λ)Cp(c = poetic|y).      (13)

3.4多對抗訓練

在對抗訓練以前,我們使用圖像標題生成技術[27]對生成器進行了預先訓練,為生成器提供了一個更好的策略初始化。生成器和判別器以對抗方式進行迭代更新。生成器的目的是生成符合標準的詩歌,讓兩個判別器都獲得更高的獎勵,這樣,在它們欺騙判別器時,判別器能夠得到訓練,學習如何分辨生成的詩歌和匹配的詩歌、詩意的詩歌。如上所述,生成的詩歌在兩個判別器中被歸為正面類別的概率被用作對策略梯度的獎勵。

我們使用來自真實數據的正面示例(Dm中的匹配類詩歌以及Dp中的詩意類詩歌),以及來自生成器生成詩歌和其他真實數據的負面示例(Dm中的不匹配類詩歌以及Dp中的段落類詩歌和無序類詩歌)來訓練多個判別器(本文中是兩個)。同時,通過使用策略梯度和蒙特卡洛取樣,生成器根據多種判別器提供的期望獎勵進行了更新。由於我們有兩個判別器,我們使用了多對抗訓練,來同時訓練兩個判別器。

表 1:三個數據集的詳細信息。前兩個數據集由我們自己收集,第三個通過 VPE 擴展而得。

4 實驗

4.1數據集

為了促進根據圖像生成詩歌的研究,我們收集了兩個詩歌數據集,其中一個包含圖像和詩歌對,即多模態詩歌數據集(多模態詩集),另一個是大型的詩歌語料庫,即單模態詩歌數據集(單模態詩集)。我們使用自己訓練過的嵌入模型,通過添加來自無冗餘詩歌語料庫中的三首鄰近詩歌,擴展了圖像和詩歌對,

表1:三個數據集的詳細信息。前兩個數據集由我們自己收集,第三個通過VPE擴展而得。並構建了一個擴展的圖像-詩歌對數據集,稱為多模態詩集(EX)。這些數據集的詳細信息如表1所示。收集的兩個數據集的示例可參見圖 3。為了更好地促進圖像生成詩歌的研究,我們將在不遠的將來公布這些數據集。

對於多模態詩歌數據集,我們首先在Flickr上爬取了幾個小組(這些小組嘗試為人類寫作的詩歌配上插圖)的34,847對圖像-詩歌對。然後我們請五位英語文學專業的人類評估員來評估這些詩歌是否與圖像相關,評判的標準是:通過綜合考慮物品、感情和場景,來判斷圖像是否能夠準確地激發同組的詩歌。我們過濾掉被標示不相關的圖像-詩歌對,保留了剩下的8,292對,構成多模態詩集數據集。

單模態詩集是從幾個公開的在線詩歌網站上爬取的,比如Poetry Foundation、 PoetrySoup、 best-poem.net以及poets.org等。為實現充分的模型訓練,我們對詩歌進行了預處理,過濾掉行數過多(大於10行)或過少(小於3行)的詩歌。我們還去掉了包含陌生文字、英語以外語言的詩歌以及重複的詩歌。

4.2比較方法

為了研究擬議方法的有效性,我們使用不同的設置與四種基線方法進行了比較。我們選擇了展示-辨別模型 [27]和SeqGAN [35],因為它們是圖像標題技術的最新研究成果。我們選擇了比較性圖像生成短文模型,因為它在模仿多種圖像內容方面有很強的能力。請注意,所有的方法均使用多模態詩集(EX)作為訓練數據集,並能夠生成多行的詩歌。具體的方法和實驗設置如下所示:

展示-辨別(1CNN):僅使用物品CNN,通過VGG-16對CNN-RNN模型進行了訓練。

展示-辨別(3CNNs):使用三個CNN特徵,通過VGG-16對CNN-RNN模型進行了訓練。

SeqGAN:使用一個判別器(用來分辨生成的詩歌和真人創作的詩歌的判別器)對CNN-RNN模型進行了優化。

區域層次:以[16]為依據的層次段落生成模型。為了更好地與詩歌分布保持一致,我們在實驗中將最大行數限制在10行,每行最大詞數限制在10個。

我們的模型:為了證明兩個判別器的有效性,我們在四個背景中訓練我們的模型(使用GAN、I2P-GAN的圖像到詩歌):無判別器的預訓練模型(I2P-GAN w/o判別器)、只有多模態判別器的訓練模型(I2P-GAN w/ Dm)、有詩歌風格判別器的訓練模型(I2P-GAN w/ Dp)以及有兩個判別器的訓練模型(I2P-GAN)。

4.3自動評估標準

詩歌的評估通常是一項困難的任務,在現有的研究中沒有既定的評價標準,對於根據圖像生成詩歌這一新任務而言就更是如此了。為了更好地評價詩歌的質量,我們提出同時使用自動和人工的方式來進行評價。

對於自動評價,我們建議採用三種評價標準,例如,BLEU、新穎性和相關性。然後在標準化後根據三種標準計算總分。

BLEU。我們首先使用雙語互譯質量評估輔助工具(BLEU)[22]基於分數的評價來檢查生成的詩歌與真實詩歌有多近似,正如圖像標題技術和圖像生成短文研究通常所做的那樣。它還被用於一些其他的詩歌生成研究中[32]。對於每張圖片,我們僅使用人類創作的詩歌作為真實詩歌。

新穎性。通過引入判別器Dp,生成器應從單模態詩歌數據集中引入單詞或短語,並生成多模態詩集(EX)中不常出現的單詞或短語。我們使用[31] 提出的新穎性來計算生成詩歌中觀察到的低頻詞語或短語。我們研究新穎性-2和新穎性-3這兩種N-gram尺度(例如,二元模子和三元模子)。我們首先對多模態詩集(EX)訓練數據集中出現的n-gram進行排序,將前2,000作為高頻。新穎性根據訓練數據集中出現的n-grams比例進行計算(生成的詩歌中的高頻n-grams除外)。

相關性。不同於那些對詩歌內容無約束或約束較弱的詩歌生成研究,在本研究中我們將生成詩歌與給定圖像之間的相關性視為一個重要標準。生成說明文字更關注對圖像的事實描述,與此不同的是,不同的詩歌可以在各種方面與同一幅圖像相關。因此,我們沒有計算生成詩歌與真實詩歌之間的相關性,我們使用我們經過學習的深度耦合的視覺詩意嵌入模型來確定詩歌和圖像之間的相關性。通過我們的嵌入模型將圖像和詩歌映射到相同空間後,我們使用餘弦相似性來測量它們的相關性。儘管我們的嵌入模型能夠大概地量化圖像和詩歌之間的相關性,我們還是使用了主觀評價來更好地研究我們生成人類水平詩歌的有效性。

總體。我們根據以上三個標準來計算總分。對於一個標準a的所有值中的每個值ai,我們首先使用以下方法將其歸一化:

然後,我們得到BLEU(例如,BLEU- 1、BLEU-2和BLEU-3)和新穎性(例如,新穎性-2和新穎性-3)的平均值。我們通過對歸一化值進行平均來計算最終得分,以確保不同標準的均等貢獻。

但是,在這樣一項開放性的任務中,沒有特別適合的標準能夠完美地評價生成的詩歌的質量。我們使用的自動標準在某種程度上可被視為指導。為更好地從人類感知角度來說明詩歌的質量,我們還進行了如下的擴展用戶研究。

4.4人類評價

我們在亞馬遜土耳其機器人中進行了人類評價。我們以如下方式將三種任務分配給了AMT工人:

任務1:研究我們深度耦合的視覺詩意嵌入模型的有效性,註解者被要求根據一首詩歌與一幅給定圖像之間在內容、情感和場景方面的相似性進行0-10分的打分。

任務2:本任務的目的是在各方面對根據一幅圖像、使用不同方法(四種基線方法以及我們的四種模型設置)生成的詩歌進行比較。我們給定一幅圖像,要求註解者根據四個標準對詩歌進行0-10分的評分:相關性(與圖像)、連貫性(詩歌各行之間是否連貫)、想像力(詩歌對於給定的圖像顯示了多少想像力和創意)以及整體印象。

任務3:我們要求註解者在混雜人類創作和機器生成的詩歌中進行甄別,完成了圖靈測試。請注意,圖靈測試在兩種設置條件下進行,即,有圖像的詩歌和無圖像的詩歌。

我們為每項任務隨機挑選了1000幅圖像,並分配給了三名評估員。由於詩歌是一種文學形式,我們還請了30位專業與英語文學相關的註解者(其中十位註解者是以英語為母語)作為專家用戶,來進行圖靈測試。

4.5訓練詳情

在深度耦合的視覺詩意嵌入模型中,我們為每個CNN使用了D = 4,096-維度特徵。我們從ImageNet[25]上經過訓練的VGG-16[26] 提取物體特徵,從Place205-VGGNet模型[29]提取場景特徵,並從感情模型[28]提取感情特徵。

為了更好地提取詩歌象徵的視覺特徵,我們首先取得了單模態詩歌數據集中至少達到五頻次的名詞、動詞和形容詞。然後,我們人工為感情(包括328個標籤)挑選形容詞和動詞,為物品(包括604個標籤)和場景(包括125個標籤)挑選名詞。至於詩歌特徵,我們使用M = 2,048-維度(其中每個1,024維度分表代表單向和雙向)為每句詩提取組合的skip-thought向量,並最終通過平均池化取得了詩歌特徵。而邊際α根據[14]中的實證實驗被設為0.2。我們為一幅圖片隨機地挑選出127首詩歌作為不匹配詩歌,並將它們用作對比詩歌(等式 5中的mk與xk),並在每一期中對它們進行了重新取樣。我們通過對結果為0.1到0.9的自動評價進行可比觀察,根據實證將加權參數A設為A = 0.8。

4.6評價

圖 4:使用六種方法根據一幅圖像生成詩歌的示例。

檢索詩歌。我們根據三種詩歌與圖片的相關性對它們進行了對比:真實詩歌、使用VPE檢索,圖像特徵未微調的詩歌(VPE w/o FT),以及使用VPE檢索,圖形特徵經過微調的詩歌(VPE w/ FT)。表2顯示了這三種詩歌類型在0-10分範圍內的對比(0分代表不相關,10分代表最相關)。我們可以看到,通過使用擬議的視覺詩意嵌入模型,檢索詩歌的相關性評分能夠達到平均分(即,5分)以上。而使用詩歌象徵微調後的圖像特徵能夠顯著地提高相關性。

表 2:人類創作的三種類型詩歌與圖像相關性的平均得分,評分範圍 0-10 分(0 分-不 相關,10 分-相關)。單向方差分析顯示,這些詩歌的評價具有統計學意義(F(2, 9) = 130.58,p5>

生成的詩歌。表3展示有四種設置的擬議模型的自動評估結果,以及之前研究提出的四種基線的自動評估結果。比較有一個CNN和三個CNN的說明文字模型的結果,我們可以看出,多CNN確實有助於生成與圖像相關性更高的詩歌。區域層次模型更強調詩句之間的主題連貫性,但許多人類創作的詩歌會覆蓋多個主題,或為同一主題使用不同的象徵。相比於只有CNN-RNN的說明文字模型,SeqGAN證明了應用對抗訓練在詩歌生成方面的優點,但是它在詩歌中生成的新概念較少。我們使用VPE預訓練的模型比說明文字模型表現更好,這說明VPE能夠更有效地從圖像中提取詩歌特徵,從而更好地生成詩歌。可以看出,我們的三種模型在大部分標準下表現更好,每種在一個方面表現特別優異。僅有多模態判別器(I2P-GAN w/ Dm)的模型會引導模型生成真實的詩歌,因此它在BLEU上得分最高,強調了翻譯方式上n-grams的相似性。詩歌風格判別器(Dp)的設計目的是引導生成的詩歌使用更具詩意的語言風格,I2P-GAN w/ Dm取得最高的新穎性得分證明,Dp有助於為生成的詩歌提供更新穎、更富想像力的措辭。總體上,I2P-GAN結合了兩種判別器的優點,在BLEU和新穎性上取得了合理的中間分數,但與其他生成模型相比,仍然表現的更為出色。此外,我們使用兩種判別器的模型生成的詩歌能夠在我們嵌入相關性標準上取得最高的得分。

人類評價結果的對比如表4所示。在自動評價結果中,區域層次表現不佳,得分結果僅僅略微高於說明文字模型,但人工評價不同,這是因為所有詩句都與同一主題相關共容易獲得用戶的認可。我們的三種模型在所有標準中的表現都優於四種基線方法。與預訓練的模型相比,兩種判別器使詩歌具有更接近真人水平的內涵。使用兩種判別器的模型生成的詩歌在相關性、連貫性和想像力方面質量更高。圖4是使用三種基線方法和我們的方法,根據給定圖片生成的詩歌的示例。通過我們的方法生成詩歌的更多示例可參見圖5。

圖 5:通過我們 I2P-GAN 方法生成詩歌的示例。

表 3:自動評價。請注意,BLEU 得分是比較人類註解的真實詩歌計算出的分數(一首 詩歌對應一幅圖像)。總分是三種標準歸一後的平均值計算得出的(等式 14)。所有得 分都是百分比(%)。

表 4:六種方法在四個標準下的人類評價結果:相關性(Rel)、連貫性(Col)、想像 力(Imag)和總分。所有標準的評分範圍都是 0-10 分(0-差,10-優)。

表 5:使用詩歌搭配圖像/不搭配圖像、對 ATM 用戶和專家用戶進行的圖靈測試的準確性

圖靈測試。對於AMT註解者的圖靈測試,我們僱傭了548名工人,平均每名工人完成10.9項任務。對於專家用戶的圖靈測試,我們請15個人對帶有圖像的、人類創作的詩歌進行判斷,請另外15名註解者對沒有圖像的詩歌進行測試。每個人被分配了20幅圖像,我們請專家用戶共完成600個任務。表5顯示的是不同詩歌被判斷成人類根據給定圖像創作的詩歌的概率。正如我們所見,生成的詩歌無論是對普通註解者,還是對專家,都造成了混淆,儘管專家的判斷比普通人更準確一些。一個有趣的觀察結果是:專家在判斷帶圖像的詩歌時準確率更高,而AMT工人則在判斷無圖像的詩歌時表現更好。

5 結論

作為從圖像生成詩歌(英文自由詩)的首個研究,我們使用多判別器作為策略梯度的獎勵,通過整合深度耦合的視覺詩意嵌入模型和基於RNN的對抗訓練,提出了一種模擬問題的新方法。此外,我們引入了首個圖像-詩歌對的數據集(多模態詩集)和大型詩歌語料庫(單模態詩集)來促進關於詩歌生成的研究,特別是根據圖像生成詩歌。大量的實驗證明,我們的嵌入模型能夠近似地學習一個合理的視覺創意嵌入空間。自動和人工評價結果證明了我們詩歌生成模型的有效性。

參考文獻

[1] T.-H. Chen, Y.-H. Liao, C.-Y. Chuang, W.-T. Hsu, J. Fu, 及 M. Sun.展示、適應和辨別:跨域圖像標題技術的對抗訓練.ICCV, 2017.

[2] X. Chen與 C. Lawrence Zitnick.心靈之眼:圖像標題技術的遞歸視覺表達.In CVPR,第 2422-2431頁, 2015.

[3] J. Chung, C. Gulcehre, K. Cho,及 Y. Bengio.對序列建模方面的門控循環神經網路的實證研究.NIPS, 2014.

[4] H. Fang, S. Gupta, F. Iandola, R. K. Srivastava, L. Deng, P. Dollar, J. Gao, X. He, M.Mitchell, J. C. Platt,等人.從說明文字到視覺概念,再回到說明文字.In CVPR, 第1473-1482頁, 2015.

[5] A. Farhadi, M. Hejrati, M. A. Sadeghi, P. Young,Rashtchian, J. Hockenmaier,及 D. Forsyth.每張圖片都講述了一個故事:根據圖像生成語句.In CVPR,15-29, 2010.

[6] A. Frome, G. S. Corrado, J. Shlens, S. Bengio, J. Dean, T. Mikolov,等人.發明:深層視覺語義的嵌入模型.In NIPS,第 2121-2129頁, 2013.

[7] M. Ghazvininejad, X. Shi, Y. Choi,及 K. Knight.生成主題詩歌.In NIPS, 1183,1191,2016.

[8] M. Ghazvininejad, X. Shi, J. Priyadarshi,及 K. Knight.Hafez:一個互動式詩歌生成系統.ACL,第 4348頁, 2017.

[9] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,Warde-Farley, S. Ozair, A. Courville,及Y. Ben- gio.生成對抗網路.In NIPS,第 2672-2680頁, 2014.

[10] J. He, M. Zhou, 及 L. Jiang.使用統計機器翻譯模型生成中國傳統詩歌.In AAAI,2012.

[11] J. Hopkins與 D. Kiela.使用神經網路自動生成韻律詩.In ACL, 卷 1, 第 168-178頁,2017.

[12] L. Jiang與 M. Zhou.使用統計機器翻譯方法生成中國對聯.In COLING, 第 377-384頁, 2008.

[13] A. Karpathy, A. Joulin,及 F. F. F. Li.用於雙向圖像語句映射的深層片段嵌入.In NIPS,第 1889-1897頁, 2014.

[14] R. Kiros, R. Salakhutdinov,及 R. S. Zemel.統一多模態神經語言模型的視覺語義嵌入.arXiv preprint arXiv:1411.2539, 2014.

[15] R. Kiros, Y. Zhu, R. R. Salakhutdinov, R. Zemel, R. Urtasun, A. Torralba,及 S.Fidler.Skip-thought向量.In NIPS,第 3294-3302頁, 2015.

[16] J. Krause, J. Johnson, R. Krishna, 及 L. Fei-Fei.一種生成描述性圖像短文的層次方法.CVPR, 2017.

[17] G. Kulkarni, V. Premraj, S. Dhar, S. Li, Y. Choi, A. C. Berg,及 T. L. Berg.牙牙學語:理解並生成圖像描述.In CVPR, 2011.

[18] Y. Liu, J. Fu, T. Mei,及 C. W. Chen.讓你的照片說話:通過雙向注意遞歸神經網路來為照片流生成描述性段落.In AAAI, 2017.

[19] H. M. Manurung.韻律模式化文本的圖表生成器.首屆國際認知與計算機文學研討會文集[32]第 15-19頁, 1999.

[20] H. Oliveira.詩歌的自動生成:綜述.Universidade de Coimbra, 2009.

[21] H. G. Oliveira.Poetryme: 詩歌生成的 多功能平台.創新計算、 [33] 概念創新,以及一般智能, 1:21, 2012.

[22] K. Papineni, S. Roukos, T. Ward,及 W.-J. Zhu.Bleu: 自動評價機器翻譯的一種方法.InACL, 第 311-318頁, 2002.

[23] C. C. Park 與 G. Kim.使用一系列自然語句表達一個圖像流.In NIPS, 第 73-81頁,2015.

[24] S. J. Rennie, E. Marcheret, Y. Mroueh, J. Ross,及 V. Goel.圖像標題技術的自臨界序列訓練. arXivpreprint arXiv:1612.00563, 2016.

[25] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A.Khosla, M. Bernstein,等人.Imagenet 大規模視覺認知挑戰.IJCV, 115(3):211- 252,2015.

[26] K. Simonyan與 A. Zisserman.大規模圖像識別的甚深卷積神經網路. arXiv preprint arXiv:1409.1556, 2014.

[27] O. Vinyals, A. Toshev, S. Bengio, 及 D. Erhan.展示和辨別:一個神經圖像文字說明生成器.In CVPR, 第 3156-3164頁, 2015.

[28] J. Wang, J. Fu, Y. Xu,及 T. Mei.超遠物品識別:使用深層耦合形容詞及名詞神經網路的視覺情感分析.In IJ- CAI, 第 3484-3490頁, 2016.

[29] L. Wang, S. Guo, W. Huang,及 Y. Qiao.用於場景是別的 Places205-vggnet模型. arXiv preprint arXiv:1508.01667, 2015.

[30] R. J. Williams.簡單統計梯度 - 用於連接增強式學習的跟蹤演算法.機器學習,8(3-4):229-256, 1992.

[31] Z. Xu, B. Liu, B. Wang, S. Chengjie, X. Wang, Z. Wang,及 C. Qi.通過有近似嵌入層的GAN產生神經相應.In EMNLP, 第 628-637頁, 2017.

[32] R. Yan, H. Jiang, M. Lapata, S.-D. Lin, X. Lv, 及 X. Li. I, 詩歌:通過約束優化下生成歸納框架自動創作漢語詩歌.In IJCAI, 第 2197-2203頁, 2013.

[33] X. Yi, R. Li,及 M. Sun.使用 rnn編碼器-解碼器生成中國古典詩歌.基於自然標註大數據的漢語計算語言學和自然語言處理,第 211-223頁.Springer, 2017.

[34] Q. You, H. Jin, Z. Wang, C. Fang, 及 J. Luo.使用語義注意的圖像標題技術.In CVPR,第 4651-4659頁, 2016.

[35] L. Yu, W. Zhang, J. Wang,及 Y. Yu.SeqGAN:有策略梯度的序列生成對抗網路.In AAAI, 第 2852-2858頁, 2017.

[36] W. Zaremba 與 I. Sutskever. 強 化 學 習 神 經圖靈 機 - 修 訂 . arXiv preprint arXiv.1505.00521, 2015.

[37] X. Zhang與 M. Lapata.使用遞歸神經網路生成中文詩歌.In EMNLP, 第 670-680頁, 2014.

雷鋒網 AI 科技評論報道


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

極驗聲討網易雲易盾侵佔LOGO後續:請別甩鍋給搜索引擎
蘋果自動駕駛項目「首撞」:「小碎步」併線被後車追尾

TAG:雷鋒網 |