CMU聯合Petuum提出contrast-GAN:實現生成式語義處理
選自arXiv
機器之心編譯
參與:Smith
在本篇論文中,作者聚焦於一個更具挑戰性的語義處理任務,在保持圖像獨有特徵(例如視角和形狀)的同時修改物體的語義含義,比如,牛→羊,摩托車→自行車,貓→狗。為了處理這樣大型的語義變換,作者引入了一種帶有新型對抗式對比目標(adversarial contrasting objective)的對比型 GAN(contrast-GAN)。論文還提出了配有新型比較式目標的、蒙版條件式對比 GAN(mask-conditional contrast-GAN)結構,它能夠用目標語義變換使圖像背景脫離出來。
論文:https://arxiv.org/abs/1708.00315
生成對抗網路(GAN)最近已經在配對/非配對的圖像到圖像轉譯(paired/unpaired image-to-image translation)方面取得了明顯的進步,比如照片→簡筆畫以及藝術繪畫風格的遷移。然而,現有的模型只能對低級信息(例如顏色或紋理變化)進行遷移,但不能對目標物體的高級語義含義(比如幾何結構或內容)進行編譯。
另一方面,儘管在給定一類標籤或標註的情況下研究人員可以合成逼真的圖像,但是並不能對任意的圖形或結構進行處理,這大大地限制了它們的應用場景以及對模型結果的詮釋能力。
在本篇論文中,我們聚焦於一個更具挑戰性的語義處理任務,在保持圖像獨有特徵(例如視角和形狀)的同時修改物體的語義含義,比如,牛→羊,摩托車→自行車,貓→狗。為了處理這樣大型的語義變換,我們引入了一種帶有新型對抗式對比目標(adversarial contrasting objective)的對比型 GAN(contrast-GAN)。
與之前直接使合成樣本逼近目標數據的 GAN 不同,我們的對抗式對比目標是在樣本之間對距離比較(distance comparisons)進行優化,使被處理的數據在語義上比輸入數據更加接近帶有目標類別的真實數據。我們提出了配有新型比較式目標的、蒙版條件式對比 GAN(mask-conditional contrast-GAN)結構,它能夠用目標語義變換使圖像背景脫離出來。
在 ImageNet 和 MSCOCO 數據集上進行的若干個語義處理任務的相關實驗說明了我們的對比式 GAN 比其它條件式 GAN 的性能表現更加可觀。量化結果進一步說明了我們的模型在生成可操控結果方面的優勢,它們都是高視覺保真和帶有合理目標語義的結果。
圖 1:本文模型的一些實例語義處理結果,將一張圖像和一個期望目標物體類別(比如貓和狗)作為輸入,然後學著去通過修改它們的外觀或幾何結構以自動改變目標物體語義。我們展示了每一對的原始圖像(左)和處理後的結果(右)。
在本論文中,我們在沒有任何配對訓練實例的情況下對圖像語義處理進行了進一步操作。它不僅僅是通過處理高級目標語義來對圖像到圖像轉譯工作進行泛化,也通過儘可能多地保留原始圖像所傳遞的內部特徵,推進了可控圖像合成的相關研究。
圖 1 展示了我們的模型的一些語義處理結果實例。可以看到我們的模型與輸入圖像相比僅有很少的形狀、幾何或紋理方面的變化,而且成功地改變了目標物體的語義特徵,例如,貓→狗。
通過對比型 GAN 進行語義處理
如圖 2 所示,我們的對比型 GAN 對一個條件式生成器 G 進行了學習,它將一個期望語義 cy 和一張輸入圖像 x 作為輸入,然後對 x 進行操作使其進入 y"。語意認知對抗判別器(semantic-aware adversarial discriminators)Dcy 旨在對 y ∈ Y 的圖像和結果 y"= G(x, cy) 進行判別。我們的新型對抗式對比損失(adversarial contrasting loss)迫使生成結果 y" 的表徵比輸入圖像 x 的相應表徵更加接近於目標區域 Y 里的那些圖像 {y}。
圖 2:對比型 GAN(contrast-GAN)的概述。cy 和 cx 分別表明 X 區域和 Y 區域的物體類別(語義)。Gcy 將樣本轉譯進 Y 區域,Dcy 對處理結果 y" 和真實結果 y 進行區分,反過來對於 Gcx 和 Dcx 也一樣。(a)展示了原始的 CycleGAN,使用循環一致性損失(cycle-consistency loss)為每一對分離的生成器和判別器進行優化。(b)展示了對比型 GAN 的工作流程,對一個條件式生成器 G 和幾個語義認知判別器 D1, D2, . . . , DC 進行優化,其中 C 是目標物體類別的總數量。我們在 GAN 中引入了一個對抗式對比損失,以激勵生成樣本 y" 的特徵 fy" 比輸入 x 的特徵更加接近於目標區域 Y 的特徵中心 ˉfy。
蒙版條件式對比 GAN(Mask-conditional Contrast-GAN)
圖 3 展示了模型的略圖,以一張輸入圖像 x,一個目標物體蒙版 M 和目標類別 cy 作為開始,輸出處理圖像。注意整個結構對於反向傳播來說是全差分(fully differential)的。為了更加清晰,全周期架構(比如,通過 G(y, cx) 映射 y" → x?)在圖 3 中被省略了。
圖 3:用於語義處理的蒙版條件式對比 GAN(mask-conditional contrast-GAN),以一張輸入圖像,一個目標物體蒙版和一個目標類別作為輸入。
圖 4:在給定目標蒙版的情況下,MSCOCO 數據集上蒙版對比型 GAN 和 CycleGAN 對馬→斑馬和斑馬→馬轉譯的結果對比。它展示了整合目標物體蒙版來脫離圖像背景和目標語義的效果。其中,λ 和 β 控制著目標物體的相對重要程度。G 試圖使此目標最小化,以對抗一組試圖將其最大化的判別器 {Dcy }。大量實驗表明每一個目標物體都在達到高質量處理結果的過程中扮演著重要角色。
實驗結果對比:
表 1:在 Cityscapes 標註→圖像數據集上的 FCN 得分情況對比。
表 2:在 Cityscapes 圖像→標註數據集上的分類性能表現對比。
圖 5:contrast-GAN 與 CycleGAN 在 ImageNet 上進行橙子→蘋果(第一行)與蘋果→橙子(第二行)轉譯的結果對比。
圖 6:在給定目標蒙版的情況下,在 MSCOCO 數據集上,蒙版對比型 GAN 和 CycleGAN 對狗→貓和貓→狗轉譯的結果對比。
表 3:MSCOCO 數據集上 8 個蒙版條件式語義處理任務的 AMT 感知測試的結果對比。
圖 7:在 MSCOCO 數據集上用蒙版對比式 GAN 對大量目標物體語義的處理結果實例。每一對圖像都指明了期望目標語義,展示了原始圖像(左)和處理後的圖像(右)。
※ACL 2017 五篇最佳論文公布,國內無獲獎論文
※DeepMind:把人工智慧和神經科學結合起來,實現良性循環
※除了自然語言處理,你還可以用Word2Vec做什麼?
※Momenta詳解ImageNet2017奪冠架構SENet
TAG:機器之心 |
※基於IR-transformer、IRGAN模型,解讀搜狗語義匹配技術
※專欄 | 基於IR-transformer、IRGAN模型,解讀搜狗語義匹配技術
※Keras】基於SegNet和U-Net的遙感圖像語義分割
※語義分割網路DeepLab-v3的架構設計思想和TensorFlow實現
※Waymo軟體工程總監Sacha Arnoud:Waymo還需在應用場景和語義理解方面繼續突破
※WolframAlpha-未來的語義知識引擎
※Github 代碼實踐:Pytorch 實現的語義分割器
※Github代碼實踐:Pytorch實現的語義分割器
※ETH Zurich提出新型網路「ROAD-Net」,解決語義分割域適配問題
※SemanticAdv:基於語義屬性的對抗樣本生成方法
※DilatedNet - 擴張卷積(語義分割)
※一文概覽主要語義分割網路:FCN,SegNet,U-Net……
※Auto-DeepLab:自動搜索圖像語義分割架構
※DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)
※Stanford NLP 解讀 ACL 2018 論文——用於調試 NLP 模型的語義等價對立規則
※無綠幕MR特效,谷歌開源AI語義分割模型DeepLab-v3+
※谷歌基於語義模型打造全新搜索方式——Talk to Books
※一文帶你讀懂 DeconvNet 上採樣層(語義分割)
※2018 SEO 相關性關鍵是語義semantic,不是關鍵字
※李飛飛等人提出Auto-DeepLab:自動搜索圖像語義分割架構