CMU聯合Petuum提出contrast-GAN：實現生成式語義處理

新聞 08-04

選自arXiv

機器之心編譯

參與：Smith

在本篇論文中，作者聚焦於一個更具挑戰性的語義處理任務，在保持圖像獨有特徵（例如視角和形狀）的同時修改物體的語義含義，比如，牛→羊，摩托車→自行車，貓→狗。為了處理這樣大型的語義變換，作者引入了一種帶有新型對抗式對比目標（adversarial contrasting objective）的對比型 GAN（contrast-GAN）。論文還提出了配有新型比較式目標的、蒙版條件式對比 GAN（mask-conditional contrast-GAN）結構，它能夠用目標語義變換使圖像背景脫離出來。

CMU聯合Petuum提出contrast-GAN：實現生成式語義處理

論文：https://arxiv.org/abs/1708.00315

生成對抗網路（GAN）最近已經在配對/非配對的圖像到圖像轉譯（paired/unpaired image-to-image translation）方面取得了明顯的進步，比如照片→簡筆畫以及藝術繪畫風格的遷移。然而，現有的模型只能對低級信息（例如顏色或紋理變化）進行遷移，但不能對目標物體的高級語義含義（比如幾何結構或內容）進行編譯。

另一方面，儘管在給定一類標籤或標註的情況下研究人員可以合成逼真的圖像，但是並不能對任意的圖形或結構進行處理，這大大地限制了它們的應用場景以及對模型結果的詮釋能力。

在本篇論文中，我們聚焦於一個更具挑戰性的語義處理任務，在保持圖像獨有特徵（例如視角和形狀）的同時修改物體的語義含義，比如，牛→羊，摩托車→自行車，貓→狗。為了處理這樣大型的語義變換，我們引入了一種帶有新型對抗式對比目標（adversarial contrasting objective）的對比型 GAN（contrast-GAN）。

與之前直接使合成樣本逼近目標數據的 GAN 不同，我們的對抗式對比目標是在樣本之間對距離比較（distance comparisons）進行優化，使被處理的數據在語義上比輸入數據更加接近帶有目標類別的真實數據。我們提出了配有新型比較式目標的、蒙版條件式對比 GAN（mask-conditional contrast-GAN）結構，它能夠用目標語義變換使圖像背景脫離出來。

在 ImageNet 和 MSCOCO 數據集上進行的若干個語義處理任務的相關實驗說明了我們的對比式 GAN 比其它條件式 GAN 的性能表現更加可觀。量化結果進一步說明了我們的模型在生成可操控結果方面的優勢，它們都是高視覺保真和帶有合理目標語義的結果。

CMU聯合Petuum提出contrast-GAN：實現生成式語義處理

圖 1：本文模型的一些實例語義處理結果，將一張圖像和一個期望目標物體類別（比如貓和狗）作為輸入，然後學著去通過修改它們的外觀或幾何結構以自動改變目標物體語義。我們展示了每一對的原始圖像（左）和處理後的結果（右）。

在本論文中，我們在沒有任何配對訓練實例的情況下對圖像語義處理進行了進一步操作。它不僅僅是通過處理高級目標語義來對圖像到圖像轉譯工作進行泛化，也通過儘可能多地保留原始圖像所傳遞的內部特徵，推進了可控圖像合成的相關研究。

圖 1 展示了我們的模型的一些語義處理結果實例。可以看到我們的模型與輸入圖像相比僅有很少的形狀、幾何或紋理方面的變化，而且成功地改變了目標物體的語義特徵，例如，貓→狗。

通過對比型 GAN 進行語義處理

如圖 2 所示，我們的對比型 GAN 對一個條件式生成器 G 進行了學習，它將一個期望語義 cy 和一張輸入圖像 x 作為輸入，然後對 x 進行操作使其進入 y"。語意認知對抗判別器（semantic-aware adversarial discriminators）Dcy 旨在對 y ∈ Y 的圖像和結果 y"= G(x, cy) 進行判別。我們的新型對抗式對比損失（adversarial contrasting loss）迫使生成結果 y" 的表徵比輸入圖像 x 的相應表徵更加接近於目標區域 Y 里的那些圖像 {y}。

CMU聯合Petuum提出contrast-GAN：實現生成式語義處理

圖 2：對比型 GAN（contrast-GAN）的概述。cy 和 cx 分別表明 X 區域和 Y 區域的物體類別（語義）。Gcy 將樣本轉譯進 Y 區域，Dcy 對處理結果 y" 和真實結果 y 進行區分，反過來對於 Gcx 和 Dcx 也一樣。（a）展示了原始的 CycleGAN，使用循環一致性損失（cycle-consistency loss）為每一對分離的生成器和判別器進行優化。（b）展示了對比型 GAN 的工作流程，對一個條件式生成器 G 和幾個語義認知判別器 D1, D2, . . . , DC 進行優化，其中 C 是目標物體類別的總數量。我們在 GAN 中引入了一個對抗式對比損失，以激勵生成樣本 y" 的特徵 fy" 比輸入 x 的特徵更加接近於目標區域 Y 的特徵中心 ˉfy。

蒙版條件式對比 GAN（Mask-conditional Contrast-GAN）

圖 3 展示了模型的略圖，以一張輸入圖像 x，一個目標物體蒙版 M 和目標類別 cy 作為開始，輸出處理圖像。注意整個結構對於反向傳播來說是全差分（fully differential）的。為了更加清晰，全周期架構（比如，通過 G(y, cx) 映射 y" → x?）在圖 3 中被省略了。

CMU聯合Petuum提出contrast-GAN：實現生成式語義處理

圖 3：用於語義處理的蒙版條件式對比 GAN（mask-conditional contrast-GAN），以一張輸入圖像，一個目標物體蒙版和一個目標類別作為輸入。

CMU聯合Petuum提出contrast-GAN：實現生成式語義處理

圖 4：在給定目標蒙版的情況下，MSCOCO 數據集上蒙版對比型 GAN 和 CycleGAN 對馬→斑馬和斑馬→馬轉譯的結果對比。它展示了整合目標物體蒙版來脫離圖像背景和目標語義的效果。其中，λ 和 β 控制著目標物體的相對重要程度。G 試圖使此目標最小化，以對抗一組試圖將其最大化的判別器 {Dcy }。大量實驗表明每一個目標物體都在達到高質量處理結果的過程中扮演著重要角色。

實驗結果對比：

CMU聯合Petuum提出contrast-GAN：實現生成式語義處理