基於生成對抗網路的圖像編輯方法—優必選悉尼 AI 研究院王超岳

最新 09-29

近些年來，生成對抗網路在許多圖像生成和圖像編輯任務上都獲得了很大的成功，並受到越來越多的關注。對於圖像編輯任務，現在面臨的兩個重要的挑戰分別是：如何指導網路向目標圖像學習（以提升圖像編輯的效果）和如何感知輸入圖像內容（以提升圖像編輯的精度）。

悉尼科技大學 FEIT 三年級博士生，優必選悉尼 AI 研究院訪問學生，陶大程教授學生王超岳在 AI 研習社主辦的學術青年分享會上結合他的兩篇論文Tag Disentangled Generative Adversarial Networks for Object Image Re-rendering（IJCAI 2017 Best student paper）和Perceptual Adversarial Networks for Image-to-Image Transformation（arXiv 2017），分享了對圖像編輯做出的相應探索。

觀看完整回顧大概需要74分鐘

分享內容如下：

常見的圖像編輯有圖像去雨（雪）、圖像填充、素描到照片、風格轉換、圖像超解析度、圖像上色、圖像旋轉、時間變換等，抽象來說就是給定一張圖像以及要求，來生成新的圖像。即讓機器理解圖像和生成圖像。

生成對抗網路是由 Goodfellow 在 2014 年提出的，算是一種新的網路架構，可以做有監督或無監督的學習。

基於 GANs 的圖像編輯框架如下所示：

接下來介紹第一篇論文，用於圖像轉換任務的感知對抗網路（Perceptual Adversarial Network，PAN）。

近兩年基於 GANs 的框架，有很多不同的優化，下圖是對 Pixel-wise loss、GANs loss 和 Perceptual loss 的對比工作。

Pixel loss 優點是使用簡單、訓練速度快、穩定，缺點是輸出圖像模糊，質量低。

GAN loss 優點是能提升生成圖像質量，更加真實，銳利，缺點是學習整體生成分布，無法單獨使用。

Perceptual loss 優點是注重圖像包含的高維特徵，感知效果，缺點是受限於預訓練的其他網路。

下面是對提升生成圖像質量做出的一些研究，引入不同的 loss 來生成不同的輸出圖像。

他們希望有新的 loss 函數來彌補現有的問題，持續縮小生成圖像和真實圖像的差距。基於這樣的想法提出了感知對抗損失。

使用感知對抗損失的理由如下：

感知：衡量生成圖像和真實圖像的高維特徵的差異，並致力於縮小他們。

對抗：當現有高維特徵的差異小於一定數值 m ，D 網路被更新以尋找新的高維空間，以進一步縮小仍存在的不同。

統一：所有訓練統一在一個 GAN 框架中，無需引入其他預訓練網路，且不受任務限制。

他們引入感知對抗 loss 加 GAN loss 的結構，在這裡引入 GAN loss 來讓生成圖像的整體分布符合真實圖像的整體分布。

下面是針對於這個網路的相關實驗，主要有圖像的去雨、從分割後的 label 的圖像到街景的重現、衛星圖到谷歌地圖的轉換、圖像補全、素描生成真實圖像的任務。

下面是對比圖像去雨雪的任務，他們的模型在色差的控制等方面都有所提升。

下面是圖像補全任務，對比 CVPR 2016 的 Context Encoder，PAN 能得到更加優化的效果。

進行 Pixel2pixel 實驗時與 pix2pix 做了對比，也可以看到明顯提升。

解決圖像生成的質量之後，還有一個問題：interpretable。也就是如何解開神經網路的黑箱，並幫助計算機進一步理解圖像。

針對於如何在圖像轉換過程中理解整個網路，並控制中間層信息的表徵，他們提出標籤分解生成對抗網路 (Tag Disentangled Generative Adversarial Networks, TDGAN)，用於進行目標圖像的再次渲染 (Re-rendering)。

給定輸入圖像，裡面會包含一系列的輸入信息，人腦看到之後很容易分理出這些信息，但之前的網路很難理解這些信息，因此很難對輸入圖像進行精細編輯，現在他們想要讓網路能更進一步理解這些信息。

他們提出分解表徵法。

解決方案: 標籤。只要簡單的改變標籤，就能很容易生成微笑的圖像。

基於此，他們提出 TDGAN，包括下圖四個子網路。

網路的框架圖如下：

主要有 f1、f2、f3、f4 四個約束項：

這四個子網路採用如下交替訓練的形式：

下面是工作相應的實驗結果，給定單張椅子，給定一些想要的角度，可以生成不同角度的效果，另外可以生成人在不同光線及表情下的效果。

下圖是他們在兩個數據集下做的一些任務。可以通過給定單張椅子照片，生成不同角度的椅子；也可以控制輸入人臉圖像的多種性質，如改變其角度，光照，表情等。

總結如下：現有的很多方法都是在 GANs 的框架下，希望提升現有的圖像編輯效果和提升圖像編輯的精度，他們做了以下嘗試，去讓任務表現更好。

第一是從學習的層面，不再只是從像素層面或固定高維空間上去縮小真實圖像和轉換圖像之間的不同，而是利用對抗學習的思想去持續尋找並縮小真實圖像和轉換圖像之間尚存的差異。另一方面，他們希望演算法可以更深入的理解圖像，並幫助計算機能更加智能，通過提取和分解圖像中包含的各種信息，讓演算法可以更精確的編輯圖像，從而得到想要的結果。