英偉達再出GAN神作！多層次特徵的風格遷移人臉生成器

科技 12-17

選自arXiv

作者：Tero Karras、Samuli Laine、Timo Aila

機器之心編譯

GAN 自 2014 年提出以來得到了廣泛應用。前不久效果令人震驚的 ICLR 2019 論文 BigGAN 引發了眾多關注。去年英偉達投稿 ICLR 2018 的論文《Progressive Growing of GANs for Improved Quality, Stability, and Variation》效果也很驚艷。昨天 PGGAN 的作者再發論文，這次的效果更加真實。請戳視頻：

是的，這些圖片都是由 GAN 生成的。

這款新型 GAN 生成器架構借鑒了

風格遷移

研究，可對高級屬性（如姿勢、身份）進行自動學習和無監督分割，且生成圖像還具備隨機變化（如雀斑、頭髮）。該架構可以對圖像合成進行直觀、規模化的控制，在傳統的分布質量指標上達到了當前最優，展示了更好的插值屬性，並且能夠更好地將潛在的變差因素解糾纏。

下圖展示了這款新型生成器的風格效果。它將隱編碼生成的風格（source）疊加在另一種隱編碼的風格子集（destination）上。

對空間解析度較低（4^2 – 8^2）的層的風格進行疊加的效果見「Coarse styles copied」部分：生成圖像從 source 中複製了姿勢、大致髮型、臉形和眼鏡等高級屬性，但保留了 destination 圖像的所有顏色（眼睛、頭髮、光線）和細節臉部特徵。

對空間解析度為 16^2 – 32^2 的層的風格進行疊加的效果見「Middle styles copied」部分：複製了 source 圖像的細微面部特徵、髮型、眼睛睜開的狀態，同時保留了 destination 圖像的姿勢、臉形和眼鏡。

對高解析度 (64^2 – 1024^2) 的層的風格進行疊加的效果見「Fine styles」：主要保留了 source 圖像的顏色和微小特徵。

論文：A Style-Based Generator Architecture for Generative Adversarial Networks

論文鏈接：https://arxiv.org/pdf/1812.04948.pdf

基於風格的生成器

如下圖所示，（a）PGGAN 生成器將隱編碼僅饋入輸入層，而（b）英偉達最近提出的基於風格的生成器首先將輸入映射到中間潛在空間 W，W 控制生成器在每個卷積層的自適應實例歸一化（adaptive instance normalization，AdaIN）。然後在應用非線性激活之前在每個卷積層之後添加高斯雜訊。圖中 A 表示學到的仿射變換，B 表示學到的每個通道對雜訊輸入的比例因子。映射網路 f 包含 8 個層，合成網路 g 包含 18 個層（4^2、8^2、16^2、32^2、64^2、128^2、256^2、512^2、1024^2 這九種解析度中每種解析度有兩個層）。使用互相分離的 1 × 1 卷積將最後一層的輸出轉換成 RGB，與前作 PGGAN 類似。

基於風格的生成器的屬性

該生成器架構通過對風格的尺度調整來控制圖像合成。映射網路和仿射變換用來從學到的分布中獲取每種風格的採樣，合成網路用來基於多種風格生成新圖像。每種風格的效果都在該網路內有呈現，即修改多種風格的特定子集以影響圖像的某些特定屬性。

該研究介紹了該生成器的三個屬性，分別是風格混合、隨機變化（Stochastic variation）和全局效應與隨機性的分離。

風格混合

上圖展示了在多種解析度情況下混合兩種隱編碼合成的圖像示例。可以看到風格的每個子集控制圖像的有意義高級屬性。

隨機變化

圖 4. 隨機變化的示例。（a）兩張生成的圖像。（b）放大輸入雜訊的不同實現。儘管整體外觀大致相同，但個體毛髮細節還是有不同。（c）100 個不同實現中像素的標準偏差，高亮處為圖像受雜訊影響的區域。主要區域是頭髮、輪廓和部分背景，但眼睛的反射也有有趣的隨機變化。身份和姿勢等全局特徵不受隨機變化的影響。

圖 5：生成器不同層的輸入雜訊對生成結果的影響。（a）雜訊被應用到所有層；（b）沒有雜訊；（c）雜訊僅應用到（64^2 - 1024^2）解析度的精細層；（d）雜訊僅應用到（4^2 - 32^2）解析度的粗糙層。我們可以看到人工消除雜訊可以讓圖像看起來更正常，粗糙雜訊會導致大幅度的頭髮和背景扭曲；精細雜訊帶來的頭髮變形更加細緻，背景細節更加豐富，甚至能看到皮膚毛孔。

全局效應與隨機性的分離

前文及隨附的視頻說明，雖然改變風格會產生全局效應（global effect），如改變姿勢、ID 等，但雜訊只會影響無關緊要的隨機變化（如髮型、鬍子等）。這個觀察結果與風格遷移文獻一致，後者已經確定了空間不變的統計數據（格拉姆矩陣、通道均值、方差等）能夠可靠地編碼圖像的風格 [17, 33]，同時空間變化的特徵編碼特定實例。

在本文基於風格的生成器中，風格會影響整個圖像，因為整個特徵圖會以同樣的值進行縮放和偏移。因此，姿勢、光線或背景風格等全局效應可以得到連貫的控制。同時，雜訊被單獨添加到每個像素中，因此非常適於控制隨機變化。如果該網路試圖用雜訊控制姿勢，那將會導致空間不一致的決策，然後被判別器懲罰。因此該網路學會了在沒有明確指導的情況下適當地使用全局和局部通道。

此外，英偉達還提出兩種可應用於任意生成器架構的新型自動化方法，並創建了一個包含千差萬別、高質量人臉圖像的新型數據集 FlickrFaces-HQ（FFHQ）。該數據集中的圖像來自於 Flickr 網站，並經過自動對齊和剪裁。該數據集包含 70000 張解析度為 1024^2 的高質量圖像，其中的圖像在年齡、種族、圖像背景等方面比 CelebA-HQ [26] 具備更寬泛的變化，且涵蓋更多配飾，如眼鏡、太陽鏡、帽子等。