學界 | 史上最強GAN圖像生成器，Inception分數提高兩倍

科技 10-03

選自Openreview

機器之心編譯

參與：

曉坤

ICLR 2019 大會即將在明年 5 月 6 日於美國舉行，9 月 27 日論文提交截止時間已過。本次大會共接收到了 1591 篇論文的投稿，數量相較今年的 1000 篇提升了近 60%。在雙盲評審時，人們可以在 Openreview 平台上看到所有論文內容。

在向 ICLR 2019 提交的論文中，有一篇 GAN 生成圖像的論文引起了所有人的注意，很多學者驚呼：不敢相信這樣高質量的圖像竟是 AI 生成出來的。其中生成圖像的目標和背景都高度逼真、邊界自然，並且圖像插值每一幀都相當真實，簡直能稱得上「創造物種的 GAN」。該論文還引起了 Oriol Vinyals、Ian Goodfellow 的關注。

論文：LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

地址：https://openreview.net/pdf?id=B1xsqj09Fm

儘管近期由於生成圖像建模的研究進展，從複雜數據集例如 ImageNet 中生成高解析度、多樣性的樣本仍然是很大的挑戰。為此，在這篇提交到 ICLR 2019 的論文中，研究者嘗試在最大規模的數據集中訓練生成對抗網路，並研究在這種規模的訓練下的不穩定性。研究者發現應用垂直正則化（orthogonal regularization）到生成器可以使其服從簡單的「截斷技巧」（truncation trick），從而允許通過截斷隱空間來精調樣本保真度和多樣性的權衡。這種修改方法可以讓模型在類條件的圖像合成中達到當前最佳性能。當在 128x128 解析度的 ImageNet 上訓練時，本文提出的模型—BigGAN—可以達到 166.3 的 Inception 分數（IS），以及 9.6 的 Frechet Inception 距離（FID），而之前的最佳 IS 和 FID 僅為 52.52 和 18.65。

圖 1：由 BigGAN 生成的類條件樣本。

近年來生成圖像建模領域進展迅速，GAN 的提出為我們帶來了能直接從數據中學習生成高保真度和多樣圖像的模型。GAN 的訓練是動態的，並且對幾乎所有層面的設置都很敏感（從最優化參數到模型架構），但有大量的研究在經驗和理論上獲得了在多種設置中實現穩定訓練的洞察。儘管得到了這樣的進展，當前在條件 ImageNet 建模上的當前最佳結果仍然僅達到了 52.5 的 IS，而真實數據有 233 的 IS。

在這項研究中，作者成功地將 GAN 生成圖像和真實圖像之間的保真度和多樣性 gap 大幅降低。本研究做出的貢獻如下：

展示了 GAN 可以從訓練規模中顯著獲益，並且能在參數數量很大和八倍批大小於之前最佳結果的條件下，仍然能以 2 倍到 4 倍的速度進行訓練。作者引入了兩種簡單的生成架構變化，提高了可擴展性，並修改了正則化方案以提升條件化（conditioning），這可論證地提升了性能。

作為修改方法的副作用，該模型變得服從「截斷技巧」，這是一種簡單的採樣技術，允許對樣本多樣性和保真度進行精細控制。

發現大規模 GAN 帶來的不穩定性，並對其進行經驗的描述。從這種分析中獲得的洞察表明，將一種新型的和已有的技術結合可以減少這種不穩定性，但要實現完全的訓練穩定性必須以顯著降低性能為代價。

本文提出的修改方法大幅改善了類條件 GAN 的性能。當在 128x128 解析度的 ImageNet 上訓練時，本文提出的模型—BigGAN—可以達到 166.3 的 Inception 分數（IS），以及 9.6 的 Frechet Inception 距離（FID），而之前的最佳 IS 和 FID 僅為 52.52 和 18.65。

研究者還成功地在 256x256 解析度和 512x512 解析度的 ImageNet 上訓練了 BigGAN，並在 256x256 解析度下達到 233.0 的 IS 和 9.3 的 FID，在 512x512 解析度下達到了 241.4 的 IS 和 10.9 的 FID。最後，研究者還嘗試在更大規模的數據集上訓練，結果表明其提出的架構設計可以很好地從 ImageNet 中遷移到其它圖像數據。

擴展 GAN 的規模

研究者從為基線模型增加批大小開始，並立刻發現了這樣做帶來的好處。表 1 的 1 到 4 行表明按 8 的倍數增加批大小可以將當前最佳的 IS 提高 46%。研究者假設這是由於每個批量覆蓋了更多的模式，為生成器和鑒別器都提供了更好的梯度信息。這種擴展帶來的值得注意的副作用是，模型以更少的迭代次數達到了更好的性能，但變得不穩定並且遭遇了完全的訓練崩潰。研究者在論文第 4 部分討論了原因和後果。因此在實驗中，研究者在崩潰剛好發生之後立刻停止訓練，並從之前保存的檢查點進行結果報告。

表 1：BigGAN 的控制變數研究結果。

然後，研究者增加了每個層 50% 的寬度（通道數量），這大致在生成器和鑒別器中都翻倍了參數數量。這導致了進一步的 21% 的 IS 提升，研究者假設這是由於模型相對於數據集複雜度的容量的增加。將深度翻倍在 ImageNet 模型上並不能得到相同的優化效應，反而會降低性能。

圖 2：（a）增加截斷的效應。從左到右，閾值=2, 1.5, 1, 0.5, 0.04。（b）應用截斷和性能差的條件生成模型的飽和度偽影。

研究者注意到 G 中的用於條件批歸一化層的類嵌入 c 包含大量的權重。研究者選擇使用共享嵌入，其線性投射到每個層的增益和偏差，而沒有為每個嵌入使用單獨的層。這降低了計算和內存成本，並提升了 37% 的訓練速度（用達到特定性能需要的迭代次數衡量）。接下來，研究者使用了多個層級隱空間，其中雜訊向量 z 被饋送到 G 的多個層，而不僅是初始層。

這種設計的直覺來源於，讓 G 使用隱空間直接影響不同解析度和層級下的特徵。在本文提出的架構中，這很容易通過將 z 分離為每個解析度一段，並將 z 的每段和條件向量（其投射到批歸一化增益和偏差）拼接來實現。以前的研究曾經考慮過這種概念的變體（Goodfellow et al., 2014; Denton et al., 2015），本文研究者的貢獻在於對這種設計進行了小幅修改。層級隱空間優化了計算和內存成本（主要通過減少第一個線性層的參數預算），這提供了大約 4% 的性能提升，並進一步提升了 18% 的訓練速度。