Goodfellow點贊的相對鑒別器:表徵GAN中缺失的關鍵因素
選自arXiv
機器之心編譯
參與:張倩、思源
Ian Goodfellow 剛剛評論了一篇 GAN 論文,他認為這一篇關於相對 GAN 的論文有非常好的屬性。Goodfellow 在小型數據集上嘗試了這種相對 GAN,並有很好的效果。這種相對 GAN 基於非常樸素的概念:在訓練中 GAN 應該同時降低真實數據看起來為真的概率。為此該論文提出了相對鑒別器,並在給定真實數據下估計它們比隨機採樣的假數據要真實的概率。
生成對抗網路(GAN)[Hong et al., 2017] 是生成模型的一大類別,兩個競爭的神經網路——鑒別器 D 和生成器 G 在其中玩遊戲。訓練 D 用於分辨數據的真假,而 G 用於生成可以被 D 誤識別為真數據的假數據。在 Goodfellow 等 [2014] 提出的原始 GAN(我們稱之為標準 GAN,即 SGAN)中,D 是分類器,用於預測輸入數據為真的概率。如果 D 達到最佳狀態,SGAN 的損失函數就會近似於 JS 散度(Jensen–Shannon divergence,JSD)[Goodfellow et al., 2014]。
SGAN 有兩種生成損失函數變體:飽和的和非飽和的。實踐證明,前者非常不穩定,而後者則穩定得多 [Goodfellow et al., 2014]。Arjovsky 和 Bottou[2017] 證明,在某些條件下,如果能夠將真假數據完美地分類,飽和損失函數的梯度為0,而非飽和損失函數的梯度不為 0,且不穩定。在實踐中,這意味著 SGAN 中的鑒別器通常訓練效果不佳;否則梯度就會消失,訓練也隨之停止。這一問題在高維設定中會更加明顯(如高解析度圖像及具有較高表達能力的鑒別器架構),因為在這種設定下,實現訓練集完美分類的自由度更高。
為了提升 SGAN,許多 GAN 變體可以選擇使用不同的損失函數及非分類器的鑒別器(如 LSGAN[Mao et al., 2017]、WGAN [Arjovsky et al., 2017])。儘管這些方法適當提升了穩定性和數據質量,但 Lucic 等人做的大型研究 [2017] 表明,這些方法在 SGAN 上並沒有持續改進。此外,一些非常成功的的方法(如 WGAN-GP [Gulrajani et al., 2017])對計算的要求比 SGAN 高得多。
最近許多成功的 GAN 都是基於積分概率度量(Integral Probability Metric,IPM)[Müller, 1997](如 WGAN [Arjovsky et al., 2017]、WGAN-GP[Gulrajani et al., 2017]、Sobolev GAN [Mroueh et al., 2017]、Fisher GAN [Mroueh and Sercu, 2017])。在基於 IPM 的 GAN 中,鑒別器是實值的,並被限制在一類特定的函數中,以免增長過快;這是一種正則化形式,防止 D 變得過強(即大致將真假數據完美分類)。在實踐中,我們發現基於 IPM 的 GAN 鑒別器可以經過多次迭代訓練而不造成梯度消失。
IPM 限制已被證明在不基於 IPM 的 GAN 中同樣有益。WGAN 限制(即 Lipschitz 鑒別器)已通過譜歸一化被證明在其他 GAN 中也有幫助 [Miyato et al., 2018]。WGAN-GP 限制(即真假數據梯度範數等於 1 的鑒別器)被證明在 SGAN 中有益 [Fedus et al., 2017](以及 Kodali 等人非常相似的梯度罰分 [ 2017 ])。
儘管這表明某些 IPM 限制會提高 GAN 的穩定性,但這並不能解釋為什麼 IPM 所提供的穩定性通常比 GAN 中的其他度量/散度提供的更高(如 SGAN 的 JSD、f-GAN 的 f-divergences[Nowozin et al., 2016])。本文認為,不基於 IPM 的 GAN 缺失一個關鍵元素——一個相對鑒別器,而基於 IPM 的 GAN 則擁有該辨別器。研究表明,為了使 GAN 接近散度最小化,並根據小批量樣本中有一半為假這一先驗知識產生合理的預測,相對鑒別器是必要的。論文提供的經驗證據表明,帶有相對鑒別器的 GAN 更穩定,產生的數據質量也更高。
論文:The relativistic discriminator: a key element missing from standard GAN
論文地址:https://arxiv.org/abs/1807.00734
在標準生成對抗網路(SGAN)中,鑒別器 D 用於估計輸入數據為真實樣本的概率,而生成器 G 用於提高數據以假亂真的概率。我們認為它應該同時降低真實數據看起來為真的概率,因為 1)這可以解釋批量數據中一半為假的先驗知識,2)我們可以在最小化散度的過程中觀察到這種現象,3)在最優設定中,SGAN 等價於積分概率度量(IPM)GAN。我們證明該屬性可以通過使用一個「相對鑒別器」(Relativistic Discriminator)導出,該鑒別器在給定真實數據下估計它們比隨機採樣的假數據要真實的概率。
我們還提出了一種變體,其中鑒別器估計平均給定的真實數據要比假數據更加真實的概率。我們泛化兩種方法到非標準 GAN 損失函數中,並分別稱之為相對 GAN(RGAN)和相對平均 GAN(RaGAN)。我們的研究表明,基於 IPM 的 GAN 是使用恆等函數的 RGAN 的子集。實驗中,我們觀察到 1)與非相對 GAN 相比,RGAN 和 RaGAN 生成的數據樣本更穩定且質量更高。2)與 WGAN-GP 相比,帶有梯度懲罰的標準 RaGAN 生成的數據質量更高,同時每個生成器的更新還只要求單個鑒別器更新,這將達到當前最優性能的時間降低到原來的 1/4。3)RaGAN 能從非常小的樣本(N=2011)生成高分別率的圖像(256×256),而 GAN 與 LSGAN 都不能。此外,這些圖像也顯著優於 WGAN-GP 和帶譜歸一化的 SGAN 所生成的圖像。
4 方法
4.2 相對 GAN
更一般的,我們考慮了由 a(C(x_r)?C(x_f )) 定義的任意鑒別器,其中 a 為激活函數,它因為輸入 C(x_r)?C(x_f ) 而變得具有相對性。這意味著基本上任意 GAN 都可以添加一個相對鑒別器。這能組成新一類的模型,我們稱之為相對 GAN(Relativistic GAN/RGAN)。
大多數 GAN 可以在 critic 方面做非常普遍的參數化:
其中 f_1、f_2、g_1、g_2 都是標量到標量的函數。如果我們使用一個相對鑒別器,那麼 GAN 現在就可以表示為以下形式:
基於 IPM 的 GAN 代表了 RGAN 的特例,其中 f_1(y) = g_2(y) = ?y、f_2(y) = g_1(y) = y。重要的是,g_1 一般在 GAN 中是忽略的,因為它的梯度為 0,且生成器並不能影響它。然而在 RGAN 中,g_1 受到了假數據的影響,所以受到了生成器的影響。因此 g_1 一般有非零的梯度且需要在生成器損失中指定。這意味著在大多數 RGAN(除了基於 IPM 的 GAN,因為它們使用恆等函數)中,我們需要訓練生成器以最小化預期的總體損失函數,而不僅僅只是它的一半。
演算法 1 展示了訓練 RGAN 的過程:
5 實驗
表 1:傳統定義的 GAN 鑒別器(P(x_r is real) = sigmoid(C(x_r)))與相對平均鑒別器(P(x_r is real|C(x_f )) = sigmoid(C(x_r) ? C(x_f )))的輸出樣本。其中麵包表示真實圖像、小狗表示偽造圖像。
表 3:在 CIFAR-10 數據集上執行 100k 次生成器迭代所得出的 Fréchet Inception 距離(FID),它使用不同 GAN 損失函數的不穩定的配置。
表 4:在 CAT 數據集和不同的 GAN 損失函數上執行 20k、30k 到 100k 生成器迭代後的 Fréchet Inception 距離(FID),其中 min、max、mean 和 SD 分別表示 FID 的最大、最小、平均、標準差值。
在 Ian Goodfellow 對該論文的評論中,他非常關注附錄所展示出來的生成器訓練速度。在一般的 GAN 訓練中,我們通常會發現生成器在初始化後訓練地非常慢,它要經過很多次迭代才開始不再生成雜訊。而在這一篇論文中,作者表示 GAN 和 LSGAN 在 CAT 數據集上迭代 5000 次仍然只能生成如下所示 256×256 的雜訊。
而 RaSGAN 在初始化後就能快速學習生成圖像。
※劍橋大學:156頁PPT全景展示AI過去的12個月
※清華等機構提出基於內部一致性的行人檢索方法,實現當前最優
TAG:機器之心 |