蒙特利爾大學研究者改進Wasserstein GAN,極大提高GAN訓練穩定性
生成對抗網路(GAN)是一種強大的生成模型,但是自從2014年Ian Goodfellow提出以來,GAN就存在訓練不穩定的問題。最近提出的 Wasserstein GAN(WGAN)在訓練穩定性上有極大的進步,但是在某些設定下仍存在生成低質量的樣本,或者不能收斂等問題。
近日,蒙特利爾大學的研究者們在WGAN的訓練上又有了新的進展,他們將論文《Improved Training of Wasserstein GANs》發布在了arXiv上。研究者們發現失敗的案例通常是由在WGAN中使用權重剪枝來對critic實施Lipschitz約束導致的。在本片論文中,研究者們提出了一種替代權重剪枝實施Lipschitz約束的方法:懲罰critic對輸入的梯度。該方法收斂速度更快,並能夠生成比權重剪枝的WGAN更高質量的樣本。
以下為雷鋒網AI科技評論據論文內容進行的部分編譯。
論文摘要
生成對抗網路(GAN)將生成問題當作兩個對抗網路的博弈:生成網路從給定雜訊中產生合成數據,判別網路分辨生成器的的輸出和真實數據。GAN可以生成視覺上吸引人的圖片,但是網路通常很難訓練。前段時間,Arjovsky等研究者對GAN值函數的收斂性進行了深入的分析,並提出了Wasserstein GAN(WGAN),利用Wasserstein距離產生一個比Jensen-Shannon發散值函數有更好的理論上的性質的值函數。但是仍然沒能完全解決GAN訓練穩定性的問題。
雷鋒網了解到,在該論文中,蒙特利爾大學的研究者對WGAN進行改進,提出了一種替代WGAN判別器中權重剪枝的方法,下面是他們所做的工作:
通過小數據集上的實驗,概述了判別器中的權重剪枝是如何導致影響穩定性和性能的病態行為的。
提出具有梯度懲罰的WGAN(WGAN with gradient penalty),從而避免同樣的問題。
展示該方法相比標準WGAN擁有更快的收斂速度,並能生成更高質量的樣本。
展示該方法如何提供穩定的GAN訓練:幾乎不需要超參數調參,成功訓練多種針對圖片生成和語言模型的GAN架構
WGAN的critic函數對輸入的梯度相比於GAN的更好,因此對生成器的優化更簡單。另外,WGAN的值函數是與生成樣本的質量相關的,這個性質是GAN所沒有的。WGAN的一個問題是如何高效地在critic上應用Lipschitz約束,Arjovsky提出了權重剪枝的方法。但權重剪枝會導致最優化困難。在權重剪枝約束下,大多數神經網路架構只有在學習極其簡單地函數時才能達到k地最大梯度範數。因此,通過權重剪枝來實現k-Lipschitz約束將會導致critic偏向更簡單的函數。如下圖所示,在小型數據集上,權重剪枝不能捕捉到數據分布的高階矩。
由於在WGAN中使用權重剪枝可能會導致不良結果,研究者考慮在訓練目標上使用Lipschitz約束的一種替代方法:一個可微的函數是1-Lipschitz,當且僅當它的梯度具有小於或等於1的範數時。因此,可以直接約束critic函數對其輸入的梯度範數。新的critic函數為:
實驗結果 圖&表
研究者們在CIFAR-10數據集上將梯度懲罰的WGAN與權重剪枝的WGAN的訓練進行了對比。其中橙色曲線的梯度懲罰WGAN使用了與權重剪枝WGAN相同的優化器(RMSProp)和相同的學習率。綠色曲線是使用了Adam優化器和更高學習率的梯度懲罰WGAN。可以看到,即使使用了同樣的優化器,該論文中的方法也能更快的收斂並得到更高的最終分數。使用Adam優化器能進一步提高性能。
為了展示該方法訓練過程中的穩定性,研究者在LSUN卧室訓練集上訓練了多種不同的GAN架構,除了DCGAN外,研究者還選擇了另外六種較難訓練的架構,如下圖所示:
對於每種架構,研究者都使用了四種不同的GAN過程:梯度懲罰的WGAN,權重剪枝的WGAN,DCGAN,以及最小二乘GAN。對於每種方法,都使用了推薦的優化器超參數默認設置:
WGAN with gradient penalty: Adam (α = .0001, β1 = .5, β2 = .9)
WGAN with weight clipping: RMSProp (α = .00005)
DCGAN: Adam (α = .0002, β1 = .5)
LSGAN: RMSProp (α = .0001) [chosen by search over α = .001, .0002, .0001]
上圖顯示的樣本都是經過200k次迭代的結果。目前為止,梯度懲罰的WGAN是唯一一種使用同一種默認超參數,並在每個架構下都成功訓練的方法。而所有其他方法,都在一些架構下不穩定。
使用GAN構建語言模型是一項富有挑戰的任務,很大程度上是因為生成器中離散的輸入輸出序列很難進行反向傳播。先前的GAN語言模型通常憑藉預訓練或者與監督最大似然方法聯合訓練。相比之下,使用該論文的方法,不需採用複雜的通過離散變數反向傳播的方法,也不需要最大似然訓練或fine-tune結構。該方法在Google Billion Word數據集上訓練了一個字元級的GAN語言模型。生成器是一個簡單的CNN架構,通過1D卷積將latent vector轉換為32個one-hot字元向量的序列。
下圖展示了模型的一個例子。目前為止,這是第一個完全使用對抗方法進行訓練,而沒有使用監督的最大似然損失的生成語言模型。其中有一些拼寫上的錯誤,這可能是由於模型是每個字元獨立輸出的。
該文提供了一種訓練GAN的穩定的演算法,能夠更好的探索哪種架構能夠得到最好的生成模型性能。該方法也打開了使用大規模圖像或語言數據集訓練以得到更強的模型性能的大門。
本論文在github上開源了代碼:github
本論文同時也提供了詳細的數學證明,以及更多的示例,進一步了解請閱讀原論文:Improved Training of Wasserstein GANs,雷鋒網編譯
※Elon Musk眼中「了不起的卡車」,只是電動化那麼簡單嗎?
※黑客競賽,你不知道的台前幕後 | 專訪騰訊安全科恩實驗室天憶&阿左
※在 VR 里與基友互懟是怎樣的體驗?這畫面有些不可描述
TAG:雷鋒網 |
※IBM攜手Yoshua Bengio,在蒙特利爾建AI實驗室
※BioWare蒙特利爾將與Motive工作室合併
※簽證困擾 Space Soldiers無緣DreamHack蒙特利爾站
※BioWare蒙特利爾和EA Motive合併 開發星戰前線2
※蒙特利爾遊戲原畫設計師GuillaumeMenuel作品分享
※IBM 在蒙特利爾新建 AI 實驗室,與 Bengio 團隊合作探索深度學習
※加拿大蒙特利爾Krist Miha作品分享
※爐石DreamHack蒙特利爾四分之一決賽者,解釋了他的Rogue甲板選擇
※Cloudy專訪:蒙特利爾已定目標 GSL願TIME打出自信
※蒙特利爾街頭藝術家Peter Gibson馬路塗鴉
※蒙特利爾街頭藝術節 「Mural Festival 2017」
※Movin′On為何兩次選擇蒙特利爾
※「指彈早知道」Vol.005 指彈中國和Greenfiel蒙特利爾「奇遇記」!
※蒙特利爾動漫節,大量真人cosplay來襲
※Bioware蒙特利爾被合併《質量效應》系列或將擱置
※Bioware蒙特利爾被合併 《質量效應》系列或將擱置
※BioWare蒙特利爾前員工現身 痛訴性別和種族歧視
※哪個國家買iPhone X 最划算?蒙特利爾不要哭泣……
※美國著名喜劇明星 正在蒙特利爾Verdun區拍電影