當前位置:
首頁 > 新聞 > Ian Goodfellow親授 GAN論文投稿指南,從了解評審要點開始

Ian Goodfellow親授 GAN論文投稿指南,從了解評審要點開始

新智元推薦

來源:知乎專欄

作者:Ian Goodfellow 翻譯:王宇龍

【新智元導讀】每年在機器學習相關的頂會中,有關生成對抗網路GAN的理論和實證研究論文非常多,如何評估這些論文的新穎性,如何評估模型是否有真正的突破,以及如何避免埋沒好論文,是值得關注的問題。GAN的提出人、谷歌工程師Ian Goodfellow近日發表一系列推文,談論這些問題的解決方法,以及他對目前GAN進展的一些憂慮。

有許多關於 GAN 如何工作的理論或實證研究論文,關於如何用 GAN 做新奇而有趣的事情的論文(例如關於應用在無監督翻譯的第一篇論文),新的度量標準等等。但這個主題不是關於那些。

還有很多關於 GAN 的文章作為更大系統的一部分,比如半監督學習的 GAN,差分隱私,數據集增強等等。這個帖子也不是關於那些 --- 因為他們可以以更大的系統的評測標準來衡量。

這個主題是關於一些新的方法,這些方法一般會使 GAN 更可靠地訓練或生產更好的樣本。


如何評估GAN論文的新穎性

我的第一個建議是,GAN 論文的審稿人應該閱讀 「Are GANs Created Equal?」 這篇文章,它解釋為什麼這方面的實證工作很難以及如何正確的進行研究。

另一篇關於背景知識的好文章是 「A note on the evaluation of generative models」,它解釋了為什麼模型可能生成很好的樣本但是卻有較差的 likelihood,反之亦然,以及其他衡量生成模型指標的問題 。

GAN 論文的一個難點是評估新穎性。有很多論文提出了 GAN 的改進,但很難跟蹤所有這些改進,並區分一種新方法是否真的創新。 試著用 4-5 種方式來重新闡述這個想法,並用谷歌搜索,看它是否已經被提出。

網上一個好的資源去跟蹤這些 GAN 變體是 GAN zoo:https://github.com/hindupuravinash/the-gan-zoo

參考:Ian Goodfellow 推薦:GAN 動物園——GAN 的各種變體列表(下載)

如果提出的方法不是真正的新方法,那麼論文可能還是有價值的,但審稿人應

該確保論文正確地 acknowledge 以前的工作。


評估GAN性能的指標

就指標而言,Frèchet Inception Distance(或其 intra-class 版本)可能是目前評估通用 GAN 性能的最佳指標。 對於除 ImageNet 以外的數據集,使用 Inception 之外的模型來定義距離也是可以的。

一些專註於特殊情況的論文可能會包含其他指標(例如,具有 Real NVP generator 的 GAN 可以實際上報告準確的 likelihood),但是如果論文沒有報告 FID,我希望它能夠很好地說明為什麼。

很多論文都鼓勵讀者通過查看樣本來形成他們對論文方法的看法。 這通常是一個不好的跡象。

我知道使用樣本來證明情況有所改善主要是來說明,當前方法可以從以前的技術無法解決的領域生成樣本。

例如,使用單個 GAN 生成 ImageNet 樣本非常困難,許多論文顯示的基本上是失敗的嘗試。 SN-GAN 成功地從所有類別製作可識別的樣本。 由此我們知道 SN-GAN 是一項重大改進。

(這種改進仍然有可能來自於除了所提出的方法以外的其他因素,例如新的更大的網路架構等等)

許多論文展示了來自 CIFAR-10 或 CelebA 等數據集的樣本,想要讓審稿人留下深刻的印象。對於這些我從來不知道我想要尋找什麼。這些任務大都解決了,所以他們大部分都失去了意義。

我也不知道如何將有一種微小缺陷的圖像,和另一種圖像質量上有不同的小缺陷進行對照——諸如是有一點搖擺(wobble)好,還是一點點棋盤格(checkerboarding)更好?

因此,我通常只會將 CelebA,CIFAR-10 上生成的樣本,視為僅是為了對於方法不會崩的完整性檢查(sanity-check)。


baseline和復現模型

審稿人應該對任何已經復現了 baseline 的人非常懷疑。有很多微妙的方法來搞砸深度學習演算法,而作者有動機不是非常仔細地檢查復現的 baseline。

通常,至少有一個 baseline 應該是另一篇論文發表的結果,因為其他論文的作者有動機來獲得好的結果。 這樣評估至少是動機相容的(incentive-compatible)。

審稿人應該檢查其他論文復現的模型是否執行了相同任務,並檢查他們的 score。因為這種情況非常常見:引用別人論文,然後顯示比原論文實際報告的更糟糕的圖像 / 分數。

當然,其他領域也會在故意打壓(sandbagging)baseline:

每年當寫論文的時候,大家就很方(wu)便(chi)的把 baseline 弄差了

但我覺得這對 GAN 論文特別不利。

有時,如果一篇論文研究一項新任務或一項以前研究過的任務中很少評估過的方面,作者有必要實施他們自己的 baseline。 在這種情況下,可能論文的一大半部分應該致力於證明 baseline 是正確的

解釋所有超參數來自何處非常重要。通常新方法看起來像是改進,但其實是因為作者花費了更多時間非正式地優化新方法的超參數

成就解鎖:最大 Twitter 線(thread)長度。 我會另開一貼

(本文經授權轉載自知乎專欄:Learning in the Deep)


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

再見AI黑匣子:研究人員教會AI進行自我解釋
黃仁勛:GPU計算時代到來!

TAG:新智元 |