Ian Goodfellow：你的GAN水平我來打分

科技 08-20

選自arXiv

作者：Catherine Olsson, Surya Bhupatiraju, Tom Brown, Augustus Odena, Ian Goodfellow

機器之心編譯

機器之心編輯部

如何評價生成模型的性能好壞？這似乎是一個複雜而困難的任務。Ian Goodfellow 提出的生成對抗網路 GAN 已經成為人工智慧的重要研究方向，吸引了眾多學者投入研究。但 GAN 也遭遇了「改無可改」的呼聲（參見：六種改進均未超越原版：谷歌新研究對 GAN 現狀提出質疑）。近日，Goodfellow 團隊提出了一種全新生成模型評價方式，看來，GAN 的開山鼻祖終於坐不住了，他試圖親自解決這個問題。

Ian Goodfellow 表示：通過估計解釋模型表現的隱技能變數來評估生成模型的能力似乎是一個很有希望的研究方向。

谷歌研究科學家 Jordi Pont-Tuset 對於 CVPR 各屆接收論文名稱的統計，GAN 已經超過 LSTM，成為了重要關鍵詞，大有趕超「深度學習」的趨勢。但眾多論文里，真正的改進又有多少？

生成模型的評估是一項非常困難的任務。目前該領域已經探索了許多不同的方法，但每一種方法都存在顯著的缺點。Theis [2016] 和 Borji [2018] 等人概覽了這些方法，並展示了它們各自的缺點。

在這一篇論文中，谷歌大腦提出了一種通過對抗過程評估生成模型的新框架，在該對抗過程中，許多模型在錦標賽（tournament）中進行對抗。谷歌大腦團隊利用先前開發的人類選手評估方法來量化模型在這類錦標賽中的性能。

在國際象棋或網球比賽中，Elo 或 Glicko2 等技能評分系統通過觀察多個參賽者的勝利數和失敗數，推斷每一個參與者的隱藏、未觀察到的技能值（它們解釋了這些觀察到的輸贏數），從而評估他們的技能表現。同樣，谷歌大腦團隊通過構建一個多參與者的錦標賽將生成模型的評估構建為隱藏技能估計問題，該錦標賽可推廣至雜訊對比估計（NCE）和生成對抗網路（GAN）所使用的兩參與者的可分辨博弈（two-player distinguishability game），並且估計參與這些錦標賽的生成模型的隱藏技能。

錦標賽的參與者可以是嘗試區別真實數據和偽數據的判別器，也可以是嘗試欺騙判別器將偽造數據誤認為是真實數據的生成器。雖然框架主要為 GAN 設計，但它也可以估計任何成為該框架參與者的模型效果。例如顯式密度模型等任何能夠生成樣本的模型都可以作為生成器。

我們引入了兩種方法來總結錦標賽的結果：

錦標賽勝率：錦標賽中每個生成器成功欺騙判別器的平均比率。

技能評分。用技能評分系統對錦標賽的結果進行評估，然後對每個生成器生成一個技能分數。

實驗表明，錦標賽是一種評估生成器模型的有效方式。首先，within-trajectory 錦標賽（在訓練的連續迭代中，單個 GAN 自身的判別器和生成器的 snapshot 之間）提供了一個有用的訓練進度衡量標準，即使只能接觸正在訓練的生成器或判別器。其次，更普遍的錦標賽（具有不同種子、超參數和架構的 GAN 生成器和判別器 snapshot 之間）提供了不同訓練過的 GAN 之間的有效對比。

本論文第二部分將研究放在生成模型評估系統這一更大背景下，詳細說明了谷歌大腦提出的方法和其他方法相比的優點和局限性。4.1 節初步證明了該方法適用於不能很好地表徵為標準化圖像嵌入的數據集，例如未標註數據集或自然圖像以外的形式。谷歌大腦研究者還展示了使用技能評分系統來總結錦標賽結果，實現了在一場比賽中對所有參與者進行技能評分，而無需進行二次比賽。4.2 節展示了 GAN 判別器能成功地判斷哪些樣本來自於沒訓練過的生成器，包括其他 GAN 生成器和其他類型的生成模型。4.3 節展示了該方法可以應用於生成器近乎完美的情況下。

論文：Skill Rating for Generative Models

論文鏈接：https://arxiv.org/abs/1808.04888v1

摘要

：我們利用評估人類選手在競技遊戲中表現的方法，探索了一種評估生成模型的新方式。我們通過實驗展示了生成器和判別器之間的錦標賽為評估生成模型提供了一種有效方式。我們介紹了兩種對比錦標賽結果的方法：贏率和技能評定。評估在不同語境中都有用，包括監控單個模型在訓練過程中的進展、對比兩個不同的完全訓練模型的能力。我們展示了包含單個模型與其之前、之後版本比賽的錦標賽可以有效輔助對訓練進展的衡量。包含多個單獨模型（使用不同隨機種子、超參數和架構）的錦標賽提供了對不同訓練 GAN 的有效對比。基於錦標賽的評定方法在概念上與大量之前的評估生成模型方法不同，且具備互補的優劣勢。

圖 1：實驗 1 的 Within-trajectory 錦標賽結果。圖 1a：左圖展示了原始比賽結果。每個像素表示來自實驗 1 不同迭代的生成器和判別器之間的平均贏率。像素越亮表示生成器的性能越強。右圖對比了比賽的概括性指標和 SVHN 分類器得分。該圖中比賽贏率指熱力圖中每列平均像素值。（注意：i=0 時分類器得分低於 4.0，遮擋了同一軸線上其餘曲線的對齊，因此我們選擇忽略它。）圖 1b 展示了相同的數據，不過它使用的是相距較遠的迭代之間的比賽，如圖 1b 左圖褐色像素所示的部分。右圖展示了技能評定繼續追蹤模型的進展，即使忽略了一些信息量最大的「戰鬥」（早期生成器和晚期判別器，如圖左上角所示），而贏率不再具備信息。

圖 2：繪製蘋果圖片的 within-trajectory 技能評分。我們評估了在 QuickDraw 數據集上訓練的 DCGAN。從左到右，主觀樣本（subjective sample）質量隨著迭代次數的增加而提高。SVHN 分類器判斷這些樣本質量的能力不強，迭代 0 次時評成了最高分，此後提供了不穩定且惡化的得分。SVHN Fréchet 距離擬合地更好，採樣質量的評分穩定增加，直到 1300 次迭代；但是，它會在 1300 上飽和，而主觀樣本質量繼續增加。（注意 Fréchet 距離圖上的 y 軸是反轉的，這使得較低距離（更好質量）在圖上位置更高）。within-trajectory 技能評分在 1300 次迭代以後繼續提升。

圖 3：多軌競賽結果。我們組織了一個競賽，其中包含 SVHN 生成器和具有不同種子、超參數和架構的模型的判別器 snapshot（已在 4.2 節中提及）。我們利用 SVHN 分類器評分 (左)、SVHN Fréchet 距離 (中) 和技能評分方法（右；見 3.2 節）對其進行評估。每個點代表一個模型一次迭代的分數。總體軌跡表明隨著訓練次數增加，每個模型都得到了改進。要注意 Fréchet 距離圖上的 y 軸是反轉的，這使得較短的距離（質量較好）在坐標圖上標得更高。真實數據樣本的得分用黑線表示。6-auto 的分數是根據單個 snapshot 而非一條完整的訓練曲線來計算的，並以灰線表示。技能評分生成的學習曲線與 Fréchet 距離生成的學習曲線大致相同，僅在條件模型 4-cond 和 5-cond 中與分類器得分的曲線不一致——我們在 4.2 節中對此差異進行了推測。

圖 4：完全訓練的生成模型樣本。從每個訓練模型中，我們展示了 64 個樣本（來自 GAN 的 200,000 次迭代和 6-auto 的 106 次 epoch），以及用於比較的真實數據。在每組樣本中，我們列出模型的 Glicko2 技能評分（SR）、SVHN 分類器分數（CS）以及模型的 SVHN Fréchet 距離（FD）。我們的技能評分系統在實驗 5-cond 中略遜於真實數據，但優於 runner-ups 4-cond 和 1，而分類器得分 5-cond 比真實數據好，Fréchet 距離 5-cond 比 4-cond 和 1 都差。在其它情況下，我們系統的排名與 Fréchet 距離一致。

圖 5：用一個簡單的任務來評估近乎完美的生成器。我們訓練一個普通的 GAN 來模擬具有全協方差矩陣的高斯分布。迭代 8000 次以後的生成器已經掌握了這個任務。迭代 8000 次以後的判別器不再產生有用的判斷（圖 5a），迭代 8000 次之後的 Chekhov GAN 判別器則仍可以判斷之前的生成器樣本（圖 5b）。圖 5c 對這些判別器的技能評分與普通生成器的真實性能進行了比較，並將之衡量為生成器的協方差矩陣估計和數據協方差矩陣之間的平均絕對差。與 within-trajectory 比賽相比，Chekhov 判別器的技能評分更符合真實情況。