ImageNet分類器可以泛化到ImageNet上嗎？

新聞 02-23

當前的分類模型泛化到新數據時總會有不同程度的準確率下降，傳統觀點認為這種下降與模型的適應性相關。但本文通過實驗證明，準確率下降的原因是模型無法泛化到比原始測試集中更難分類的圖像上。

機器學習的首要目標是生成泛化模型。我們常通過測量模型在測試集上的性能來量化模型的泛化能力。在測試集上的良好性能是指什麼？至少在遵循相同的數據清理協議時，模型在由相同數據源組成的新測試集上也能表現良好。

在本文中，研究人員通過複製兩個重要基線數據集（CIFAR-10 和 ImageNet）的創建過程來實現這一實驗。與理想結果相反，他們發現很多分類模型未能達到其原始的準確率分數。CIFAR-10 的準確率下降了 3％~15％，準確率下降了 11％~14％。在 ImageNet 上，損失的準確率大概需要機器學習研究高度活躍時期五年的進步來彌補。

傳統觀點認為，出現這種下降的原因是模型已經適應了原始測試集中的特定圖像，例如，通過廣泛的超參數調整。然而，本文的實驗表明，模型的相對順序在新測試集上幾乎保持不變：在原始測試集上具有最高準確率的模型仍然是新測試集上具有最高準確率的模型。而且，準確率方面也沒有遞減。實際上，原始測試集上的準確率每提高一個百分點都意味著新測試集上更大的改進。因此，雖然後來的模型本可以更好地適應測試集，但它們的準確率下降較小。實驗結果證明，全面的測試集評估是改進圖像分類模型的有效方法。因此，自適應性不太可能是準確率下降的原因。

相反，研究人員基於原始和新測試集的相對難度提出了另一種解釋。他們證明，如果新數據集只包含候選池中最簡單的圖像，幾乎可以完全恢復原始的 ImageNet 準確率。這表明即使是最好的圖像分類器，其準確率分數也對數據清理過程的細節高度敏感。它還表明，即使在精心控制的重複性實驗的良性環境中，目前的分類器仍然不能可靠地泛化。

圖 1 顯示了實驗的主要結果。為了支持未來研究，研究人員還發布了新的測試集和相應的代碼。

ImageNet分類器可以泛化到ImageNet上嗎？

圖 1：在原始測試集和新測試集上的模型準確率。每個數據點對應於測試平台中的一個模型（顯示為 95％的 Clopper-Pearson 置信區間）。該圖揭示了兩個主要現象：1）從原始測試集到新測試集的準確率明顯下降。2）模型準確率遵循斜率大於 1 的線性函數（CIFAR-10 為 1.7，ImageNet 為 1.1）。這意味著原始測試集上的每個百分點的改進會轉換為新測試集上超過一個百分點的改進。從上圖可以直觀地對比兩邊的斜率。紅色區域是 10 萬個 bootstrap 樣本線性擬合的 95％置信區域。

論文：Do ImageNet Classifiers Generalize to ImageNet?

ImageNet分類器可以泛化到ImageNet上嗎？

論文地址：http://people.csail.mit.edu/ludwigs/papers/imagenet.pdf

摘要：我們為 CIFAR-10 和 ImageNet 數據集構建了新的測試集。這兩個基準測試集近十年來一直是研究的焦點，增加了過度重複使用測試集的風險。通過密切關注原始數據集創建過程，我們測試了當前分類模型泛化到新數據的程度。我們評估了大量模型，發現在 CIFAR-10 上的準確率下降了 3％~15％，在 ImageNet 上的準確率下降了 11％~14％。但是，原始測試集上準確率的改進能夠為新測試集帶來更大的改進。結果表明，準確率下降不是由適應性造成的，而是由於模型無法泛化到比原始測試集中更難分類的圖像上。

實驗總結

可重複性實驗的主要步驟如下。附錄 B 和 C 詳細地描述了此方法。第一步是選擇信息性數據集。

ImageNet分類器可以泛化到ImageNet上嗎？

表 1：原始 CIFAR-10 測試集、原始 ImageNet 驗證集和新測試集上的模型準確率。ΔRank 是所有模型完整排序中從原始測試集到新測試集的排名相對差異（參見附錄 B.3.3 和 C.4.4）。例如，ΔRank= -2 意味著與原始測試集相比，新測試集上的模型下降了兩名。置信區間為 95％的 Clopper-Pearson 區間。由於篇幅限制，模型的參考資料見附錄 B.3.2 和 C.4.3。

ImageNet分類器可以泛化到ImageNet上嗎？

表 2：三種採樣策略對 ImageNet 測試集的影響。該表顯示了結果數據集中的平均 MTurk 選擇頻率，以及與原始驗證集相比模型準確率的平均變化。所有三個測試集的平均選擇頻率都超過 0.7，但模型準確率仍然相差很大。相比之下，在 MTurk 實驗中，原始 ImageNet 驗證集的平均選擇頻率為 0.71。在 top-1 和 top-5 中，平均準確率的變化分別為 14％和 10％。這表明採樣策略的細節對結果的準確率有很大影響。

ImageNet分類器可以泛化到ImageNet上嗎？

圖 2：原始 ImageNet 驗證集上的模型準確率 vs. 新測試集的兩個變體上的準確率。每個數據點對應於測試平台中的一個模型（顯示為 95％的 Clopper-Pearson 置信區間）。閾值為 0.7 時，模型準確率比在原始測試集上低了 3％。在 MTurk 工作人員最常選擇圖像的 TopImages 上，模型的性能比在原始測試集上提高了 2％。兩個數據集的準確率都遵循線性函數規律，類似於圖 1 中的 MatchedFrequency。紅色陰影區域是 10 萬個 bootstrap 樣本線性擬合的 95％置信區域。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※從此再無真「相」！這些人全部是AI生成的
※GLUE排行榜上全面超越BERT的模型近日公布了！

TAG:機器之心 |