FAIR提出用聚類方法結合卷積網路，實現無監督端到端圖像分類

新聞 07-31

選自arXiv，作者：Mathilde Caron等，機器之心編譯，參與：高璇、劉曉坤。

聚類是一種在計算機視覺被廣泛應用和研究的無監督學習方法，但幾乎未在大規模數據集上的視覺特徵端到端訓練中被採用過。在本文中，Facebook AI 研究院提出了深度聚類（DeepCluster），一種聯合學習神經網路參數和獲取特徵的聚類分配的聚類方法。在 ImageNet 和 YFCC100M 等典型規模數據集上的卷積神經網路的無監督訓練的實驗結果表明，該方法在所有基準性能中都遠遠優於目前的技術。

預訓練的卷積神經網路，或稱卷積網路，已經成為大多數計算機視覺應用的基礎構建模塊 [1,2,3,4]。它們能提取極好的通用特徵，用來提高在有限數據上學習的模型的泛化能力 [5]。大型全監督數據集 ImageNet[6] 的建立促進了卷積網路的預訓練的進展。然而，Stock 和 Cisse [7] 最近提出的經驗證據表明，在 ImageNet 上表現最優的分類器的性能在很大程度上被低估了，而且幾乎沒有遺留錯誤問題。這在一定程度上解釋了為什麼儘管近年來出現了大量新架構，但性能仍然飽和 [2,8,9]。事實上，按照今天的標準，ImageNet 是相對較小的；它「僅僅」包含了一百萬張涵蓋各個領域的分類圖片。所以建立一個更大更多樣化，甚至包含數十億圖片的數據集是順理成章的。而這也將需要大量的手工標註，儘管社區多年來積累了豐富的眾包專家知識 [10]，但通過原始的元數據代替標籤會導致視覺表徵的偏差，從而產生無法預測的後果 [11]。這就需要在無監督的情況下對互聯網級別的數據集進行訓練的方法。

無監督學習在機器學習社區 [12] 中得到了廣泛的研究，在計算機視覺應用中也經常使用聚類、降維或密度估計演算法 [13,14,15]。例如，「特徵包」模型使用手工標註的描述符的聚類來生成良好的圖像級特徵 [16]。它們取得成功的一個關鍵原因是，它們可以應用於任何特定的領域或數據集，如衛星或醫學圖像，或使用一種新的模態 (如物體深度) 獲取的圖像，在這種模式下，無法獲得大量的標註。有幾項研究表明，可以將基於密度估計或降維的無監督方法應用到深度模型中 [17,18]，從而產生良好的通用視覺特徵 [19,20]。儘管聚類方法在圖像分類方面取得了初步的成功，但很少有人提出將其用於對卷積網路進行端到端訓練 [21,22]，而且未成規模。問題是，聚類方法主要是為固定特徵的線性模型設計的，如果必須同時學習特徵，那麼它們幾乎不起作用。例如，使用 k-means 學習一個卷積網路將得到零特徵的平凡解，並且聚類會坍縮成單個實體。

在本文中，FAIR 的研究者提出了一種為卷積網路進行大規模端到端訓練的聚類方法。他們證明了用聚類框架獲得有用的通用視覺特徵是可實現的。該方法如圖 1 所示，是在圖像描述符的聚類和通過預測聚類分配來更新卷積網路的權值之間進行交替。簡單起見，我們將研究重點放在 k-means 上，但其他聚類方法也適用，比如冪迭代聚類 (PIC)[23]。整個過程重用許多常見的技巧，與卷積網路的標準監督訓練十分相似 [24]。與自監督方法 [25,26,27] 不同，聚類的優點是不需要太多專業知識，也不需要輸入特定信號 [28,29]。儘管此方法很簡單，但它在 ImageNet 分類和遷移任務上都比以前提出的非監督方法有更好的表現。

FAIR提出用聚類方法結合卷積網路，實現無監督端到端圖像分類

圖 1：本文提出方法的圖示：對深層特徵進行迭代地聚類，並使用聚類賦值作為偽標籤來學習卷積網路的參數。

最後，通過修改實驗方案，特別是訓練集和卷積網路的結構，研究者對框架的魯棒性進行了探究。得到的實驗集對 Doersch 等人 [25] 的討論做了擴展，即關於這些選擇對無監督方法性能的影響。他們證明了本文的方法使架構更具魯棒性。用 VGG[30] 代替 AlexNet 可以顯著提高特徵質量和遷移性能。更重要的是，他們討論使用 ImageNet 作為非監督模型的訓練集。雖然它有助於理解標籤對網路性能的影響，但是 ImageNet 有一個基於細粒度圖像分類挑戰的特定圖像分布集：它由均衡的類組成，例如包含各類犬種。作為替代方案，可以從 Thomee 等人的 YFCC100M 數據集中選擇隨機的 Flickr 圖片 [31]。他們的方法在對這種未確定的數據分布進行訓練時有當前最佳的性能。最後，目前的基準測試側重於無監督卷積網路捕捉類級信息的能力。研究者還建議在圖像檢索基準上對它們進行評估，以測量它們捕捉實例級信息的能力。

在本文中，研究者做出了以下貢獻：(i) 提出一種新的無監督方法來實現卷積網路的端到端學習，這種方法可以使用任何標準的聚類演算法，比如 k-means，並且只需要很少的額外步驟；(ii) 在使用無監督學習的許多標準遷移任務中達到當前最佳水平；(iii) 對未處理的圖像分布進行訓練時，表現優於先前的最先進技術水平；(iv) 討論了無監督特徵學習中的目前評估方案。

論文：Deep Clustering for Unsupervised Learning of Visual Features

FAIR提出用聚類方法結合卷積網路，實現無監督端到端圖像分類

論文地址：https://arxiv.org/abs/1807.05520v1

摘要：聚類是一種在計算機視覺被廣泛應用和研究的無監督學習方法，但幾乎未在大規模數據集上的視覺特徵端到端訓練中被採用過。在本文中，我們提出了深度聚類（DeepCluster），這是一種聯合學習神經網路參數和獲取特徵的聚類分配的聚類方法。深度聚類使用標準的聚類演算法 k-means 對特徵進行迭代分組，隨後使用賦值作為監督來更新網路的權重。我們將深度聚類應用於 ImageNet 和 YFCC100M 這樣的大型數據集上的卷積神經網路的無監督訓練。最終模型在所有基準性能中都遠遠優於目前的技術。

實驗

在初步的實驗中，研究團隊研究了深度聚類在訓練過程中的行為。然後，在標準基準上將其方法與之前最先進的模型進行比較之前，並對深度聚類學習的濾波器進行了定性評估。

可視化

FAIR提出用聚類方法結合卷積網路，實現無監督端到端圖像分類

圖 3：在原始 RGB 輸入 (左) 或 Sobel 濾波 (右) 之後，在無監督的 ImageNet 上訓練的 AlexNet 的第一層濾波器的卷積結果。

FAIR提出用聚類方法結合卷積網路，實現無監督端到端圖像分類

圖 4：濾波器可視化和來自 YFCC100M 的 100 萬個圖像子集中的前 9 個激活圖像，用於在 ImageNet 上使用深度聚類訓練的 AlexNet 的 conv1、conv3 和 conv5 中的目標濾波器。濾波器的可視化是通過學習一個輸入圖像來獲得的，該圖像最大化目標濾波器的響應 [64]。

FAIR提出用聚類方法結合卷積網路，實現無監督端到端圖像分類