學界 | 最大規模數據集、最優圖像識別準確率！Facebook利用hashtag解決訓練數據難題

科技 05-06

選自code.

Facebook

作者：

Dhruv Mahajana、Ross Girshick、Vignesh Ramanathan、Manohar Paluri、Laurens van der Maaten

機器之心編譯

參與：路、張倩

人工標註數據需要耗費大量人力成本和時間，對模型訓練數據集的規模擴大帶來限制。Facebook 在圖像識別方面的最新研究利用帶有 hashtag 的大規模公共圖像數據集解決了該問題，其最佳模型的性能超越了之前最優的模型。

圖像識別是 AI 研究的重要分支之一，也是 Facebook 的研究重心。Facebook 的研究人員和工程師旨在擴展計算機視覺的邊界，造福現實世界。例如，使用 AI 生成圖像的音頻字幕幫助視覺受損的用戶。為了改善這些計算機視覺系統，訓練它們識別和分類大量對象，Facebook 需要包含數十億張圖像的數據集，如今常見的數百萬張圖像的數據集已經不足夠了。

由於當前模型通常在人類標註者手動標註的數據上進行訓練，因此提升識別準確率不只是向系統輸入更多圖像那麼簡單。這種勞動密集型的監督學習過程通常獲得最好的性能，但是手動標註的數據集在規模方面已經接近其函數極限。Facebook 正在多達五千萬張圖像的數據集上訓練模型，即使是在提供所有監督的情況下，數十億張圖像的訓練也是不可行的。

Facebook 研究人員和工程師通過在帶有標籤（hashtag）的公共圖像數據集上訓練圖像識別網路解決了該問題，其中最大的數據集包含 35 億張圖像和 17000 個 hashtag。該方法的關鍵是使用現有公開的、用戶提供的 hashtag 作為標註，取代手動標註。該方法在測試過程中表現良好。通過使用包含 10 億圖像的此類數據集訓練計算機視覺系統，Facebook 得到了一個歷史最高得分——在 ImageNet 上達到了 85.4% 的準確率。伴隨著這一圖像識別任務中的突破，該研究為如何從監督訓練轉向弱監督訓練提供了重要洞見。在弱監督訓練中，研究者使用現有標註（在本文中指 hashtag）而不是專為 AI 訓練而選擇的標註。Facebook 計劃開源這些模型的嵌入，這樣研究社區就可以使用這些表徵，基於它們完成更高級別的任務。

大規模使用 hashtag

由於人們通常使用 hashtag 描述照片，所以 Facebook 研究人員認為它們可以作為模型訓練數據的完美來源。這允許研究人員使用 hashtag 來完成一直以來的目標：基於人們自己標註的 hashtag 獲取更多圖像。

但是 hashtag 通常指非視覺概念，如 #tbt 表示「throwback Thursday」。或者它們比較模糊，如 #party 可以描述活動、設置，或者 both。對於圖像識別來說，tag 的作用是弱監督數據，而模糊和／或不相關的 hashtag 是標籤雜訊，可能會混淆深度學習模型。

這些雜訊標籤是大規模訓練工作的重點，因此研究人員開發了一種新方法，專為使用 hashtag 監督執行圖像識別實驗而準備。該方法包括處理每個圖像的多個標籤（加 hashtag 的用戶通常會添加多個 hashtag）、整理 hashtag 同義詞、平衡經常出現的 hashtag 和出現頻率較低的 hashtag 的影響力。為了使這些標籤有助於圖像識別訓練，Facebook 研究團隊訓練了一個大規模 hashtag 預測模型。該方法顯示出優秀的遷移學習結果，表明該模型的圖像分類結果可廣泛應用於其他 AI 系統。這一新研究基於 Facebook 之前的研究，包括基於用戶評論、hashtag 和視頻的圖像分類研究。這一對弱監督學習的全新探索是一次廣泛的合作，Facebook 應用機器學習團隊（AML）和 Facebook 人工智慧研究院（FAIR）均參與其中。

在規模和性能方面開闢新天地

由於單個機器完成模型訓練需要一年多時間，因此 Facebook 在多達 336 個 GPU 上進行分散式訓練，將總訓練時間縮短至幾周。在如此大的模型規模面前（該研究中最大的模型是具備超過 86.1 千萬個參數的 ResNeXt 101-32x48d），使用分散式訓練方法尤其重要。此外，Facebook 設計了一種方法來移除重複項，確保不會在評估數據上進行訓練，這個問題在此類研究中經常出現。

Facebook 希望能看到圖像識別方面的性能提升，不過對實驗結果仍然感到驚訝。在 ImageNet 圖像識別基準上，其最佳模型達到了 85.4% 的準確率，該模型在 10 億張圖像上進行訓練，訓練數據一共包括 1500 個 hashtag。這是截至目前最高的 ImageNet 基準準確率，比之前最優模型高 2%。研究者將卷積神經網路架構的影響力進行分解，觀測到的性能提升更加顯著：將數十億圖像（以及大量 hashtag）用於深度學習導致高達 22.5% 的性能提升。

在另一個主要基準 COCO 上，研究者發現使用 hashtag 進行預訓練可以將模型的平均準確率提高 2% 以上。

這些是圖像識別和目標檢測領域的基礎改進，表示計算機視覺又前進了一步。但是研究者的實驗還揭示了大規模訓練和雜訊標籤的優勢和面臨的挑戰。

例如，儘管擴大訓練數據集規模是值得的，但選擇匹配特定圖像識別任務的 hashtag 集也具備同等的重要性。研究者通過在 10 億張圖像、1500 個匹配 ImageNet 數據集類別的 hashtag 上的訓練結果優於在同樣大小的數據集、但使用全部 17000 個 hashtag 的訓練結果。另一方面，對於類別較多的任務，使用 17000 個 hashtag 進行訓練的模型性能更好，這表明研究者應該在未來訓練中增加 hashtag 的數量。

增加訓練數據規模通常有利於圖像識別。但是它也會產生新的問題，包括定點陣圖像中對象位置的能力下降。Facebook 研究者還發現其最大的模型仍未充分利用 35 億張圖像數據集的優勢，這表明研究者應該在更大的模型上進行訓練。

大規模自標註數據集是圖像識別的未來

這項研究的一個重要成果（甚至超越了圖像識別的廣泛成果）就是證實了在 hashtag 上訓練計算機視覺模型是完全可行的。雖然使用了一些基礎技術來合併相似標籤、降低其他標籤的權重，但是該方法不需要複雜的「清理」過程來消除標籤雜訊。相反，研究者能夠使用 hashtag 訓練模型，而且只需對訓練過程做出很少的修改。規模似乎是一大優勢，因為在數十億張圖像上訓練的網路對標籤雜訊具備更好的穩健性。

我們設想了在不遠的未來，hashtag 作為計算機視覺標籤的其他使用方向，可能包括使用 AI 更好地理解視頻片段，或改變圖像在 Facebook feed 流中的排序方式。Hashtag 還可以幫助系統識別圖像何時不僅屬於總類別，還屬於更具體的子類別。例如，照片的音頻說明提及「樹上的一隻鳥」是有用信息，但是如果音頻說明可以具體到物種（如：糖槭樹上的一隻主紅雀），就可以為視覺受損的用戶提供更好的描述。

Hashtag 可以幫助計算機視覺系統超越一般分類條目，以識別圖像中的特定子類別和其他元素。

除了 hashtag 的具體用途之外，該研究還指出了可能影響新產品和現有產品的廣泛圖像識別方面取得的進展。例如，更精確的模型可能會改善在 Facebook 上重現記憶的方式。該研究指出了使用弱監督數據的長期影響。隨著訓練數據集變得越來越大，對弱監督學習的需求——以及從長遠來看，對無監督學習的需求——將變得越來越顯著。了解如何彌補雜訊大、標註不準確的缺陷對於構建和使用大規模訓練集至關重要。

本研究在 Dhruv Mahajan、Ross Girshick、Vignesh Ramanathan、Kaiming He、Manohar Paluri、Yixuan Li、Ashwin Bharambe 和 Laurens van der Maaten 的《Exploring the Limits of Weakly Supervised Pretraining》一文中有更詳細的描述。由於該研究涉及到的規模史無前例，此論文詳細的論述將為一系列新研究方向鋪平道路，包括開發新一代足夠複雜的深度學習模型，從而有效地從數十億張圖像中學習。

該研究還表明，為了更好地衡量當今圖像識別系統以及未來規模更大、監督更少的圖像識別系統的質量和局限性，開發類似 ImageNet 的廣泛使用的新型基準很有必要。

論文：Exploring the Limits of Weakly Supervised Pretraining

論文鏈接：https://research.fb.com/publications/exploring-the-limits-of-weakly-supervised-pretraining/

摘要：當前最優的適合大量任務的視覺感知模型依賴於監督式預訓練。ImageNet 分類實際上是這些模型的預訓練任務。但是，目前 ImageNet 將近十歲，用現代標準來看規模有些小了。即便如此，使用規模大了好幾個數量級的數據集進行預訓練也很少見。原因很明顯：此類數據集很難收集和標註。本論文展示了一種獨特的遷移學習研究，在數十億社交媒體圖像上訓練大型卷積網路來預測 hashtag。實驗表明大規模 hashtag 預測的訓練性能很好。我們展示了在多個圖像分類和目標檢測任務上的改進，並報告了目前最高的 ImageNet-1k single-crop，top-1 準確率 85.4%（top-5 準確率 97.6%）。我們還進行了大量實驗，為大規模預訓練和遷移學習性能之間的關係提供了新的實證數據。