當前位置:
首頁 > 最新 > 35億張圖像!Facebook基於弱監督學習刷新ImageNet基準測試記錄

35億張圖像!Facebook基於弱監督學習刷新ImageNet基準測試記錄

作者|Dhruv Mahajan 等

編譯 & 編輯|Debra

AI 前線導讀:Facebook 在圖像識別技術上又有了新突破,在 ImageNet 測試中準確度達到創紀錄的 85.4%!據介紹,在本次試驗中,Facebook 的研究人員使用了 35 億張圖像,1.7 萬主題標籤進行模型訓練,規模史無前例。最後的效果奇好,連他們都感到驚訝,同時也得出一個結論:用主題標籤進行模型訓練是完全行得通的。他們是如何做到這一點的呢?在 Facebook 官方博客上,研究人員進行了詳細的解讀。

更多乾貨內容請關注微信公眾號「AI 前線」,(ID:ai-front)

圖像識別是人工智慧研究的一大支柱,同時也是 Facebook 聚焦的領域之一。我們的研究人員和工程師旨在打破計算機視覺技術的界限,將這項工作應用於現實世界,例如,利用 AI 為視障用戶生成照片的音頻標題。為了改進計算機視覺系統並訓練其識別和分類各種各樣的物體,我們每天需要訓練數十億張圖像,而不僅是數百萬的數據集。

由於目前的模型通常是對經過人類手動進行標記的數據進行訓練,所以提高識別率並不是簡單地投入更多訓練圖像就可做到的。這種勞動密集型的監督式學習通常會產生最佳的性能結果,但手動標記數據集這樣的方式限制了功能的發展。Facebook 對一些模型進行訓練的圖像規模達 5000 萬,但當訓練圖像擴大到數十億的規模時,這種用人工進行所有監督的方式顯然是不可行的。

為了解決這個問題,我們的研究人員和工程師在帶有標籤的大量公共圖像上訓練圖像識別網路,其中最大的圖像數據集包括 35 億張圖像和 17000 個主題標籤。這種方法的關鍵是使用現有的、公開的、用戶提供的主題標籤作為標籤,而不是手動對每張圖片進行分類。這種方法在我們的測試中運行良好。通過用包含 10 億張圖像的公共數據集來訓練計算機視覺系統,我們在常見的基準測試工具 ImageNet 上獲得了創紀錄的高分,準確率達到 85.4%。除了在圖像識別性能方面實現了真正的突破之外,本研究還提供了關於如何從監督式向弱監督式訓練轉變的方法。在本實驗中,我們使用的是現有標籤,而不是 AI 訓練專用和挑選的標籤。我們計劃在未來開放這些模型的嵌入源,因此廣大研究團體可以使用這些表示來創建高級任務。

大規模使用標籤

由於人們經常使用標籤標註他們的照片,因此這些帶標籤的圖像成為模型訓練數據的理想來源,而且會引導我們發現更多的相關圖片數據。

但有的標籤經常可能是非視覺化的概念,例如表示「回到周四」的標籤 #tbt。或者有些標籤含糊不清,比如標籤 #party,它可以表示一個活動或一個設定,或者兩者兼而有之。在圖像識別過程中,標籤充當弱監督數據,模糊和 / 或不相關主題標籤則成為可能混淆深度學習模型的不相干標籤雜訊。

這些標籤雜訊對我們的大規模訓練工作至關重要,因此我們開發了新的方法,專門用於使用標籤監督進行圖像識別實驗,包括處理每個圖像的多個標籤(因為添加主題標籤的人傾向於使用多個標籤),通過主題標籤同義詞進行排序,以及平衡頻繁使用主題標籤和罕見標籤的影響。為了使標籤對圖像識別訓練有用,團隊訓練了一個大型標籤預測模型。這種方法的遷移學習效果出色,這意味著該模型生成的圖像分類廣泛適用於其他 AI 系統。這項新工作建立在 Facebook 的前期研究基礎上,包括基於用戶評論、標籤和視頻的圖像分類調查。這種對弱監督學習的新探索是在多個團隊的合作下進行的,包括 Facebook 的應用機器學習部(AML)和 Facebook 人工智慧研究部(FAIR)。

在規模和性能上打開新局面

由於在一台機器上完成這樣的訓練需要一年多的時間,因此我們創建了一種向 336 個 GPU 分配任務的方法,將總訓練時間縮短至幾周。隨著模型規模越來越大 ——其中最大的 ResNeXt 101-32x48d(https://github.com/facebookresearch/ResNeXt)參數超過 8.61 億——這種分散式訓練的方法變得越來越重要。此外,我們設計了一種去除重複的方法,以確保不會意外地在我們想要評估的圖像上進行模型訓練,這解決了困擾此領域類似研究的一大問題。

儘管我們預計圖像識別的性能會有所提升,但結果出奇地好。在 ImageNet 圖像識別基準測試中,我們的最佳模型通過 10 億張帶有 1500 個主題標籤辭彙圖像,實現了 85.4%的準確率。這是迄今為止 ImageNet 基準測試的最高準確度,比之前的最新模型準確率提高了 2%。* 考慮到卷積網路架構的影響,此次性能提升更為顯著:使用數十億圖像和標籤進行深度學習可以達到 22.5%的改進。

在另一個主要的基準測試——COCO 目標檢測挑戰中,我們發現使用標籤進行預訓練可以將模型的平均準確率提高 2%以上。

這些是圖像識別和物體檢測的基礎性的改進,代表了計算機視覺向前邁出了一步。但是我們的實驗也揭示了大規模訓練和嘈雜標籤處理中潛在的機遇和具體的問題。

例如,儘管增加訓練數據集的規模很重要,但選擇與特定識別任務相匹配的一組標籤可能更為重要。我們通過對 1 億張圖像進行訓練,獲得 1500 個與 ImageNet 數據集中的類相匹配的標籤,而不是對相同圖像數量的所有 17000 個主題標籤進行訓練。另一方面,對於具有更大視覺多樣性的任務,使用 17000 個主題標籤進行訓練,模型的性能改進更加明顯,這表明我們應該在未來的訓練中增加主題標籤的數量。

增加訓練數據量通常對圖像分類很有好處,但可能會引起新的問題,包括圖像中物體本地化能力的明顯下降。我們還觀察到,最大的模型仍然沒有充分利用 35 億圖像集的優勢,這表明我們應該訓練更大的模型。

自我標記圖像識別的未來在於規模更大

這項研究得出的其中一個結論甚至比圖像識別方面的進步具有更大的意義,即確定了用主題標籤進行計算機視覺模型訓練是完全行得通的。雖然我們使用了一些合併類似主題標籤和減輕其他標籤權重的基本技術,但不需要複雜的「清潔」程序來消除標籤雜訊。相反地,我們能夠做到不對訓練程序進行大幅修改的前提下,使用主題標籤來訓練我們的模型。本實驗中規模是一個優勢,因為在數十億的圖像上訓練的網路對標籤雜訊的恢復能力顯然更強。

在不久的將來,我們可以設想其他使用主題標籤作為計算機視覺標籤的方式,包括使用 AI 來更好地理解視頻片段或更改 Facebook Feeds 中圖像的排序方式。主題標籤不僅可以幫助系統識別圖像屬於哪種一般類別,還可以識別出更具體的子類別。例如,一個描述樹上有一隻鳥的音頻標題雖然可能有用,但是可以精確到物種的標題(例如一隻北美紅雀在糖楓樹上棲息)則可能對一位視障用戶更加有意義。

標籤可以幫助計算機視覺系統超越一般分類術語,識別圖像中特定的子類別和附加元素

除了特定標籤的使用,這項研究還可能幫助現有和新產品圖像識別技術得以改進。例如,更準確的模型可能會改進我們在 Facebook 上呈現 Memories 的方式。另外,這項研究旨在與弱監督數據相關的長期應用,隨著訓練數據集越來越大,從長遠來看,弱監督或無監督學習將變得越來越重要。因此,了解如何彌補噪音和標籤較少的缺點對於構建和使用較大規模的訓練模型至關重要。

這項研究在 Dhruv Mahajan、Ross Girshick、Vignesh Ramanathan、Manohar Paluri、Laurens van der Maaten 的Exploring the Limits of Weakly Supervised Pretraining中有更詳細的描述

(https://research.fb.com/publications/exploring-the-limits-of-weakly-supervised-pretraining/)。

由於本實驗在規模上史無前例,本文詳述的觀點將為一系列新的研究方向鋪平道路,包括開發新一代可以從數十億張圖像中有效學習的,足夠複雜的深度學習模型。

這項工作還表明,雖然我們有 ImageNet 等被廣泛使用的基準測試方法,但我們仍需要開發新的、監督更少、規模更大的 benchmark,使我們能夠更好地衡量當今圖像識別系統的質量和局限性。

https://code.facebook.com/posts/1700437286678763/

以下是編輯精選的往期好文

AI前線

緊跟前沿的AI技術社群

如果你喜歡這篇文章,或希望看到更多類似優質報道,記得給我留言和點贊哦!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI前線 的精彩文章:

一文看懂JeffDean等提出的ENAS到底好在哪?
FB隱私門再爆內部猛料:哪怕被利用搞恐襲,只要用戶增長就行!

TAG:AI前線 |