谷歌與CMU聯合發文,審視數據對深度學習的重要性
GIF/1.7M
圖:pixabay
原文來源:arxiv(Google Research、Carnegie Mellon University)
作者:Chen Sun、Abhinav Shrivastava、Saurabh Singh、Abhinav Gupta
「機器人圈」編譯:BaymaxZ、嗯~阿童木呀
深度學習在視覺問題上所取得的成功可歸因於(a)高容量模型、(b)高速增長的計算力、(c)大規模標記數據的可用性。自2012年以來,模型的性能和GPU的計算力都已取得非常大的進步。但最大數據集的大小卻出乎意料地保持現狀。那如果我們將數據集的大小擴大10倍或是100倍會發生什麼呢?本文在揭秘「超大規模數據」和深度學習之間那雲里霧裡的關係上取得了一大步進展。我們利用JFT—300 M數據集,圖片超過3億張中已逾有3.75億個具有雜訊的標籤。我們在研究,如果這個數據用於表徵學習,那麼當前的視覺任務的性能將發生怎樣的變化。
我們的論文提供了一些預期之外的(和一些預期之內的)發現。
首先,我們發現,視覺任務的性能仍然以訓練數據大小的數量級線性增加。
第二,我們表明,表徵學習(或預訓練)仍然有很大的用途。通過訓練更好的基礎模型,便可以提高視覺任務的性能。
最後,正如預期的那樣,我們在包括圖像分類、目標檢測、語義分割和人體姿態評估等不同視覺任務上呈現出了新的基於目前技術水平的研究成果。
我們真誠希望可以以此來激發那些機器視覺的相關社區,不要低估數據的重要性,以及要發展集體努力從而建設更大的數據集。
眾所周知,目前的卷積神經網路革命是大型標註數據集的產物(具體來說,來自ImageNet的大小為1M的標記圖像)和大規模計算能力(得益於GPU)。每年我們都在進一步增加計算能力(更新、更快的GPU),但是我們的數據集並沒有那麼幸運。ImageNet是一個基於1000個類別的1M標記圖像的數據集,五年多以前用於訓練AlexNet。
奇怪的是,雖然GPU和模型容量都在不斷增長,但是對這些模型進行訓練的資料庫仍然停滯不前。即使是具有明顯更多容量和深度的101層的ResNet,仍然使用來自ImageNet大約2011年的1M Image圖像進行訓練。為什麼?在更深層次的模型和計算能力之前,我們再次貶低了數據的重要性嗎?如果我們將訓練數據的量增加10倍或100倍,性能會翻番么?
視覺數據集的奇怪案例:儘管GPU計算能力和模型尺寸在過去五年中不斷增加,但是訓練數據集的大小卻驚人地保持不變。這是為什麼?如果我們使用我們的資源來增加數據集大小,會發生什麼?
本論文採取的第一步,是清除圍繞「超大規模數據」與深度學習之間的神秘關係。當然,重要的是,如何收集比ImageNet還大的數據集。為了測試當前模型的極限和上限,我們可能需要一個幾乎比ImageNet大100倍的數據集。事實表明,收集1M圖像的1000個類別,每個問題將需要1000萬美元。ImageNet使用了幾種啟發式(例如標籤層級)來減少問題,從而將成本降低到10萬美元。但是,大於100倍的數據集仍然需要超過1000萬美元。
在本論文中,我們利用了一個已經存在的JFT圖像數據集,該數據集由Geoffrey Hinton等科學家最早提出。JFT數據集擁有超過3億張圖像,標有18291個類別。注釋是自動獲得的,因此,這些注釋比較嘈雜,並不是詳盡無遺的。這些注釋已經使用複雜的演算法進行清理,以提高標籤的精度;然而,精度仍然有大約20%的誤差。我們將使用這些數據來研究數據量與視覺性能之間的關係。具體來說,我們將研究視覺表徵學習(預訓練)的數據的能力。我們評估各種視覺任務的學習性能:圖像分類、對象檢測、語義分割和人體姿態評估。我們的實驗產生了一些令人驚訝(和一些預期)的發現:
?更好的表徵學習真的有用!
我們的第一個觀察是,大規模數據有助於表徵學習,這是被我們研究的每個視覺任務的性能改善所證明的。
這表明,收集更大規模的數據集以研究預訓練過程,可能會對該領域產生極大的好處。我們的研究結果還表明,無監督或自監督表徵學習方法的光明前景。數據量表似乎可以超越標籤空間的噪音。
?性能隨著訓練數據的數量級數線性增加!
也許我們發現的最令人驚奇的要素是,視覺任務的性能與用於表示學習的訓練數據(對數量表)的數量之間的關係。我們發現這種關係還是線性的!即使是3億張訓練圖像,我們對所研究的任務也沒有觀察到任何平台效應。
?容量至關重要
我們還觀察到,為了充分利用3億張圖像,需要更高容量的模型。例如,在ResNet-50的情況下,COCO對象檢測的增益(1.87%),比使用ResNet-152(3%)時,要小得多。
?長尾訓練:
我們的數據有相當長的尾巴,表徵學習似乎有效。這種長尾似乎不會對卷積神經網路的隨機訓練產生不利影響(訓練仍然趨於收斂)。
?最新技術成果
最後,我們的論文使用從JFT-300M獲得模型,在幾個基準上提出了新成果。例如,一個單一的模型(沒有任何bell和whistle)AP(目標檢測中衡量檢測精度的指標)達到 37.4,而COCO檢測基準的AP為34.3。
想要更多了解此論文,歡迎下載https://arxiv.org/abs/1707.02968
※深度學習被「神化」!如何「客觀」看待深度學習的應用場合及作用
※科沃斯旺寶3首次亮相 詮釋「是機器人,更是工作夥伴」
※國際「智造」時代來襲,四川準備好了么?
※中德共推智能製造 助力成都邁向高端
※智能製造需要這樣的國際合作
TAG:機器人圈 |
※CMU 深度學習導論更新
※深度學習與數據中心
※《深度學習之美:AI時代的數據處理與最佳實踐》
※深度解讀:深度學習在IoT大數據和流分析中的應用
※《醫學混合現實》著作全球首發 倡導深度結合人工智慧VR等技術
※全國MATLAB數據、圖像處理及機器學習與深度學習研討會
※CMU課程:深度增強學習與控制
※深度學習在NLP的命名實體識別中的應用
※深度學習的NLP工具
※谷歌《Cell》論文:使用深度學習,直接對細胞影像生成熒游標記
※大數據與實體經濟深度融合發展
※MIT等提出NS-VQA:結合深度學習與符號推理的視覺問答
※用於深度強化學習的結構化控制網路(ICML 論文講解)
※OPPO與杜比深度合作,視聽體驗更加震撼
※深度研究IBM的大數據解決方案
※Google將高度重視人工智慧和深度學習領域
※對深度學習系統的數據流攻擊
※谷歌Cell論文:深度學習模型預測熒光位置
※對四無量心(SOFI)量表的開發和初步驗證 深度好文
※IBM開發全新的深度學習晶元,旨在極大提高利用率