CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

新聞 07-27

機器之心報道

參與：機器之心編輯部

2017 年 7 月 18 日，ImageNet 最後一屆挑戰賽成績已經公布，多個國內院校和企業在各個比賽項目上取得了非常不錯的成績。據官網信息，在 CVPR 2017 期間也會有一場 Workshop 以紀念 ImageNet 挑戰賽。當地時間 7 月 26 日，李飛飛與 Jia Deng 在 ImageNet Workshop 上做主題演講，對 8 年的 ImageNet 挑戰賽歷史進行了總結，並宣布之後的 ImageNet 挑戰賽將轉由 Kaggle 主辦。最後，感謝李飛飛教授提供的 PPT，以及對本文內容的確認。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

在 CVPR 2017 的 ImageNet Workshop 中，演講者介紹了挑戰賽的結果，回顧了物體識別領域的頂尖成果。同時，也有挑戰賽獲勝者介紹研究成果在產業中的部署等。在李飛飛與 Deng Jia 的演講中，兩位演講者對 8 年的 ImageNet 挑戰賽進行了回顧與總結，以下是基於 PPT 對演講內容的介紹：

始於 CVPR 2009

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

ImageNet 始於 2009 年，當時李飛飛、Jia Deng 等研究員在 CVPR 2009 上發表了一篇名為《ImageNet: A Large-Scale Hierarchical Image Database》的論文，之後就是 7 屆 ImageNet 挑戰賽的開始（2010 年開始）。

8 年來，ImageNet 這篇論文對業內有極大的影響。在 Google Scholar 上，該論文有 4386 的引用量。另一篇論文《ImageNet Large Scale Visual Recognition Challenge》（2015），也有 2847 的引用量，這篇論文描述了 ImageNet 數據集基準的創造、物體識別領域的研究進展。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

眾多 ImageNet 挑戰賽的參與者發展成了創業公司，其中包括機器之心很早就關注到的圖像識別創業公司 Clarifai（機器之心 AI00 獲獎者）、被谷歌收購的 DNNresearch。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

ImageNet 的歷史

在演講中，演講者首先介紹了 2009 年之前的圖像數據集歷史：從 1998 年 CMU 的 Vasc Faces 到 2008 年的 TinyImage 數據集。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

也介紹了當時機器學習中的多種問題：複雜性、泛化、過擬合等。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

如此，衍生出了一種新的思維方式：對視覺識別的關注點，從模型轉移到數據。

從 1990 年開始到 2010 年，互聯網數據的量級有了極大的增長，滿足了發展機器學習的數據需求。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

在這裡，演講者對 Wordnet 項目進行了介紹，ImageNet 的層級結構正是從 WordNet 之中派生出來的。

在 20 世紀 80 年代末，普林斯頓大學的心理學家 George Miller 啟動了一個名為 WordNet 的項目，旨在構建英文語言層級結構的模型。它就像某種形式的字典一樣，但是每個單詞都會與其他相關的詞相聯繫——而非以字母表形式呈現。例如，在 WordNet 中，單詞「dog」在單詞「canine」之下，而後者在「mammal」目錄之下，往上往下都有更多的層級。這是為了讓語言組織成為機器可讀的邏輯，它已經積累了超過 155,000 個單詞。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

之後，ImageNet 的研究員（包括當時普林斯頓大學博士 Jia Deng、普林斯頓大學教授 Kai Li ) 基於 WordNet 發展出 ImageNet 的層級結構。

第一步：基於 WordNet 的本體結構

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

第二步：為來自互聯網的數千張圖像填入類別

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

第三步：手動清潔結果

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

發布 ImageNet 的三個嘗試

這部分，演講者介紹了 ImageNet 發起者們為推進 ImageNet 所做的三個嘗試。

第一種方式：心理學實驗，但這種方式會非常耗時間。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

第二種方式：人類參與的解決方案。機器生成的數據集只能匹配一時的最佳演算法，而人類生成的數據集超越了演算法限制，能夠生成更好的機器感知。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

第三種方式：眾包

通過亞馬遜 mechanical turk 平台，來自 167 個國家的 4 萬 9 千名工作者用 3 年（2007-2010）努力成就了 ImageNet。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

演講者介紹說，他們的量級目標是 1500 萬，還有更高的清晰度、更高質量的標註、免費等。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

驚人的成就

一張圖總結 2010-2016 年的 ImageNet 挑戰賽成果：分類錯誤率從 0.28 降到了 0.03；物體識別的平均準確率從 0.23 上升到了 0.66。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

為了讓 ImgaNet 變得更好，發起者們也做了許多細節工作，比如圖像量、物體種類的倍數級增加。

ILSVRC 檢測的評估需要註解所有出現的類別，從而對虛假檢測做出懲罰。ILSVRC 圖像達 40 萬張，類別數量為 200，註解有 8000 萬個。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

ILSVRC 檢測的評估：分層註解。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

細粒度識別。ImageNet 關於汽車的數據集中，汽車圖像的數量達到了 70 萬張，類別數量為 2567 個。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

演講者介紹了 ImageNet 所取得的意料之中的成果。主要包括三個方面：1. ImageNet 成為了計算機視覺識別領域的標杆；2. 物體識別領域取得了前所未有的突破；3. 機器學習獲得了長足發展，同時變化也很大。

除此之外，還取得了一些意料之外的成果：神經網路再一次流行起來，並且越來越流行。演講者舉例進行了說明。在使用深度卷積神經網路進行 ImageNet 分類任務中，有一篇成果顯著的論文，即《imagenet classification with deep convolutional neural networks》（Krizhevsky, Sutskever & Hinton, NIPS 2012），該論文摘要如下：我們訓練了一個大型的深度卷積神經網路，把 ILSVRC 2010 訓練集中的 130 萬高解析度圖像分為了 1000 個不同的類別。在測試數據中，我們獲得了 top1 和 top 5 的誤差率，分別是 39.7\% 和 18.9\%。該論文的引用數量為 13259，神經網路之火熱可見一斑。同時演講者還給出了該深度卷積神經網路的圖示。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

隨後，神經網路變得越來越流行，並出現了多種優秀變體，可謂百花齊放，比如 AlexNet、GoogLeNet、VGG Net、ResNet。相信這些神經網路大家並不陌生。其中出現較早的是 2012 年的 AlexNet，它最早在 [Krizhevsky et al. NIPS 2012] 被提出；新近出現的是 2016 年的 ResNet，它在上年的 CVPR 中被提出，剛好一年。這些變體之間是一種前後相繼、不斷迭代的關係，同時又發揮著各自的獨特作用。

神經網路流行的同時，網路上的圖像數據量有了爆發性的增長，GPU 的性能也在飛速提升，三者合力的結果就是為人類帶來了一場席捲全球的深度學習革命。

接下來講一下本體結構：一種不太常用的結構。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

如圖所示，這是一隻袋熊，那麼如何把這種圖像識別為一隻袋熊呢？方法是最大化特徵 ( f ) 使其符合精確度 ( f ) ≥ 1 - ε。

使用本體結構開展的工作相對來講依然很少（谷歌上只有 93 條結果），但並不妨礙有成果出現。ECCV 2012 最佳論文獎（Kuettel, Guillaumin, Ferrari.Segmentation Propagation inImageNet. ECCV 2012）就用到了本體結構。

機器視覺和人類視覺

自從 2012 卷積神經網路在計算機視覺上取得極大的成功後，我們一直在探索擁有更強大機器視覺的可能性。這也令大家都看到了近來計算機視覺所存在的局限，比如說小數據集訓練，雖然我們能使用預訓練模型進行遷移學習，但每一個類別仍然需要成百上千的標註圖像。還有比如說分清視覺的本質和外在，人類很容易分清楚穿了馴鹿服的狗還是狗，但計算機卻十分容易將其分類為馴鹿。這一些缺點都直接限制了計算機視覺的發展，那麼計算機視覺和我們人類到底區別在哪？

如下所示，相對於 GoogLeNet，Top-5 誤差率還是人類高一點，但如果使用近來最先進的模型，人類識別率卻不一定比機器高。但識別誤差率就是最關鍵的嗎？

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

在計算視覺的機眼中，識別的物體永遠都只是類別。如下所示，機器可以輕鬆地識別每個物體（如人和房間等），但是機器視覺也僅僅只能做到識別了，它不會思考這些人到底在幹什麼，他們為什麼都站在這，他們之間的關係是什麼。而人類即使識別物體的準確率可能還不及機器，但我們的視覺可以帶給我們足夠的信息以分析整個場景。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

如下所示，人類的視覺不僅會告訴我們每個物體是什麼，同時還會告訴我們物體間的關係、物體下一個時間步驟的動作或趨勢以及情感細節等。對於這樣的人類視覺，機器視覺還有很長的路要走，這也正是 ImageNet 所希望能促進的。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

鑒於機器視覺和人類視覺之間的差距，我們因此希望計算機能描述其所見到的圖像。如下所示，計算機可以在物體識別的基礎上推斷出物體間的關係，並結合 NLP 給出圖像的描述。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

總的來說，隨著硬體和軟體技術的發展，計算機視覺的技術正在不斷進步，目前機器學習（深度學習）在常見圖片的物體識別上已實現類似人類的識別水平。

不僅如此，目前的技術已經可以實現對一張複雜照片中的內容進行自然語言描述，並回答相應問題了。這說明深度學習可以理解圖片中的內容，並將其轉化為可掌握的知識。雖然這一過程還非常基礎，但這有助於拉近機器與人類的距離。圖像描述一般也有專用的數據集，例如 Visual Genome Dataset 等。該數據集如下有 4.2M 的圖像描述和 1.5M 的關係標註，它是基於目標分類實現關係和情景推理的優秀數據集。ImageNet 的下一步很可能就要傳遞給這些開放、大規模、詳細的數據集。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

ImageNet 的未來

ImageNet 2017 挑戰賽是最後一屆，李飛飛在 CVPR 2017 上表明 ImageNet 挑戰賽以後將與 Kaggle 結合。她在演講中欣喜地表明她們正在將接力棒傳遞給 Kaggle，不僅因為 Kaggle 社區是最大的數據科學社區，同時還因為她們認為只有將數據做到民主化才能實現 AI 民主化。雖然 ImageNet 挑戰賽是最後一屆了，但 image-net.org 仍然會一直存在，並致力於為計算機視覺做出更大的貢獻。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

Kaggle 擁有超過百萬的數據科學家，它能大大地促進更多人參與 ImageNet 挑戰賽。從最開始的 AlexNet 到後來的殘差網路，我們已經看到 ImageNet 挑戰賽催生出了許多優秀的計算機視覺解決方案。也許 ImageNet 加上 Kaggle 能繼續在目標識別、目標定位和視頻目標識別等任務上實現更大的突破，並解決如模型小型化、快速訓練和更強的遷移學習等問題。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

經過多年的更新，現如今 ImageNet 已經有 13M（百萬）標註圖像，但各大科技公司都在構建自己更強勁的數據集。大公司希望能利用其自身用戶所產生的海量圖像、語音片段和文本片段來構建更大的數據集，而初創科技公司也開始通過各種渠道或互聯網數據構建自身的大規模數據集。

開放和自由使用是 ImageNet 的宗旨，這也是 ImageNet 對計算機視覺社區做出的最大貢獻。自 ImageNet 以來，很多科技巨頭都陸續開放了大規模圖像數據集。如谷歌在 2016 年發布了 Open Images 數據集，該數據集包含 6000 多個類別共計 9M 圖像，還有 JFT-300M 數據集，該數據集有 300M 非精確標註的圖像。因此 ImageNet 的未來可能會催生一批大規模開放數據集。

CVPR2017李飛飛總結8年ImageNet歷史，宣布挑戰賽最終歸於Kaggle

自 2010 年起，ImageNet 經歷了多年的發展，其分類錯誤現已縮小到當初發布時的 1/10，而這意味著 3 倍的模型預測準確率提升。在未來，計算機視覺的發展將可以預測圖片中事物的動作，理解圖片中的 3D 環境，並用自然語言對所有這些作出解釋。

隨著與 Kaggle 合併，ImageNet 挑戰賽將會接入這個擁有多達 100 萬數據科學家的龐大社區之中，為更多人帶來幫助——這與「人工智慧民主化」的理念相呼應。與此同時，該項目的原網址 image-net.org 仍將由斯坦福大學繼續運營。

「人們已經意識到，ImageNet 改變了人工智慧領域，數據集是 AI 研究的核心之一，」李飛飛表示。「在研究中，數據集與演算法同樣重要。」

在未來，ImageNet 將繼續舉辦物體定位挑戰、物體識別挑戰與視頻物體識別挑戰。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※用於機器閱讀理解的遷移學習：微軟提出通用型SynNet網路
※如何使用深度強化學習幫助自動駕駛汽車通過交叉路口？
※CVPR2017論文解讀：基於視頻的無監督深度和車輛運動估計
※中國的AI：演算法王國
※十餘家 AI 創業公司，深度解讀國務院新一代 AI 發展規劃

TAG:機器之心 |

您可能感興趣

※江詩丹頓 Vacheron Constantin 全新歷史名作系列美國1921小型號
※iPhoneX今年面臨停產＃iOS11成歷史上最差的系統
※從任天堂129年的歷史裡，探尋Nintendo Labo的創意之源
※經典重塑致敬歷史 adidas Crazy 1 ADV
※「PW早報」Google Play下載量創歷史紀錄
※Android OS歷史版本
※古埃及歷史書 Kolbrin Bible-毀滅者的厄運之星 Planet X
※華為mate10價格跌至歷史最冰點，iPhone8這下夠嗆了！
※Klaarcitectuur | 將歷史建築開放給公眾
※LV Dior 賣的好，LVMH 集團 2017 財年凈利潤增長29％再創歷史新高！
※【行情】小米MIX2再降價歷史新低 iPad mini4價格再跳
※蘋果第四季度iPhone X出售2900萬台創下歷史記錄
※今日數據趣談:水花+KD一紀錄歷史僅遜Run TMC
※三星Note9性能完全曝光，Note8驚現85元開創新價格歷史！
※蘋果2018第一季財報破新歷史記錄，iPhone X銷售最為亮眼
※Lending Club股價再創歷史新低，百億市值跌去九成
※蘋果iphone8 plus刷新歷史新低！網友：我先等等！
※KPOP團體歷史銷量TOP10：EXO僅第六，第一1.5億
※2004年的478針單核古董cpu挑戰gta5成功！創歷史最低記錄！
※不再低配高價！OPPO：2K＋3200mAh，刷新歷史新低