宣布Google-Landmarks:世界最大的人造和自然地標識別數據集
文 / Google Research 軟體工程師 André Araujo 和 Tobias Weyand
圖像分類技術在過去幾年取得了顯著進步,例如在Imagenet分類挑戰賽中,錯誤率每年都在大幅下降。為了繼續推進計算機視覺的發展,許多研究員現在將更多精力放在精細和實例級識別問題上 - 許多人都在設計能夠識別埃菲爾鐵塔、富士山或波斯貓的機器學習演算法,而不是識別建築物、山峰和貓等一般實體。不過,這個領域一個比較大的研究障礙是缺乏大型的標註數據集。
我們高興地宣布 Google-Landmarks,它是全世界最大的人造和自然地標識別數據集,希望這個工具能推動實例級識別的發展。Google-Landmarks 將作為地標識別和地標檢索 Kaggle 挑戰賽的一部分發布,這兩個挑戰賽將是 CVPR』18 Landmarks 專題講座的重點。
地標識別挑戰賽:https://www.kaggle.com/c/landmark-recognition-challenge
地標檢索挑戰賽:https://www.kaggle.com/c/landmark-retrieval-challenge
數據集包含超過 200 萬個圖像,這些圖像描繪了全世界 3 萬個獨特的地標(它們的地理分布如下圖所示),許多類別要比現在的常用數據集大 30 倍左右。此外,為了激勵這個領域的研究,我們將開源 Deep Local Features (DELF):
http://arxiv.org/abs/1612.06321
這個具有專用的本地特徵描述符的資料庫,我們認為它非常適合這種任務。
我們數據集中的地標的地理分布
地標識別具有一些與其他問題顯著不同的差異。例如,即使在一個大型標註數據集中,也可能沒有很多用於一些不知名地標的訓練數據。此外,由於地標通常是不可移動的剛性對象,類別內變化非常小(換句話說,地標的外觀在它的不同圖像中不會發生很大變化)。因此,變化僅來自於拍照條件(例如遮蔽、不同的視角、天氣和光照),這就讓地標與其他圖像識別數據集不同,在其他數據集中,某種類別圖像(例如狗)的差異可能非常大。其他實例級識別問題(例如藝術品識別)也有這些特性 - 因此,我們希望新數據集也能為其他圖像識別問題的研究提供幫助。
兩個 Kaggle 挑戰賽會提供標註數據的訪問許可權,以便幫助研究人員解決這些問題。識別挑戰賽的任務是構建識別正確地標的模型,它可以處理具有挑戰性測試圖像組成的數據集,而檢索挑戰賽的參與者需要檢索包含相同地標的圖像。
Google-Landmarks 數據集中的一些示例圖像,包括大本鐘、聖心堂、Decebalus 岩石雕塑和邁傑里橋等地標
如果您計劃參加今年的 CVPR,我們希望您能出席 CVPR』18 Landmarks 專題講座:
https://landmarkscvprw18.github.io
不過,所有人都可以參與挑戰賽,以及通過 Kaggle 網站訪問新數據集。我們希望這個資源可以為您的研究提供幫助,我們已經迫不及待地想要傾聽大家對地標識別的想法了。
致謝
Jack Sim、Will Cukierski、Maggie Demkin、Hartwig Adam、Bohyung Han、Shih-Fu Chang、Ondrej Chum、Torsten Sattler、Giorgos Tolias、Xu Zhang、Fernando Brucher、Marco Andreetto 和 Gursheesh Kour。
TAG:TensorFlow |