資源 | 這是一份非常全面的開源數據集，你，真的不想要嗎？

科技 09-06

選自Medium

作者：Bharath Raj

機器之心編譯

參與：

高璇

、王淑婷

近期，skymind.ai 發布了一份非常全面的開源數據集。內容包括生物識別、自然圖像以及深度學習圖像等數據集，現機器之心將其整理如下：（內附鏈接哦~）

最近新增數據集

開源生物識別數據：http://openbiometrics.org/

Google Audioset：擴展了 632 個音頻分類樣本，並從 YouTube 視頻中提取了 2，084，320 個人類標記的 10 秒聲音片段。

地址：https://research.google.com/audioset/

Uber 2B trip data：首次展示 2 百萬公里的出行數據。

地址：https://movement.uber.com/cities

Yelp Open Dataset：Yelp 數據集是用於 NLP 的 Yelp 業務、評論和用戶數據的子集。

地址：https://www.yelp.com/dataset

Core50：用於連續目標識別的新數據集和基準。

地址：https://vlomonaco.github.io/core50/

Kaggle 數據集：https://www.kaggle.com/datasets

Data Portal：http://dataportals.org/

Open Data Monitor：https://opendatamonitor.eu/

Quandl Data Portal：https://www.quandl.com/

Mut1ny 頭部/面部分割數據集：http://www.mut1ny.com/face-headsegmentation-dataset

Github 上的優秀公共數據集：https://www.kdnuggets.com/2015/04/awesome-public-datasets-github.html

頭部 CT 掃描數據集：491 次掃描的 CQ500 數據集。

地址：http://headctstudy.qure.ai/

自然圖像數據集

MNIST：手寫數字圖像。最常用的可用性檢查。格式 25x25、居中、黑白手寫數字。這是一項簡單的任務——僅某部分適用於 MNIST，不意味著它有效。

地址：http://yann.lecun.com/exdb/mnist/

CIFAR10 / CIFAR100：32x32 彩色圖像，10/100 類。雖然仍有趣卻不再常用的可用性檢查。

地址：http://www.cs.utoronto.ca/~kriz/cifar.html

Caltech 101：101 類物體的圖片。

地址：http://www.vision.caltech.edu/Image_Datasets/Caltech101/

Caltech 256：256 類物體的圖片。

地址：http://www.vision.caltech.edu/Image_Datasets/Caltech256/

STL-10 數據集：用於開發無監督特徵學習、深度學習、自學習演算法的圖像識別數據集。像修改過的 CIFAR-10。

地址：http://cs.stanford.edu/~acoates/stl10/

The Street View House Numbers (SVHN)：Google 街景中的門牌號碼。可以把它想像成復現的戶外 MNIST。

地址：http://ufldl.stanford.edu/housenumbers/

NORB：玩具擺件在各種照明和姿勢下的雙目圖像。

地址：http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/

Pascal VOC：通用圖像分割/分類——對於構建真實世界圖像注釋不是非常有用，但對基線很有用。

地址：http://pascallin.ecs.soton.ac.uk/challenges/VOC/

Labelme：帶注釋圖像的大型數據集。

地址：http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

ImageNet：新演算法的客觀圖像數據集（de-facto image dataset）。許多圖像 API 公司都有來自其 REST 介面的標籤，這些標籤近 1000 類;WordNet; ImageNet 的層次結構。

地址：//image-net.org/

LSUN：具有很多輔助任務的場景理解（房間布局估計，顯著性預測（saliency prediction）等），有關聯競賽。（associated competition）。

地址：http://lsun.cs.princeton.edu/2016/

MS COCO：通用圖像理解/說明，有關聯競賽。

地址：http://mscoco.org/

COIL 20：不同物體在 360 度旋轉中以每個角度成像。

地址：http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php

COIL100：不同物體在 360 度旋轉中以每個角度成像。

地址：http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

Google 開源圖像：有 900 萬張圖像的網址集合，這些圖像通過知識共享（Creative Commons）被標註成 6000 多個類別。

地址：https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

地理空間數據

OpenStreetMap：免費提供整個星球的矢量數據。它包含（舊版）美國人口普查局的數據。

地址：http://wiki.openstreetmap.org/wiki/Planet.osm

Landsat8：整個地球表面的衛星視角圖，每隔幾周更新一次。

地址：https://landsat.usgs.gov/landsat-8

NEXRAD：美國大氣層的多普勒雷達掃描圖。

地址： https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

————————我是深度學習圖像的分割線————————

人工數據集

Arcade Universe：一個人工數據集生成器，圖像包含街機遊戲 sprite，如 tetris pentomino / tetromino。該生成器基於 O. Breleux 的 bugland 數據集生成器。

地址：https://github.com/caglar/Arcade-Universe

以 Baby AI School 為靈感的數據集集合。

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAISchool

Baby AI Shapes Dataset：區分 3 種簡單形狀。

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets

Baby AI Image And Qu
estion Dataset：一個問題-圖像-答案數據集。

地址：http://www.iro.umontreal.
ca/~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets

Deep Vs Shallow Comparison ICML2007：為實證評估深層架構而生成的數據集。

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007

MnistVariations：在 MNIST 中引入受控變化。

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/MnistVariations

RectanglesData：區分寬矩形和垂直矩形。

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesData

ConvexNonConvex：區分凸形和非凸形狀。

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex

BackgroundCorrelation：嘈雜 MNIST 背景下相關度的控制

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation

人臉數據集

Labelled Faces in the Wild：13000 個經過裁剪的人臉區域（使用已經用名稱標識符標記過的 Viola-Jones）。數據集中每個人員的子集里包含兩個圖像——人們常用此數據集訓練面部匹配系統。

地址：http://vis-www.cs.umass.edu/lfw/

UMD Faces：有 8501 個主題的 367，920 個面孔的帶注釋數據集。

地址：http://www.umdfaces.io/

CASIA WebFace：超過 10，575 個人經面部檢測的 453，453 張圖像的面部數據集。需要一些質量過濾。

地址：http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html

MS-Celeb-1M：100 萬張全世界的名人圖片。需要一些過濾才能在深層網路上獲得最佳結果。

地址：https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Olivetti：一些人類的不同圖像。

地址：http://www.cs.nyu.edu/~roweis/data.html

Multi-Pie：The CMU Multi-PIE Face 資料庫。

地址：http://www.multipie.org/

Face-in-Action：http://www.flintbox.com/public/project/5486/

JACFEE：日本和白種人面部情緒表達的圖像。

地址：http://www.humintell.com/jacfee/

FERET：面部識別技術資料庫。

地址：http://www.itl.nist.gov/iad/humanid/feret/feret_master.html

mmifacedb：MMI 面部表情資料庫。

地址：http://www.mmifacedb.com/

IndianFaceDatabase：http://vis-www.cs.umass.edu/~vidit/IndianFaceDatabase/

耶魯人臉資料庫：http://vision.ucsd.edu/content/yale-face-database

耶魯人臉資料庫 B：http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html

Mut1ny 頭部/面部分割數據集：像素超過 16K 的面部/頭部分割圖像

地址：http://www.mut1ny.com/face-headsegmentation-dataset

————————我是深度學習視頻的分割線————————

視頻數據集

Youtube-8M：用於視頻理解研究的大型多樣化標記視頻數據集。

地址：https://research.googleblog.com/2016/09/announcing-youtube-8m-large-and-diverse.html

文本數據集

20 newsgroups：分類任務，將出現的單詞映射到新聞組 ID。用於文本分類的經典數據集之一，通常可用作純分類的基準或任何 IR /索引演算法的驗證。

地址：http://qwone.com/~jason/20Newsgroups/

路透社新聞數據集：（較舊）純粹基於分類的數據集，包含來自新聞專線的文本。常用於教程。

地址：https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

賓州樹庫：用於下一個單詞或字元預測。

地址：http://www.cis.upenn.edu/~treebank/

UCI『s Spambase：來自著名的 UCI 機器學習庫的（舊版）經典垃圾郵件數據集。根據數據集的組織細節，可以將它作為學習私人垃圾郵件過濾的基線。

地址：https://archive.ics.uci.edu/ml/datasets/Spambase

Broadcast News：大型文本數據集，通常用於下一個單詞預測。

地址：http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S44

文本分類數據集：來自 Zhang et al., 2015。用於文本分類的八個數據集合集。這些是用於新文本分類基線的基準。樣本大小從 120K 至 3.6M 不等，範圍從二進位到 14 個分類問題。數據集來自 DBPedia、亞馬遜、Yelp、Yahoo！和 AG。

地址：https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText：來自維基百科高質量文章的大型語言建模語料庫，由 Salesforce MetaMind 策劃。

地址：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

SQuAD：斯坦福問答數據集——應用廣泛的問答和閱讀理解數據集，其中每個問題的答案都以文本形式呈現。

地址：https://rajpurkar.github.io/SQuAD-explorer/

Billion Words 數據集：一種大型通用語言建模數據集。通常用於訓練分散式單詞表徵，如 word2vec。

地址：http://www.statmt.org/lm-benchmark/

Common Crawl：網路的位元組級抓取——最常用於學習單詞嵌入。可從 Amazon S3 上免費獲取。也可以用作網路數據集，因為它可在萬維網進行抓取。

地址：http://commoncrawl.org/the-data/

Google Books Ngrams：來自 Google book 的連續字元。當單詞首次被廣泛使用時，提供一種簡單的方法來探索。

地址：https://aws.amazon.com/datasets/google-books-ngrams/

Yelp 開源數據集：Yelp 數據集是用於 NLP 的 Yelp 業務、評論和用戶數據的子集。

地址：https://www.yelp.com/dataset

————————我是深度學習文本的分割線————————

問答數據集

Maluuba News QA 數據集：CNN 新聞文章中的 12 萬個問答對。

地址：https://datasets.maluuba.com/NewsQA

Quora 問答對：Quora 發布的第一個數據集，包含重複/語義相似性標籤。

地址：https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

CMU Q / A 數據集：手動生成的模擬問/答對，維基百科文章對其難度評分很高。

地址：http://www.cs.cmu.edu/~ark/QA-data/

Maluuba 面向目標的對話：程序性對話數據集，對話旨在完成任務或做出決定。常用於聊天機器人。

地址：https://datasets.maluuba.com/Frames

bAbi：來自 Facebook AI Research（FAIR）的綜合閱讀理解和問答數據集。

地址：https://research.fb.com/projects/babi/

The Children』s Book Test：Project Gutenberg 提供的兒童圖書中提取的（問題+背景、答案）對的基線。用於問答（閱讀理解）和模擬查找。

地址：http://www.thespermwhale.com/jaseweston/babi/CBTest.tgz

情感數據集

多領域情緒分析數據集：較舊的學術數據集。

地址：http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

IMDB：用於二元情感分類的較舊、較小數據集。對文獻中的基準測試無法支持更大的數據集。

地址：http://ai.stanford.edu/~amaas/data/sentiment/

Stanford Sentiment Treebank：標準情感數據集，在每個句子解析樹的每個節點都有細粒度的情感注釋。

地址：http://nlp.stanford.edu/sentiment/code.html

推薦和排名系統

Movielens：來自 Movielens 網站的電影評分數據集，各類大小都有。

地址：https://grouplens.org/datasets/movielens/

Million Song 數據集：Kaggle 上元數據豐富的大型開源數據集，可以幫助人們使用混合推薦系統。

地址：https://www.kaggle.com/c/msdchallenge

Last.fm：音樂推薦數據集，可訪問深層社交網路和其它可用於混合系統的元數據。

地址：http://grouplens.org/datasets/hetrec-2011/

Book-Crossing 數據集：來自 Book-Crossing 社區。包含 278,858 位用戶提供的約 271,379 本書的 1,149,780 個評分。

地址：http://www.informatik.uni-freiburg.de/~cziegler/BX/

Jester：來自 73,421 名用戶對 100 個笑話的 410 萬個連續評分（分數從-10 至 10）。

地址：http://www.ieor.berkeley.edu/~goldberg/jester-data/

Netflix Prize：Netflix 發布了他們的電影評級數據集的匿名版；包含 480,000 名用戶對 17,770 部電影的 1 億個評分。首個主要的 Kaggle 風格數據挑戰。隨著隱私問題的出現，只能提供非正式版。

地址：http://www.netflixprize.com/

————————我是深度學習圖表的分割線————————

網路和圖形

Amazon Co-Purchasing：亞馬遜評論從「購買此產品的用戶也購買了……」這一部分抓取數據，以及亞馬遜相關產品的評論數據。適合在網路中試行推薦系統。

地址：http://snap.stanford.edu/data/#amazon

Friendster 社交網路數據集：在變成遊戲網站之前，Friendster 以朋友列表的形式為 103,750,348 名用戶發布了匿名數據。

地址：https://archive.org/details/friendster-dataset-201107

語音數據集

2000 HUB5 English：最近在 Deep Speech 論文中使用的英語語音數據，從百度獲取。

地址：https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech：包含文本和語音的有聲讀物數據集。由多個朗讀者閱讀的近 500 小時的各種有聲讀物演講內容組成，包含帶有文本和語音的章節。

地址：http://www.openslr.org/12/

VoxForge：帶口音的清晰英語語音數據集。適用於提升不同口音或語調魯棒性的案例。

地址：http://www.voxforge.org/

TIMIT：英語語音識別數據集。

地址：https://catalog.ldc.upenn.edu/LDC93S1

CHIME：嘈雜的語音識別挑戰數據集。數據集包含真實、模擬和乾淨的錄音。真實錄音由 4 個揚聲器在 4 個嘈雜位置的近 9000 個錄音構成，模擬錄音由多個語音環境和清晰的無雜訊錄音結合而成。

地址：http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

TED-LIUM：TED 演講的音頻轉錄。1495 個 TED 演講錄音以及這些錄音的文字轉錄。

地址：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

————————我是深度學習音頻的分割線————————

音符音樂數據集

Piano-midi.de: 古典鋼琴曲

地址：http://www.piano-midi.de/

Nottingham : 超過 1000 首民謠

地址：http://abc.sourceforge.net/NMD/

MuseData: 古典音樂評分的電子圖書館

地址：http://musedata.stanford.edu/

JSB Chorales: 四部協奏曲

地址：http://www.jsbchorales.net/index.shtml

其它數據集

CMU 動作抓取數據集：http://mocap.cs.cmu.edu/

Brodatz dataset：紋理建模。

地址：http://www.ux.uis.no/~tranden/brodatz.html

來自歐洲核子研究中心的大型強子對撞機（LHC）的 300TB 高質量數據。

地址：http://opendata.cern.ch/search?ln=en&p=Run2011A+AND+collection:CMS-Primary-Datasets+OR+collection:CMS-Simulated-Datasets+OR+collection:CMS-Derived-Datasets

紐約計程車數據集：由 FOIA 請求而獲得的紐約計程車數據，導致隱私問題。

地址：http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml

Uber FOIL 數據集：來自 Uber FOIL 請求的紐約 4.5M 拾取數據。

地址：https://github.com/fivethirtyeight/uber-tlc-foil-response

Criteo 點擊量數據集：來自歐盟重新定位的大型互聯網廣告數據集。

地址：http://research.criteo.com/outreach/

健康 &生物數據

歐盟傳染病監測圖集：http://ecdc.europa.eu/en/data-tools/atlas/Pages/atlas.aspx

默克分子活動挑戰：http://www.kaggle.com/c/MerckActivity/data

Musk dataset: Musk dataset 描述了以不同構造出現的分子。每個分子都是 musk 或 non-musk，且其中一個構造決定了這一特性。

地址：https://archive.ics.uci.edu/ml/datasets/Musk+(Version+2)

政府&統計數據

Data USA: 最全面的可視化美國公共數據。

地址：http://datausa.io/

歐盟性別統計資料庫：http://eige.europa.eu/gender-statistics

荷蘭國家地質研究數據：http://www.nationaalgeoregister.nl/geonetwork/srv/dut/search#fast=index&from=1&to=50&any_OR_geokeyword_OR_title_OR_keyword=landinrichting*&relation=within