當前位置:
首頁 > 知識 > Dataset Search | 數據集搜索專用引擎

Dataset Search | 數據集搜索專用引擎


機器之心編譯



9 月 5 日,谷歌發布了一個幫助研究者查找在線數據的免費搜索引擎 Dataset Search。谷歌表示,該引擎面向「科學家、數據記者、數據極客等人群」。該引擎有助於促進數據的開放利用和重複利用。




Dataset Search 測試版地址:https://toolbox.google.com/datasetsearch




Dataset Search 與谷歌的其他專用搜索引擎(如用於搜索新聞和圖像的引擎,以及 Google Scholar 和 Google Books)一樣可以免費使用,它基於擁有者對文件和資料庫的分類方式來查找文件和數據集。該引擎讀取文件內容的方式與搜索引擎搜索網頁的方式不同。有專家表示,該引擎填補了這一領域的空白,可以極大地促進開放數據運動的發展,這一運動旨在實現數據的開放利用和重複利用。



政府機構、科學出版社、研究機構甚至是個人研究者在全世界維護著成千上萬的開源數據資源庫,包含了數百萬個數據集。




但那些想知道哪些類型的數據可用,或者那些希望定位已經存在的數據的研究者,通常依賴於口耳相傳的信息。來自加州山景城的 Google AI 計算機科學家 Natasha Noy 說。




對於那些處於研究生涯早期階段且還沒有建立專業聯繫網路的研究者而言,這個問題尤其嚴重,Noy 說。這對於那些做交叉學科研究的人而言也是個嚴重的缺陷。例如,流行病學家需要訪問氣候數據,其可能與某種病毒的傳播相關。



分類搜索




2017 年 1 月,Noy 及其谷歌同事 Dan Brickley 在一篇谷歌博客(https://ai.googleblog.com/2017/01/facilitating-discovery-of-public.html)中首次介紹了解決該問題的策略。




典型的搜索引擎分兩個階段運行。第一個階段是通過在互聯網上持續搜索來索引可用網頁。第二個階段是對索引網頁進行排序,以使用戶輸入搜索詞時,搜索引擎能夠按相關度排序來提供搜索結果。



Noy 和 Brickley 寫道,為了幫助搜索引擎索引現有數據集,擁有數據集的人應該使用一個叫作 Schema.org 的標準化辭彙表來「標記」數據集,Schema.org 是谷歌和另外三個搜索引擎巨頭(微軟、雅虎和 Yandex)一起發起的項目,由 Brickley 管理。谷歌團隊還開發了一種特殊演算法來對搜索結果中的數據集進行排序。




由於谷歌在網頁搜索中的主導地位,谷歌正在快速轉入數據生態系統的消息刺激主要搜索引擎巨頭進入該戰場,對元數據進行標準化處理,倫敦數據共享公司 Figshare CEO Mark Hahnel 說道。(Figshare 由霍爾茨布林克出版集團管理,該集團也對 Nature 的出版公司持有大量股份。)




「到 11 月,我們接觸的所有大學的數據都已經標記完成。我認為這對學界的開放數據而言是一項重要變革。」Hahnel 說道。




Hahnel 認為,融資機構有時強制要求研究數據必須可獲取,而只要信息能夠高效獲取,他們就能達到其最終目的。「這使得投資機構一直嘗試做的事合法化。」




谷歌為用戶提供了能夠同時搜索多個存儲區的單個界面,希望藉此改變用戶發布和運用數據的方式。谷歌表示這個項目能夠帶來下列好處:






  • 形成數據共享生態系統,鼓勵數據發布者依照最佳做法來存儲和發布數據;



  • 為科學家提供相應平台,方便大眾引用他們創建的數據集,展現他們的研究成果所帶來的影響力。




搜索試驗




目前谷歌已經正式對外測試開源數據集搜索引擎,用戶在鍵入數據集名稱或關鍵信息後,該搜索引擎會給出一系列數據源列表,每一個數據源都會有簡要的介紹,例如更新日期、作者、版權和內容說明等。值得注意的是,除了數據集資源,該搜索引擎還能檢索到很多 Kaggle 上的預訓練模型。在機器之心的嘗試中,我們分別以 CIFAR-10、Object Detection 和 SQuAD 為關鍵詞搜索數據集,發現了一些很有意思的結果。




首先我們檢索了十分常用的圖像分類數據集 CIFAR-10,該數據集包含 10 個類別共 60000 張 32x32 的彩色圖像,且分為 50000 張訓練圖像和 10000 張測試圖像。搜索結果共給出了 9 項來源,包括數據集、預訓練模型和對比結果。






例如在排名第一的搜索結果中,數據集來自 Kaggle 的 CIFAR-10 Python。在搜索引擎的簡介頁中,除了給出該數據集的簡要信息(包括引用此數據集的論文),它甚至還展示了該數據集的使用指南。例如,如下展示頁介紹了該數據集在 Keras 的使用方法:




from

 os 

import

 listdir, makedirs

from

 os.path 

import

 join, exists, expanduser

cache_dir = expanduser(join(

"~"

".keras"

))

if

 

not

 exists(cache_dir):
    makedirs(cache_dir)
datasets_dir = join(cache_dir, 

"datasets"

# /cifar-10-batches-py


if

 

not

 exists(datasets_dir):
    makedirs(datasets_dir)

# If you have multiple input datasets, change the below cp command accordingly, typically:


# !cp ../input/cifar10-python/cifar-10-python.tar.gz ~/.keras/datasets/


!cp ..

/input/cifar-10-python.tar.gz ~/

.keras

/datasets/


!ln -s  ~

/.keras/datasets/cifar-10-python.tar.gz ~/

.keras/datasets/cifar

-10

-batches-py.tar.gz
!tar xzvf ~

/.keras/datasets/cifar-10-python.tar.gz -C ~/

.keras

/datasets/



點擊第一條數據源就能跳轉到對應的 Kaggle 頁面,下載和額外信息都展示在原頁面中。


在採用關鍵詞「Object Detection」進行搜索的過程中,我們會發現搜索結果遠遠要比上面多得多,大約會有上百條數據來源。依靠關鍵詞同樣檢索到了非常多流行的開源數據集,它們都適用於目標檢測這一領域。例如 Microsoft COCO、Face Detection 和 Vehicle Number Plate Detection 等。




從「Object Detection」的搜索結果來看,來自 Kaggle 的數據集佔了一小半,它們都會在 Kaggle 上提供下載與使用指南。其實瀏覽這麼多數據源,搜索引擎給出的簡介頁面就顯得非常重要了。我們不需要跳轉到每一個數據集的原地址,僅根據簡介就能了解該數據集的大概應用領域與內容。如下展示了 COCO 數據集的簡介頁面:







最後我們檢索了斯坦福的問答數據集「SQuAD」,搜索結果不僅給出了挑戰賽地址和數據集地址,同時還提供了相似數據集和挑戰賽的地址。但是在我們檢索「SQuAD 2.0」的時候,並沒有搜索到斯坦福大學發布的機器閱讀理解問答數據集 SQuAD 2.0,也可能是該數據集太新,還沒有被搜索引擎收錄。




合作機構




谷歌這一嘗試的早期支持者是美國國家海洋和大氣管理局(NOAA)。該機構的職權範圍從漁業到日冕,其檔案包含近 7 萬個數據集,包括 19 世紀的船舶日誌。這些數據的總容量超過 35 PB,相當於 35000 個典型硬碟的容量。




谷歌這一工具 Dataset Search 將幫助 NOAA 完成數據開放的使命,NOAA 首席數據官 Edward Kearns 表示。「我們想探索新的方法,使其他人也能使用這些數據。」




與數據擁有者展開合作是運行 Dataset Search 的關鍵步驟。儘管這一系統未來可能變得更加複雜,谷歌目前不打算像處理網頁和圖像那樣讀取或分析數據。Noy 表示,「只有數據發布者提供的元數據足夠好,這種搜索工具才能夠好。」




和 Google Scholar 一樣,Dataset Search 目前不提供自動化查詢或應用程序編程介面(API),儘管谷歌表示將來可能會增加這一功能。




Noy 表示當研究人員開始使用 Dataset Search 時,谷歌將會觀察他們如何與其交互,並利用這些信息來改進搜索結果。她還表示,公司尚未打算把該服務商業化。




隨著 Dataset Search 的不斷改進,未來它也許會跟 Google Scholar 整合,將特定研究領域的搜索結果關聯到相關數據集。




原文鏈接:https://www.nature.com/articles/d41586-018-06201-x




喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |