業界|為推進科學研究,谷歌呼籲建立標準的數據生態系統
選自Google Research Blog
機器之心編譯
參與:李澤南、李亞洲
谷歌希望在人們的努力之下,我們最終能夠像搜索論文一樣輕鬆找到自己想要的數據集,新的標準是努力的第一步。
目前網路上有數百個資料庫,它們提供了數以百萬計的數據集。這些數據的提供者包括國家和地方政府、科學和出版機構、數據供應商等等,數據的涵蓋面從社會科學、生命科學到高能物理、氣候科學,幾乎無所不包。這些數據對於促進研究結果的重現至關重要,能夠讓科學家在前人的基礎上繼續探索,讓數據挖掘者可以更輕鬆地接觸信息,探究它背後的意義。出於這些原因,很多出版者和資金提供者現在要求科學家們盡量公開他們的數據。
然而,由於網路上數據存儲的數量龐大,人們會發現難以尋找自己需要的數據集,同時無法核實信息的來源和真實性。搜索數據集本應該像搜索食譜、工作甚至電影一樣簡單——那些類型的搜索通常是開放式的,能夠偶然的發現搜索空間中的某些結構。
為了讓書籍、電影、活動、食譜、評測和一系列其他類型的搜索在谷歌引擎上有更佳表現,我們依賴於各網站上嵌入 schema.org 辭彙的結構數據。為了促進數據集實現類似的功能,我們最近發布了一個新的指導幫助數據提供商以標準的形式形容他們的數據集,讓谷歌和其他的搜索引擎可以連接到這些結構化元數據描述的地理位置、出版商甚至知識圖譜,以便被使用者發現。我們希望這些元數據可以幫助網上公開的信息能夠更有效地被人們使用。
Schema.org 上形容數據集的方式基於最近在W3C(Data Catalog Vocabulary)上的標準化成果,我們認為它是在未來不斷完善描述和改進數據集索引的第一步。雖然各領域還在不斷討論,但我們認為這一標準已經為構建數據生態系統打下了堅實基礎。
技術挑戰
雖然我們已經發布了元數據的索引指南,但在輕鬆搜索數據集之前我們還面臨著很多技術挑戰。這些挑戰包括:
數據集定義的一致性:例如,單一表格和大量表格的集合都算是一個數據集嗎?如果都是,蛋白質序列呢?圖片集合呢?用於鏈接數據的 API 呢?我們希望獲得更多關於數據提供者的定義、解釋以及使用方式。
數據集的識別:在理想狀況下,數據集應該擁有一些被所有人認可的永久標識,讓數據集具有唯一性,但在一些情況下這還不現實。原數據界面的 URL 或許是作為標識符的不錯選擇,我們需要提供多種標識符嗎?如果有多重標識的話,需要選擇一個主要標識嗎?
彼此間關聯數據集:什麼時候兩種記錄能夠統一的描述一個數據集?(例如,萬一 repository 從其他人那裡複製來元數據呢)如果數據整合方(aggregator) 在一個數據集上加入了更多的元數據,或者以有益的方式清潔了數據呢?我們正在研究如何明晰、定義這些關係。但是,元數據的消費者不得不假定這些數據提供者不準確描述的數據,並忍受這種情況。
在相關數據集間傳播元數據:在相關數據集之間我們能夠傳播多少元數據?例如,我們可能從合成數據集到它包含的子數據集來傳播出處信息。但經過這樣的傳播,元數據有了多少的退化?我們預期根據不同的應用退化程度不同:搜索應用的元數據可能要比數據融合的精確度更低。
描述數據集的內容:數據集要包含多少的描述內容,從而使得能夠進行類似於 Explore for Docs, Sheets and Slides 中使用的查詢,或者進行數據集的其他探索與重複使用(當然是在許可之下)?我們如何高效的使用供應商使用W3C標準已經描述的內容?
除了我們已經列出來的技術和社會挑戰,剩下的許多研究挑戰涉及到長期的開放式研究:許多數據集是用無結構的方式描述的,包括科學論文形式的說明、圖解、表格,以及其他文檔。我們能建立提取元數據的其他有前途的方式。雖然我們有合理的排序網頁搜索內容的方式,而排序數據集是個挑戰:我們不知道排序網頁的 signals 是否同樣適用於數據集。在數據集內容是公開且可用的情況下,我們可能能夠提取數據集中額外的語義,例如,學習不同領域的值類型。但是,我們是否能夠足夠了解內容,從而能夠進行相關資源的數據融合於挖掘?
呼籲行動
對任何生態系統而言,一個數據系統只有在大量人員共同貢獻的情況下才會繁榮,因此我們呼籲:
個人和數據倉庫提供者:使用 schema.org、DCAT、CSVW 等社區標準公布結構元數據,這能使得其他人發現、使用這些元數據。
數據消費者(科學家到數據新聞更作者等):更準確的引用數據,如同我們引用科學論文一樣。
開發者:為 schema.org (http://schema.org/) 元數據的數據集的拓展做出貢獻,提供專業領域的辭彙,以及研究使用這一豐富元數據的工具與應用。
我們最終的目標是幫助建立一個公布、使用、挖掘數據集的生態系統。如此以來,該生態系統將會包括數據發布者、整合者(大型數據倉儲方提供數據清洗、調和元數據等價值)、挖掘數據的搜索引擎、以及更重要的數據消費者。
※D-Wave再度升級:研發出2000量子比特量子計算機
※機器學習新技術,讓病人聲音成為診斷依據
※斯坦福Nature論文新突破:深度學習皮膚癌診斷達專家水平
※2016,那些被機器之心記錄的人物和公司
※搜狗+NMT+團隊:神經機器翻譯將消除跨語言溝通障礙
TAG:機器之心 |
※科學家呼籲:將微生物學研究作為精準醫療的補充和延伸
※學生心理問題引發社會關注 心理學家呼籲學校開展全面的健康計劃
※專家呼籲推進人獸嵌合體研究!
※中外科學家呼籲進一步合理放開對人類胚胎研究的限制
※超級運算耗電量大,瑞士材料科學家呼籲基礎研究救地球
※中科院院士呼籲建立全國層面平台 加快臨床試驗新葯發展
※日本新科諾獎得主呼籲重視基礎科學研究
※專家呼籲加強校園人文教育和傳統文化滋養
※科學家呼籲製造業減少有毒物質排放
※聯合國呼籲建立無人機全球統一註冊機制
※重慶市政協委員聚焦文化產業發展 呼籲加大支持力度
※武器產生自我意識,主動攻擊人類!科學家呼籲聯合國禁止該實驗
※中外科學家發表新論述,呼籲合理放開人類胚胎基因研究的限制
※芬蘭教育部長呼籲學校更加國際化
※協和醫學院教師呼籲:別讓醫學生的課外閱讀成為空白
※英國遊戲組織呼籲政府推動電競發展
※同濟八旬院士開公選課呼籲在科學與文化之間構築橋樑
※百餘科技業領袖呼籲禁止「殺手機器人」
※為方便管理 聯合國呼籲建立無人機全球統一註冊機制