基於知識庫清洗關係型數據
在2017年資料庫頂會ICDE中,數據清洗領域收錄了四篇相關論文。其中,清華大學資料庫組的一篇名為「Cleaning Relations with Knowledge Bases」的研究論文將數據清洗技術又推動了一步。下面,本文將從技術背景、主要貢獻和應用前景三方面對該文章進行解析,歡迎同行批評指正。
一、技術背景
數據清洗工作是數據分析、數據挖掘、機器學習等工作進行前必不可少的一步準備工作。目前已經有許多數據清洗方法和系統被提出,其中包括基於約束的清洗方法[1,2,3,4]、基於規則的清洗技術[5,6,7]、基於知識庫和眾包的數據清洗系統[8]等等。大多數基於約束的清洗工具是黑盒,而基於規則的清洗方法是百盒。因此,當數據清洗髮生錯誤的時候,基於規則的方法更能夠解釋該錯誤發生的原因。因此,基於規則的方法如今被更廣泛地使用。
而現如今,隨著數據的急速增長,知識庫應運而生,如Yago[9],DBpedia[10]。因此,該文章採用藉助資料庫中海量知識的方式來完成數據清洗工作。這種清洗方式是基於規則的,不藉助於完整性約束[1,11,12]或眾包知識[8]的幫助。
二、主要貢獻
為了從知識庫中獲得相關的知識,從而判斷關係型數據中關係的正誤,需要在知識庫和數據表之間建立一種語義的關聯。因此,該文章形式化定義了檢測規則。通過檢測規則,我們可以獲得藉助知識庫中的類型和關係等知識,判斷數據表中所存在關係的兩種相反的語義。這兩種語義分別是正面語義和負面語義。正面語義表示在正確的元組中,屬性值與其他值之間的連接關係;負面語義表示在同一元組中,錯誤的屬性值與其他正確值之間的連接關係。如果數據表中的元組與負面語義匹配,那麼檢測規則可以檢測並修復該錯誤。
該文章闡述了檢測規則的生成過程,並對其應用進行了討論。同時,也在理論方面對檢測規則的一致性進行了分析。
在理論分析的基礎上,該文章引入了優化方法來加速清洗過程,其中包括對檢測規則的應用順序選擇、使用倒排索引等等。
最後,文章通過大量實驗驗證了所提出演算法的效率和準確率。實驗證明檢測規則演算法能夠高效地修復並標記數據。此外,該方法的可擴展性良好。
三、應用前景
本文認為,該文章提出的基於知識庫的數據清洗技術為資料庫領域提供了新的研究方向。
其一,目前知識庫的構建尚不完善,知識庫中的知識也需要通過數據清洗的方式進行進一步檢測和修復。因此,我們可以基於正確的數據對知識庫中的數據進行清洗。
其二,知識庫中存儲了大量的知識,而這些知識並不都對數據清洗過程有效。因此,我們可以構建服務於數據清洗工作的知識庫。
參考文獻
[1] P. Bohannon, W. Fan, M. Flaster, and R. Rastogi. A cost-based model and effective heuristic for repairing constraints by value modification. In SIGMOD, 2005.
[2] G. Cong, W. Fan, F. Geerts, X. Jia, and S. Ma. Improving data quality: Consistency and accuracy. In VLDB, 2007.
[3] M. Dallachiesa, A. Ebaid, A. Eldawy, A. K. Elmagarmid, I. F. Ilyas, M. Ouzzani, and N. Tang. NADEEF: a commodity data cleaning system. In SIGMOD, 2013.
[4] W. Fan. Dependencies revisited for improving data quality. In PODS, 2008.
[5] W. Fan, J. Li, S. Ma, N. Tang, and W. Yu. Towards certain fixes with editing rules and master data. VLDB J., 21(2), 2012.
[6] M. Interlandi and N. Tang. Proof positive and negative in data cleaning. In ICDE, 2015.
[7] J. Wang and N. Tang. Towards dependable data repairing with fixing rules. In SIGMOD, 2014.
[8] X. Chu, J. Morcos, I. F. Ilyas, M. Ouzzani, P. Papotti, N. Tang, and Y. Ye. KATARA: a data cleaning system powered by knowledge bases and crowdsourcing. In SIGMOD, 2015.
[9] J. Hoffart, F. M. Suchanek, K. Berberich, and G. Weikum. YAGO2: A spatially and temporally enhanced knowledge base from wikipedia. Artif. Intell., 194, 2013.
[10] M. Morsey, J. Lehmann, S. Auer, and A. N. Ngomo. Dbpedia SPARQL benchmark - performance assessment with real queries on real data. In ISWC, 2011.
[11] F. Chiang and R. J. Miller. A unified model for data and constraint repair. In ICDE, 2011.
[12] X. Chu, I. F. Ilyas, and P. Papotti. Holistic data cleaning: Putting violations into context. In ICDE, 2013.
「大數據與數據科學家」公眾號
主編:王宏志
特邀副主編: 朱劼
副主編: 丁小歐
責任編輯: 齊志鑫,宋揚
編輯: 陶穎安
-精彩內容,記得分享到朋友圈-
TAG:大數據與數據科學家 |