資料庫50年：能藉機器學習再造一個黃金期嗎？

最新 04-14

策劃編輯 | Natalie

作者 | Michael Cafarella，Chris Ré

編譯 | 無明

編輯 | Emily

數據管理領域的研究工作進展已經超乎我們的想像，毫無疑問，對於該領域來說，這是最好的時代。

輝煌的過去

過去十年，在數據管理領域都發生了什麼？

口袋裡的結構化數據。iPhone 發佈於 2007 年，而此後智能手機的發展讓數十億個口袋都「裝」上了結構化數據，因為每台設備上都有一個 SQL 引擎。

Hadoop、Spark 和其他開源項目的大獲全勝。第一屆 Hadoop 峰會於 2008 年舉行。現在，Facebook、Twitter、NAS 等巨頭都在支持這個項目的發展，Cloudera 和 Hortworks 兩家公司的市值超過 30 億美元。Spark 和 SparkSQL 項目在業界得到廣泛應用。Apache 基金會的一項統計數據（http://projects.apache.org/statistics.html）表明，10 個最熱門的項目中有 8 個與數據有關：Ambari、Ignite、Hadoop、Beam、HBase、Flink、Lucene-solr 和 Spark。Spark 和 Flink 還擁有來自資料庫領域的貢獻者。可能有人會反對說，這些項目並非來自數據管理專業委員會（SIGMOD）社區，但可以告訴他們的是，這些項目的某些靈感還是來自於資料庫領域。

信息提取成為主流。2008 年，信息提取在 AI 和資料庫大會上還只能佔個小角落。後來，資料庫社區推出了大量的系統，如 Yago、WebTables、DeepDive 等。該領域的技術已經十分先進，蘋果公司在去年收購了 Lattice Data，由此可見一斑。

雲資料庫。包括谷歌、微軟、Twitter、亞馬遜在內的巨頭公司開始大規模使用雲資料庫。

數據分析成為主流。OLAP 幾乎成為昨日黃花，但現在，Actian Vector 和 MonetDB 提供了高質量的數據分析，Tableau 市值 65 億美元。如果沒有了數據分析，Facebook 和谷歌不知道會變成什麼樣，而藉助數據分析，他們甚至有望形成新的民主。

多彩的現在

十年來，資料庫領域在很多難題研究上取得了進步，而這些奠定了技術發展的基石。

近似查詢結果

用於機器學習原語的數據管理

大規模分散式關係型系統（支持事務）

點對點的交易處理（區塊鏈）

數據隱私模型的改進

圖演算法、關係查詢和並行查詢處理的改進

這還沒包括那些在機器學習和視覺化方面與數據有關的進展。雖然它們都不屬於 SIGMOD，但與我們密切相關。與其他領域的關係對我們來說是好事。而讓人感到驚訝的是，很多國家和地區都參與到這一領域的研究，如美國、中國、歐洲、中東等。我們應該為此感到驕傲，應該為能夠參與解決如此重要的問題而感到興奮。

光明的未來

確實，我們所聽到的某些觀點是有那麼一點道理，比如糟糕的論文評審、重要的項目難以繼續進行、論文數量過度膨脹等。在很多情況下，論文評審不應該是那樣的。在數據管理領域，我們不再是唯一的主導者。現在有越來越多的技術大會，有越來越多的智能主題，而我們曾經引以為傲的關係型資料庫現在在整個數據管理領域所佔的比重越來越小。或許，要想繼續發揮影響力，我們要比以往更加小心地選擇項目。當然，現在比過去更難創建大型的項目，也更難獲得資金支持。這些都是問題，但反過來看，這些也意味著數據管理領域已經取得不可思議的成功。

總得來說，數據管理領域的機會比過去 10 年（甚至是 20 年、30 年或 40 年）都要多。該領域的研究成果是解決其他問題的基礎。

機器學習的黃金期依賴於我們，不管是涉及智能還是商業投資。

到處都是機器學習！Kraska 等人的學習索引（Learned Indexes，https://arxiv.org/abs/1712.01208）、Andy Pavlo 的自驅動資料庫（https://pelotondb.io）、Barzan Mozafari 的資料庫學習、Macrobase 基於機器學習驅動的數據分析，這些都在 RAD 實驗室（https://radlab.cs.berkeley.edu/about）偉大願景的籠罩之下。

編程模型在變化。機器學習幾乎被應用在所有的數據產品中，但還沒有出現有效的編譯器和調試基礎設施。Snorkel 項目（https://hazyresearch.github.io/snorkel）正在嘗試如何重塑機器學習技術棧。

下一代框架。例如，在 Ray 框架中調整機器學習模型或進行增強學習、在 SQL 原語中集成線性代數和機器學習，等等。

硬體的發展改變了數據處理的核心。如 quickstep 項目（http://quickstep.cs.wisc.edu）、基於 FPGA 處理數據、重新發明查詢架構的 Hyper（https://hyper-db.de）、列儲存先鋒 MonetDB（https://www.monetdb.org/Home）。

數據狂熱者的崛起。越來越多的人使用數據處理，所以像自然語言介面（http://www.vldb.org/pvldb/vol8/p73-li.pdf）和 gestureDB（//interact.osu.edu/gesturedb）這些項目才能發展得如此迅速。數據清洗也取得了可喜的進步，Tamr 和 Trifacta 這些公司在這方面做出了很大的貢獻。當然，還有像 BoostClean（https://arxiv.org/abs/1711.01299）和 HoloClean（http://holoclean.io）這類項目。

數據科學作為一個組織原則，幾乎對社會的方方面面都產生了重要影響。

由 Anastasia Ailamaki 共同領導的 BlueBrain（https://bluebrain.epfl.ch）項目。

Ce Zhang 的 space.ml 項目（http://space.ml）比以往進行了更深入的研究。

Chris White 因為研究反人類非法交易而獲得總統獎，我們社區的很多同僚也參與了研究。

Daisy Wang、Fabian Suchanek 等人致力於改進用於數據科學的知識庫。

Jennie Rogers、Aditya Parameswaran、Ashwin Machanavajjhala、Stratos Idreos、Alvin Cheung、Peter Alvaro 等人致力於為高效而安全的數據科學和數據分析構建基礎設施。

資料庫領域的人們在新的以數據為中心的機構中佔有重要的地位。在 Moore Sloan 研究中心，主要由來自資料庫領域的核心人物帶隊。UChicago 是由 Mike Franklin 建立起來的，而 Mike 也是伯克利的聯合創建人。Hector Garcia-Molina 和 Chris 是斯坦福數據科學院的聯合創始人。在國際方面，QCRI 由 Ahmed Elmagarmid 領導。

或許，相比關係型資料庫，我們無法在這些方面擁有同等水平的所有權，但我們卻有更大的機會產生比以往更強的影響力。

當然，關於資料庫領域所面臨的挑戰，也存在一些不同的想法。

我們的領域一直在進步，我們也同意 Mike Stonebraker 的大部分觀點。我們一直在想，我們該如何繼續把最好的想法吸引到我們的領域來？如何構建一個更好的社區，讓人們更好地完成他們的工作？以下是我們的一些想法。

1.基於論文的獎勵模型已經不管用了。在這一點上，我們贊同 Mike：不要只依賴論文！但我們並不希望人們減少論文的數量，畢竟技術交流大會仍然需要使用論文作為分享手段，但它們不應該成為獲得獎勵的資本。

a. LPU 並不是問題。Surjit Chaudhuri 曾經極力爭辯說，我們需要論文來加快研究成果的分享。我們同意他的觀點！我們的領域太龐大了，結構化的溝通有助於快速地散播好的想法。我們還應該尋找更快的方式來散播好的想法，比如鼓勵採用不同長度的論文、給論文設置期限。

b. 論文難以追蹤也是不爭的事實。這並不是因為人們太壞或者太懶了，而是因為我們的世界越來越大了。這也是論文評審質量下降的原因之一，儘管還是存在一些論文質量管控手段。我們應該接受現實，論文會越來越多，論文的平均質量水平可能會下降，但對讀者的幫助可能會有所提升。

2. 項目應該有始有終，有完整的生命周期。項目應該能夠通過在線的方式為同僚之間的溝通和分享提供良好的支持。我們能夠想到的是：

建立項目主頁。

提供相關的出版物信息，告訴其他人需要先閱讀哪些資料。

應用場景描述。

開源的代碼和文檔。

可重用的數據集。

定期更新博客。

如果有人希望通過 Skype 溝通，需要為他們預留時間。

提供虛擬機下載，方便他人進行測試。

如果後續不進行更新，就妥善關閉項目。

這些想法算不上什麼大突破，但確實能給我們帶來幫助。

在發揮影響力方面，我們比其他大多數領域做得更加出色。我們不妨也把影響力擴散到數據集、模型和數據科學領域。關係型資料庫曾經讓我們感到無比驕傲。現在，我們應該考慮在 SIGMOD 中給那些最好的數據集、數據科學分析等加強獎勵力度。

我們同時需要理論性和系統性的工作。理論的發展不應該以犧牲系統性的工作為代價，這兩者我們都需要。人們對很多數據管理方面的研究仍然不是很了解，比如數據隱私、機器學習和數據清洗。以好奇心為驅動的研究會吸引到更好的想法，而正確的理論會讓系統工作更好地進行。如果一個人沒有一點理論基礎，又怎能讓他去開發與數據隱私或機器學習相關的工具呢？

我們要用智能代替工具來定義我們的領域。比如，我們不應該把注意力聚焦在關係型資料庫本身，而是要關注它背後的想法。

我們要搭個大帳篷。數據管理領域廣闊，而且讓人激動不已，我們比其他任何人都要來得努力。我們不應該把精力浪費在討論數據管理應該包含哪些內容。儘管機器學習社區也很龐大，影響力也很大，但我們與機器學習之間完全算不上同質化。

現在是數據管理領域的黃金時代，當然風險並存。我們要嚴陣以待，以更努力的工作創造更好的數據世界。

英文原文：https://dawn.cs.stanford.edu/2018/04/11/db-community

今日薦文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※人工智慧、機器學習和深度學習
※人工智慧、機器學習、模式識別、數據挖掘關係

TAG:機器學習 |