當前位置:
首頁 > 新聞 > 在白板上寫寫畫畫,集成AutoML的數據分析也能如此簡單

在白板上寫寫畫畫,集成AutoML的數據分析也能如此簡單

機器之心報道

參與:思、路、一鳴


近年來,儘管PowerBI等數據分析產品已經降低了企業進行數據分析的門檻,但從事數據分析仍需要相當的經驗和技能。近日,MIT和布朗大學聯合團隊開發了一款互動式數據科學分析系統。通過集成AutoML等先進技術,系統可以幫助非專業人士在觸控屏上進行直接的數據可視化和動態分析,甚至可以在數據科學家和非專業人士之間的實現多人協作。

在白板上寫寫畫畫,集成AutoML的數據分析也能如此簡單

在《鋼鐵俠》系列電影中,托尼·史塔克用全息投影顯示三維數據,用手進行拖拽調整,然後解決超級英雄遇到的問題。現在,MIT 和布朗大學的研究者合作開發了一個互動式數據分析系統,該系統可以在觸摸屏上運行,所有人(不僅僅限於托尼那樣的天才億萬富翁)都可以使用數據分析解決現實世界問題。

研究人員用數十年開發出了這款名為「北極星」(Northstar)的互動式數據科學系統。系統在雲上運行,但是它的用戶界面支持多種觸摸屏設備,包括智能手機和大型互動式白板。用戶將數據集輸入系統,然後在用戶友好的交互界面上進行操作、合併、特徵提取。他們可以使用手指或者電子筆,在分析中發現趨勢和規律。

Northstar 網址:http://northstar.mit.edu/

Vizdom demo:vimeo.com/139165014

普惠式數據分析系統

由於北極星系統的可視化拖拽特性,據北極星項目負責人 Tim Kraska 的介紹,這一系統可以使不了解數據科學的咖啡館店長預測未來幾周的銷售額,從而決定咖啡的進貨量。

北極星系統還可以對多種數據類型進行處理和預測。例如,對於醫生來說,北極星系統可以幫助他們預測病人得某種疾病的可能性,企業則可能更關註銷售額數據,而北極星也可以實現銷售額趨勢的預測。

此外,北極星系統可以在觸摸屏上交互運行,這使得多人協作成為可能。在僱傭了數據科學家的企業中,專家和非專家的溝通成本較高。但是如果有北極星系統支持,各個部門的人可以一起開會並參與數據分析工作,形成完整的協作。

拖拽協作,圖表即有

那麼,北極星系統的工作方式是什麼樣子呢?

在白板上寫寫畫畫,集成AutoML的數據分析也能如此簡單

首先,初始化的北極星系統是一個黑白界面。用戶可以將數據集上傳到系統中。在左側則會出現一個「datasets」方框。任何數據標籤都會自動出現在下方的「attributes」方框內。這裡同時會出現一個「operators」方框,包括多種演算法和新型 AutoML 工具。所有的數據都會在雲上進行分析存儲。

之後,用戶可以從數據集或屬性方框中拖拽出需要可視化的數據部分,並展示在觸摸屏上,白板的範圍可任意擴展。

在白板上寫寫畫畫,集成AutoML的數據分析也能如此簡單

用於數據分析的面板是無邊界的,只要滑動就能獲得新的空白面板。

更巧妙的是,拖拽出來的單個圖表可以和其他圖表進行聯合分析,如圖:

在白板上寫寫畫畫,集成AutoML的數據分析也能如此簡單

通過拖拽數據圖表即可分析,也可以將多個圖表拖拽到一起,實現聯合分析和可視化。

這些看起來好像都是簡單的「Excel」級操作,用來做數據分析是不夠的?在北極星系統中,其實還隱藏可視化分析的一個重要組件——可視化數據科學家(VDS)。

該組件可快速生成機器學習模型,用於對數據集的預測工作。使用 VDS,用戶可以使模型根據任務進行定製化,從而對數據進行預測性分析,這些任務包括數據預測、圖像分類或者分析複雜的圖結構。

在白板上寫寫畫畫,集成AutoML的數據分析也能如此簡單

醫療數據分析。

上圖示例展示了,醫療研究者想要基於數據集的所有特徵預測哪些病人可能患有血液疾病。他們從演算法列表中拖拽出「AutoML」。它首先生成一個具備「target」tab 的空白文本框,研究人員將「blood」特徵拖拽到「target」下面。VDS 系統可以自動找到性能最好的機器學習 pipeline,呈現為準確率經常更新的 tab。用戶可以在任何時候停止該過程,改進搜索結果,並檢測每個模型的誤差率、結構、計算等。

AI 加持,北極星大顯身手

正如上面動圖所示,VDS 通過簡單的拖拽就完成機器學習建模。最近,關於 VDS 的研究將發表在 ACM SIGMOD 上,它詳細地描述了這一靈魂性的模塊。

VDS 主要基於一種非常流行的人工智慧技術,即自動機器學習(AutoML)演算法。通過 AutoML,即使是數據科學小白也能快速構建機器學習模型,並基於它們自己的數據集完成訓練與預測。

在 VDS 採用的 AutoML 中,研究者展示了一種互動式的自動機器學習工具。這令整個 VDS 不僅關注互動式,同時還能集成系統設計與演算法設計方法。研究者表示該 AutoML 系統主要利用了 Query Optimization 的核心思想,同時還設計了一種新型選擇與剪枝策略,從而結合了基於成本的多臂老虎機與貝葉斯優化方法。

這篇 AutoML 論文主要來自 VDS 的研究者,一作尚澤遠是 MIT CSAIL 實驗室的博士研究生,他本科畢業於清華大學。希望了解更多模型細節的讀者可查閱原論文。

在白板上寫寫畫畫,集成AutoML的數據分析也能如此簡單

論文地址:https://dl.acm.org/citation.cfm?id=3319863

整個北極星系統都是 MIT 和布朗大學的研究者花了數年完成的。在過去的 4 年中,除了上面介紹的 AutoML 論文,研究者還發表了一系列相關論文,從而具體描述該系統的每一個模塊。包括互動式界面、多平台操作系統、加快推斷速度和建模用戶行為等等。

雖然北極星系統看上去很容易使用,但這種大系統有很多複雜的組件,很多都不僅僅只是機器學習演算法。但不管怎麼說,如果想要北極星能自己學習數據相關的「知識」,AutoML 還是處於核心地位。

更快更優的核心:AutoML

VDS 創造者認為,VDS 是目前最快的互動式

AutoML

工具,部分原因在於其具備定製化的「估計引擎」(estimation engine)。該引擎位於界面和雲存儲之間,它自動創建數據集的多個代表性樣本(這些樣本可被漸進式地處理),從而在幾秒鐘內生成高質量的結果。

尚澤遠表示,他用了兩年時間和其他合著者一道設計可以模擬數據科學家思維的 VDS,這意味著 VDS 能夠基於多種編碼規則,針對特定任務立刻識別需要運行的模型和處理步驟。VDS 首先從大量可能的機器學習 pipeline 中做出選擇,然後在樣本集上運行模擬,從而記住結果並改進 pipeline 選擇。在提供快速逼近的結果後,VDS 系統在後端改進結果。

如下所示為從輸入數據到輸出預測的一個物理 Pipeline,其中每一個物理 Pipeline 都是通過貝葉斯優化從邏輯 Pipeline 生成的。

在白板上寫寫畫畫,集成AutoML的數據分析也能如此簡單

Pipeline 示例:其中左邊紅色框為固定的超參數,它們將通過該有向無環圖組成物理 Pipeline;右邊綠色框為超參的分布,它們將通過該有向無環圖組成邏輯 Pipeline。

研究者在 300 個真實數據集上評估了該工具。與其他當前最優

AutoML

系統相比,VDS 近似結果具備同樣的準確率,但是它僅需數秒即可完成,速度遠超其他工具。

研究者目前正在試圖添加一個功能,提醒用戶存在潛在數據偏差或誤差。例如,為了保護病人隱私,研究者有時會將病人數據集中的樣本年齡標註為 0(如果年齡未知的話)和 200(如果年齡超過 95 歲)。但是新手可能無法識別此類誤差,而這有可能導致其數據分析完全無效。

Kraska 表示:「如果你是新用戶,你可能獲得一些你認為很棒的結果。但是我們會提醒用戶,事實上數據集中的異常值可能會導致問題。」

最後,尚澤遠等研究者的導師,MIT 的副教授 Tim Kraska 還單獨寫了一篇論文,從而概述整個北極星系統的設計理念、構成和面臨的挑戰等。

整體概述論文:Northstar: An Interactive Data Science System

論文地址:http://www.vldb.org/pvldb/vol11/p2150-kraska.pdf

參考鏈接:

http://news.mit.edu/2019/drag-drop-data-analytics-0627

http://northstar.mit.edu/

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

擁有解耦表徵的無監督學習是不可能的!硬核ICML 2019最佳論文出爐
Python並不完美,Swift正在成長為深度學習語言

TAG:機器之心 |