MIT推出最快AutoML交互預測工具,秒速觸屏再現《鋼鐵俠》黑科技
【新智元導讀】還記得《鋼鐵俠》中托尼·斯塔克常用的炫酷無比的全息黑科技嗎?現在,MIT和布朗大學聯合開發了一套觸屏式交互數據分析和預測系統,可能讓用戶找到一點電影中的感覺。整個系統就像一塊無限大的「互動式畫布」,僅需幾秒就能生成預測結果。
在電影《鋼鐵俠》中,托尼·斯塔克使用全息計算機將3D數據投射到空氣中,用雙手操縱,並從中找到解決超級英雄麻煩的辦法。現在,麻省理工學院和布朗大學的研究人員也開發了出一套在觸摸屏上運行的互動式數據分析系統,讓每個人都能解決現實問題。
這套互動式數據科學系統名為Northstar,在雲中運行,但系統界面支持任何觸摸屏設備,包括智能手機和大型互動式平板。用戶提供系統數據集,並使用手指或數字筆在用戶友好的界面上操作,組合和提取功能。
在ACM SIGMOD 2019上發表的該項目的研究論文中,研究人員詳細介紹了Northstar的一個新組件,有「虛擬數據科學家」之稱的VDS,它可以立即生成機器學習模型,在數據集上運行預測任務。比如,醫生可以使用該系統來預測哪些患者更容易患某些疾病,企業主可以用它來預測銷售情況。每個團隊成員都可以利用互動式設備實現實時的協作。
論文鏈接:
https://dl.acm.org/citation.cfm?id=3319863
研究人員稱,Northstar的目的是通過快速準確地進行複雜分析,推進數據科學的普及。
「即使是不了解數據科學的咖啡店老闆,也應該能夠在未來幾周內預測銷售情況,確定要進多少貨。」論文共同作者之一、長期擔任Northstar的項目負責人的蒂姆·克拉斯卡說。他還擔任麻省理工學院計算機科學與人工智慧實驗室(CSAIL)電氣工程與計算機科學副教授,新數據系統與AI實驗室(DSAIL)的創始聯合主任。「在擁有數據科學家的公司中,數據科學家和非專業人士之間有很多交流,我們可以將他們都聚到一個地方來。」
VDS基於自動機器學習(AutoML)技術開發,該技術讓數據科學基礎不高的人也能夠訓練AI模型,根據自己的數據集進行預測。目前,該工具在DARPA舉辦的D3M AutoML競賽中處於領先地位,這項賽事每六個月舉辦一次,決出性能最高的AutoML工具。
此論文作者還包括:第一作者、MIT研究生Zeyuan Shang,以及EmanS,CSAIL和DSAIL項目的博士後Emanuel Zgraggen。布朗大學的Benedetto Buratti,Yeounoh Chung,Philipp Eichmann和Eli Upfal,以及最近從布朗大學調任德國達姆施塔特技術大學的Carsten Binnig。
「一塊無限大的互動式畫布」
這項新研究是麻省理工學院和布朗大學在Northstar項目上多年合作的成果。過去四年多以來,研究人員發表了大量詳細介紹Northstar各個組成部分的論文,包括互動式界面,多平台操作、加速結果以及用戶行為研究。
Northstar的初始界面是一塊空白屏幕。用戶將數據集上傳到系統中,該數據集顯示在左側的「數據集」框中。任何數據標籤都會自動填入下面的獨立「屬性」框。還有一個「運算符」框,其中包含各種演算法和新的AutoML工具。所有數據都在雲中存儲和分析。
「這就像一塊無限大的畫布,你可以在這裡展示想要的一切。「 Northstar互動界面的主要開發人員Zgraggen說。「然後可以將所有內容鏈接在一起,創建更複雜的數據問題。」
史上最快AutoML工具:生成近似結果只需幾秒
使用VDS,用戶現在還可以通過使模型適合其任務(例如數據預測,圖像分類或分析複雜圖形結構)來對該數據運行預測分析。
比如,醫學研究人員希望根據數據集中的所有特徵預測哪些患者可能患有血液病。他們可以從演算法列表中拖出「AutoML」。首先會生成一個空白框,會帶出有一個「目標」標籤,在這個標籤下,再拖出「血液」特徵。系統將自動找到性能最佳的機器學習流程,不斷更新預測精度,並以百分數顯示在屏幕上。用戶可以隨時停止這個過程,進行優化搜索,並檢查每個模型的錯誤率、結構、計算和其他事項。
研究人員表示,VDS是迄今為止速度最快的互動式AutoML工具,部分原因是他們的定製化「估計引擎」的作用。該引擎作用於用戶交互界面和雲存儲之間,能夠自動創建數據集的幾個有代表性的樣本,以便逐步處理,在幾秒鐘內就能生成高質量的結果。
「我們花了兩年時間設計VDS,模仿數據科學家是怎麼想的,」論文第一作者Zeyuan Shang說,也就是說針對某項特定任務,VDS可以立即基於一系列編碼規則,判斷出應該/不該使用哪些模型,實施哪些預處理步驟。它首先從那些可能的機器學習流程的大量列表中進行選擇,並在樣本集上運行模擬。同時記住結果並改進選擇方案。在迅速提供一個近似結果後,系統會在後端對結果進行細化,但最終結果通常與第一次近似結果非常接近。
「用戶使用預測器,肯定不希望等四個小時才獲得第一個結果。他們希望已經看到預測的過程,如果發現錯誤,可以立即糾正。這在任何其他系統中通常是不可能實現的。「Kraska說。
研究人員在300個真實數據集上對VDS工具進行了評估。與其他最先進的AutoML系統相比,VDS給出的預測近似結果精度相當,但用時僅幾秒鐘,比其他工具(幾分鐘到幾小時)快得多。
未來,研究人員還準備為該工具添加一項新功能,提醒用戶潛在的數據偏差或錯誤。比如,為了保護患者隱私,研究人員有時會在醫療數據集中將患者的年齡標記為0歲(表示年齡未知)或200歲(表示患者年齡超過95歲)。新手可能無法識別這樣的「錯誤」標記,這種標記可能會對分析造成很大幹擾。
「對於新用戶來說,你可能會覺得獲得的結果已經很棒了,」Kraska說。「但我們希望可以提醒用戶,實際上數據集中可能存在一些異常值,表明存在某些問題。」
參考鏈接:
Techcrunch:
https://techcrunch.com/2019/06/27/mits-new-interactive-machine-learning-prediction-tool-could-give-everyone-ai-superpowers/
MIT:
http://news.mit.edu/2019/drag-drop-data-analytics-0627
論文地址:
https://dl.acm.org/citation.cfm?id=3319863
※螞蟻金服漆遠:AI金融一秒核實2小時到賬,99%準確率
※CVPR 2019 Kaggle冠軍中國團隊深藍科技乾貨分享
TAG:新智元 |