MIT 新系統用機器學習實現機器學習,合成數據較好代替真實數據
新智元編譯
雖然數據科學家可以從大型數據集中得出很多洞見,並利用這些洞見應對挑戰、實現任務目標——但這談何容易! 許多這樣的努力從一開始就困難重重,因為隱私問題使科學家難以訪問他們想要使用的數據。
在一篇提交給 IEEE 國際數據科學和高級分析會議的論文中,MIT 信息和決策系統實驗室(LIDS)的 Data to AI Lab 成員 Kalyan Veeramachaneni,論文合作者、LIDS及數據、系統和社會學院(IDSS)的首席科學家 Neha Patki 和 Roy Wedge 描述了一種自動創建合成數據的機器學習系統,目的是使數據科學的努力,即使缺乏對實際數據的訪問,也不會完全和真實情況脫節。使用真實數據可能會引起嚴重的隱私問題,而這種合成數據與真實用戶所產生的數據完全不同,卻仍可用於開發和測試數據科學中的演算法和模型。
Veeramachaneni 說:「一旦我們為整個資料庫建立了模型,我們就可以取樣並再造出一個這些數據的合成版本,從統計學的角度看,合成版本看上去和原始資料庫非常像。如果原始資料庫中有一些缺失的值和一些噪音,我們還將該雜訊也嵌入在合成版本中。在某種程度上,我們正在使用機器學習來實現機器學習。」
這篇論文介紹了 Synthetic Data Vault (SDV),該系統可以從真實資料庫中構建一個機器學習模型,來創建人造或合成數據。這一演算法稱為「遞歸條件參數聚合」(recursive conditional parameter aggregation),利用了所有資料庫共有的數據層次結構。例如,它可以根據客戶交易表中的交易信息,為每個客戶形成多變數模型。
該模型捕獲這些交易中多個域之間的相關性,例如購買數額和類型,以及交易發生的時間等等。在演算法對每個客戶進行建模並組合參數後,可以自己形成這些參數的多變數模型,並對整個資料庫進行遞歸建模。一旦模型完成學習,就可以合成一個充滿人工數據的資料庫。
測試表明,合成數據能夠較好地取代真實數據
在開發了 SDV 後,該團隊使用它為五種不同的公開數據集生成了合成數據。然後,作為眾包實驗的一部分,他們聘請了 39 位獨立數據科學家,分成四個小組,開發預測模型。他們想要回答的問題是:在被給予合成數據的數據科學家和訪問真實數據的數據科學家之間,他們的工作是否存在區別?為了測試這一點,一組被給予了原始數據集,而另外三組拿到的則是合成版本,每個組使用他們的數據來解決一個預測建模問題,最終在 5 個數據集上進行 15 次測試,最後,比較他們的解決方案,可以看出使用真實數據生成的組和使用合成數據生成的組在 15 個測試中的 11 個上沒有表現出顯著的性能差異(70%)。
這些結果表明,合成數據可以成功地取代軟體編寫和測試中的真實數據——這意味著數據科學家可以使用它來克服訪問中存在的重大困難。 Veeramachaneni 說:「使用合成數據可以擺脫『隱私瓶頸』,這樣一來後續的工作就可以開始了。這對一系列行業的數據科學都會有影響。除了一些以前無法進行工作現在可以開始以外,合成數據也將使數據科學家能夠繼續進行已經開始的工作,而不會涉及到真正的潛在敏感數據。
Veeramachaneni 說:「公司現在可以創建他們數據倉庫或資料庫的合成版本了。這樣他們就可以規避諸如優步這樣的公司所面臨的問題,並使他們的數據科學家能夠繼續設計和測試方法,而不會侵害到正在使用他們服務的人士——包括他們的朋友和家人——的隱私。」
此外,Veeramachaneni 及其團隊的機器學習模型在規模上可以輕鬆縮放,創建非常小或非常大的合成數據集,適應大數據系統的快速開發周期或壓力測試。
人工數據也是教育學生的寶貴工具。真實數據對於他們的工作往往過於敏感,現在則可以有效地利用合成數據。這一創新可以讓下一代數據科學家享受大數據的所有好處,而不用承擔任何責任。
IEEE 論文:合成資料庫
摘要
本研究的目標是建立一個自動創建合成數據以實現數據科學潛能的系統。為了達到這一目標,我們提出了 Synthetic Data Vault (SDV),該系統構建了關係資料庫的生成模型。我們能夠從模型中進行抽樣並創建合成數據,因此命名為SDV。在實施 SDV 時,我們還開發了一種演算法,用於計算相關資料庫表的節點處的統計信息。然後,我們使用最先進的多變數建模方法對該數據進行建模。SDV 遍歷所有可能的關係,最終為整個資料庫創建一個模型。一旦該模型的計算完成,相同的關係信息允許SDV 從資料庫的任何部分進行抽樣來合成數據。
構建 SDV 後,我們使用它為五個不同的公開數據集生成合成數據。 然後,我們發布了這些數據集,並要求數據科學家為它們開發預測模型,作為眾包實驗的一部分。通過分析結果,我們顯示合成數據可以成功地在數據科學中替代原始數據。我們的分析表明,使用合成數據而非真實數據的數據科學家的工作沒有顯著差異。我們得出結論,SDV是合成數據生成的可行解決方案。
論文地址:http://dai.lids.mit.edu/SDV.pdf
MIT 報道文章:http://news.mit.edu/2017/artificial-data-give-same-results-as-real-data-0303
新智元招聘
職位:客戶總監
職位年薪:30 - 60萬(工資+獎金)
工作地點:北京-海淀區
所屬部門:客戶部
彙報對象:COO
下屬人數:8 人
年齡要求:25 歲 至 40 歲
性別要求:不限
工作年限:5 年
語 言:英語 + 普通話
學歷要求:全日制統招本科
職位描述:
熱愛人工智慧,在行業內有一定的人脈資源和影響力;
為客戶制定媒體關係策略和公關活動策劃,達成客戶的市場或傳播目標;
負責監督公關項目的計劃和實施,使項目能按期在預算內完成;
積極拓展客戶資源,開發公司業務,與既有客戶保持緊密的業務聯絡和溝通;
監督、管理及考核客戶服務團隊,全面提升公司客戶服務質量;
理工科背景優先,有知名企業或知名媒體機構工作經驗者優先。
※深度揭秘谷歌訓練 AI 隱藏勞力,「機器教練」只不過是廉價臨時工
※騰訊優圖連奪世界冠軍背後:百萬級人臉識別達83%,人眼只有23%|新智元專訪
※中國最大的IOT創新創業平台「AI以致用」:GMIC 2017 硬蛋AI產業應用峰會明日啟幕
※「深度」三國爭霸,兩家稱帝:BAT全球進擊,百度能否憑AI逆襲?
※如何避免人工智慧中的偏見性演算法
TAG:新智元 |
※API和機器學習如何發展 機器人是API領域中新合作夥伴
※用Python實現流行機器學習演算法
※最強神器!用Excel實踐機器學習演算法
※機器學習軟體可以「代替」實驗動物嗎?
※實例詳解:用機器學習實現IT服務票單的分配
※UPS是這樣利用AI、機器學習和大數據優化業務的
※谷歌機器學習43條規則:機器學習工程的最佳實踐經驗
※谷歌機器學習43條規則:機器學習工程的最佳實踐經驗
※機器學習經典教材PRML《模式識別與機器學習》官方開放免費下載
※AI 的偏差,取決於人們如何使用機器學習系統
※機器學習實踐-DGA檢測
※機器學習實現習題解析
※UPS如何利用AI、機器學習和大數據為第四次工業革命做好準備
※機器學習開發者應該收藏的 DIY 計算機視覺和深度學習項目
※全國MATLAB數據、圖像處理及機器學習與深度學習研討會
※研究團隊合作開發一種機器學習演算法,能夠使用AI預測智力
※什麼是機器學習
※機器學習演算法的使用以及實踐到應用
※利用機器輔助孩子閱讀 他專註研發TO B視覺AI技術方案 打造多模態交互學習體驗
※最全數據科學和機器學習工具清單