微軟亞研院20周年獨家撰文:數據智能的現在與未來
雷鋒網按:今年是微軟亞洲研究院(MSRA)20周年,站在這個大節點上,MSRA副院長張冬梅以及她的團隊寫了這篇有關數據智能的文章,對該領域的發展和未來進行梳理。本文貢獻者:崔為瑋,韓石,林慶維,樓建光,徐勇,張冬梅,張海東,朱斌。本文由雷鋒網首發。
我們正處於大數據和數字化轉型的時代:數據無處不在;運用數據驅動的思想和策略在實踐中逐漸成為共識;數據的價值已在科學研究和工商業的不同領域得到充分展現。然而,如果無法從數據中提取出知識和信息並加以有效利用,數據本身並不能驅動和引領數字化轉型取得成功。如何讓數據發揮它最大的價值?「數據智能」(Data Intelligence) 應運而生。
數據智能是一個跨學科的研究領域,它結合大規模數據處理、數據挖掘、機器學習、人機交互、可視化等多種技術,從數據中提煉、發掘、獲取有揭示性和可操作性的信息,從而為人們在基於數據制定決策或執行任務時提供有效的智能支持。
如果將數據視為一種新的「石油」,那麼數據智能就是「煉油廠」。數據智能通過分析數據獲得價值,將原始數據加工為信息和知識,進而轉化為決策或行動,已成為推動數字化轉型不可或缺的關鍵技術。數據智能的重要性越來越凸顯,並在近年來取得快速發展。
數據智能技術賦予我們探求數據空間中未知部分的能力,在不同領域裡蘊育出巨大的機會。眾多基於互聯網的新型業務,包括搜索引擎、電子商務以及社交媒體應用等,從本質上就是建立和運作在數據智能的基礎之上。
數據智能技術正在重塑傳統的商業分析或商業智能領域。根據Gartner的調研,一種新的 「增強分析」的分析模式正在顛覆舊有方式,預計在幾年內將成為商業智能系統採購的主導驅動力。這種「增強分析」模式正是由數據智能技術賦能,提供了自然語言查詢和敘述、增強的數據準備、自動的高級分析、基於可視化的數據探索等多種核心能力。
那麼,數據智能領域的技術進展如何?未來,數據智能的研究又有哪些熱點?
數據智能的技術進展
數據智能相關的核心技術大致可以分為數據平台技術、數據整理技術、數據分析技術、數據交互技術、數據交互技術、數據可視化技術等部分。與傳統意義上的數據處理、數據分析相比,數據智能面臨很多新挑戰、新問題。在解決這些問題和挑戰的過程中,各種技術創新層出不窮。
大數據系統與平台
為了支持大規模的數據處理與分析任務,全新的數據存儲系統需要能夠容納和支持高效數據吞吐、高可伸縮性和高容錯性。傳統的資料庫OLTP面向交易型需求而設計,無法滿足大數據統計分析類的查詢需求和應用。當前的大數據系統更加強調讀寫效率、數據容量以及系統的可擴展性。具體來說,將數據分割成塊,並將每塊複製多份後分散到不同物理機器上存儲,用冗餘的數據塊來防止因個別機器損壞對數據完整性的影響。數據的冗餘保存不但提高了系統的可靠性,同時也可以提高了系統在數據讀取時的並發性能。另外,為降低成本,現代的大數據系統運行在價格相對低廉的普通伺服器上;這些機器通過高速網路連接,實現高效的數據傳輸。
處理和分析大數據涉及大量的計算,催生了很多分散式NoSQL數據處理系統。在計算模型上,MapReduce的推出給大數據並行處理帶來了革命性的影響。在MapReduce基礎上進一步提出了新的計算模型Spark。Spark充分利用在內存中計算的優勢,並且大大優化了原來MapReduce中Shuffle所帶來的效率問題。經過幾年的發展,Spark已經替代MapReduce成為業界最為重要的大數據處理框架,並且發展了非常豐富的應用生態。
此外,基於流 (Streaming) 的計算模型被開發出來以支持不斷變化和更新的大數據應用。在流計算模型中,為了達到更實時的更新,每到達一個數據事件的時候就進行一次處理。Spark Streaming、Storm、Flink都是比較流行的流計算平台。
在支持對大數據進行在線互動式的查詢和分析方面,來自不同領域的技術正在快速融合,共同構建更加實時高效的大數據交互查詢平台。以ElasticSearch為代表的一類技術,借鑒搜索系統的索引構架和技術,對大規模非結構化和半結構化數據進行分塊、索引來支持快速查詢。以Spark Kylin為代表的另一類技術則將傳統的數據立方體技術推廣到大數據領域,通過將預先計算的部分數據立方體緩存起來,大大提高了運行時的查詢速度。
隨著技術的發展,對數據進行高語義級別的自動分析變得越來越重要。自動分析技術往往需要頻繁計算在不同查詢條件下的聚合結果,一個分析查詢可能涉及成百上千次簡單的聚合查詢。這就對查詢性能提出了更高的要求。為了解決這個問題,同時也考慮到大數據分析中絕大多數任務對數據的完整性不太敏感這一特點,學術界又提出了BlinkDB、BigIN4等技術和系統,希望利用通過採樣或者預計算得到的部分數據來對用戶的查詢結果進行估計,從而達到快速計算的目的。其中BlinkDB試圖利用分層採用的方法來減少估計的誤差,而BigIN4則試圖通過貝葉斯估計方法來優化用戶查詢的估計誤差。
基於自然語言的交互
為了降低數據分析的門檻,使用自然語言作為交互方式顯然是一個理想方案,可以極大地方便普通用戶快速、有效地進行數據探索與數據分析。近年來,隨著自然語言處理和人工智慧技術的快速進步,使用自然語言來查詢和分析數據變得更加可能。
自然語言數據分析要解決的最重要的問題是語義解析。語義解析技術是將自然語言直接轉化成可以執行的程序 (例如 SQL語句)。基於關係資料庫/數據表的語義解析技術是解決自然語言互動式查詢的重要途徑。早期主要採用基於模式匹配的方法,後來出現了基於語法分析與語義分析的第二代方法。
近年來,隨著深度學習技術的發展,湧現出了一系列的端到端的語義解析模型。一般的端到端模型採用sequence-to-sequence的方法,將自然語言進行序列編碼,然後逐步生成SQL語句,但是這種方法的缺點是容易產生不正確的或者不可執行的SQL語句。因此,在端到端的方法的基礎上會融合各種知識來減少搜索空間,增加約束,包括嵌入SQL語法知識,引入表格信息,甚至是引入外部的知識庫,比如WordNet。
分析的自動化
數據分析是數據智能中最核心的部分,大致可以分為描述性分析、診斷性分析、預測性分析、指導性分析等四個類別,每個類別基於數據回答不同的問題,難度越來越大,所能帶來的價值越來越高,所使用的技術也越來越複雜。數據智能分析工具的發展經歷了如下四個重要的階段和層次。
階段1:數據智能專家深入學習和了解特定領域的問題,構建端到端 (end-to-end)的分析流程和平台,以特定領域的數據分析師為主要用戶,以解決特定領域的專業問題為主要任務。
階段2:數據智能專家通過對各個領域的深刻總結,提煉出在不同領域的任務中所共同依賴的一些必要的需求單元,比如分布差異分析、主驅動因素分析、預測分析等等。把各個需求單元對應的數據智能技術以積木塊搭建的形式組成一個分析平台,提供給各個領域使用。用戶按照自己分析任務的需求,可以在分析流程中選擇相應的技術模塊。
階段3:進一步發揮機器的「智能」性,在分析任務的各個環節,通過主動提供相關洞察 (Insight) 的形式,為用戶的下一步決策或行動提供信息充足的引導性建議,從而更大程度地提高人類智能與機器智能的互補,完成更高效的協作。
階段4:在前三個階段中,數據的處理、特徵的選取、模型的設計以及參數的優化等等核心環節嚴重依賴於機器學習專家的知識和技能。隨著機器學習理論的進一步發展,Auto ML技術開始出現並發展起來,其核心是基於對已有機器學習成果的總結,將上述重要環節進行系統化的抽象,並結合不斷快速發展的計算機處理能力,使其逐漸自動化,從而進一步降低數據智能模塊的開發門檻,拓寬對長尾任務的支持,推動人類智能和機器智能的進一步融合,也使不同領域的普通用戶以自助方式按需定製針對具體任務的數據智能模塊變得可能。
數據融合的自動化
如何有效整理、融合如此多樣且繁雜的數據對於數據智能領域非常重要。數據融合的相關技術在整體上需要解決以下關鍵問題。
首先,在機器從數據中獲取智能之前,機器能夠正確地讀懂各種各樣的數據。對於機器友好的數據是類似關係資料庫的結構化數據。然而,現實世界裡存在著大量的非結構化數據,比如自然語言的文本;還有介於兩者之間的半結構化數據,比如電子表格。目前機器還很難理解這些非結構化的方面,需要將數據處理成對機器友好的結構化數據,機器才能發揮其特長,從數據中獲取智能。非結構化數據、尤其是半結構化數據向結構化數據的轉化,是實現數據智能不可或缺的先決任務。
其次,數據並不是孤立的,數據智能需要充分利用數據之間存在的關聯,把其他數據源或數據集所涵蓋的信息傳遞並整合過來,可以為數據分析任務提供更豐富的信息和角度。
最後,數據並不是完美的,提前檢測並修複數據中存在的缺失或錯誤,是保障數據智能得出正確結論的重要環節。
數據可視化
數據可視化本質上是為了感知和溝通數據而存在的,涉及到不同的領域,諸如人機交互、圖形設計、心理學等。在當前大數據盛行的時代,數據可視化逐漸嶄露頭角,扮演著越來越重要的角色。
可視化技術用於分析,已成為數據智能系統不可或缺的部分。這些技術通常會集成在一個圖形界面上,展示一個或多個可視化視圖。用戶直接在這些視圖上進行搜索、挑選、過濾等交互操作,對數據進行探索和分析。可視化工具進一步趨於簡單化、大眾化,使一些高階的分析變得更加簡單。一些高級的可視化設計,如 Word Cloud、Treemap、Parallel Coordinates、Flowmap、ThemeRiver等,也逐步成為主流。
在決策過程中,可視化也發揮著重要的作用,它能將信息展示得更準確、更豐富、更容易理解,從而極大提高人與人之間的溝通效率。可視化敘事 (visual storytelling) 研究如何將可視化用於信息的展示和交流。 當今主流的數據分析平台,例如Power BI、Tableau、Qlik等,都提供了可視化敘事的模式。可視化敘事的研究目前還處在一個比較早期的階段,人們還在探索它的各個方面,例如修飾形式、敘事方式、交互手段、上下文、記憶性等。如何評估一個可視化敘事也有待進一步研究。
基於隱私保護的數據分析
近年來,隨著數據隱私問題成為關注的焦點,以及相關數據保護的立法 (比如GDPR) 開始實施,研究人員開始積極探索保護隱私的數據分析技術,即在保護數據隱私的情況下,對數據進行管理和處理。
一個方向是提供可信計算環境去執行敏感操作。用戶的數據始終是加密的,只有在可信計算的環境中才會解密及處理。
另一個方向是直接對加密數據進行處理得到想要的結果,因為數據沒有解密,隱私得到了保證。選擇性加密技術早已廣泛應用於多媒體內容保護,但很難擴展到其他類型的數據。另一種適用性更廣的方法是同態加密,它允許對密文進行某些同態操作,例如加法和/或乘法,使得密文下的運算結果在解密後與對明文執行相應操作的結果一致。
數據智能技術的未來熱點
數據智能研究契合當今大數據時代各領域、各行業從數據中挖掘、實現價值,進行數字化轉型的迫切需要,因而在近年來得到了充分重視,發展迅速。隨著數據智能在更多領域的落地和發展,新的應用和場景、新的問題和挑戰將進一步激發和驅動數字智能研究保持強勁的發展勢頭,邁向更高的層次。展望未來,數據智能技術將朝著更自動、更智能、更可靠、更普適、更高效的方向繼續發展。
熱點1:在更高的語義理解水平上進行分析
為了更加智能地分析數據,需要對數據有更加豐富的語義理解。與知識圖譜 (Knowledge Base) 不同,雖然數據分析中最常用的關係數據模型也是對實體和關係的建模,但是關係數據模型的建模是為查詢和存儲性能而優化的,往往丟失了大量語義信息。如何引入領域知識和常識型知識對於更好地理解數據至關重要。
如何從表格數據和其他容易獲得的文本數據 (如web網頁) 中自動獲取語義信息來增強和豐富表格數據是一個需要研究的重要方向。比如,確定表格中行或列的實體類型 (包括人名、地名、機構名等命名實體以及時間、地址、貨幣等數據類型)。表格往往不具有文本中的豐富的上下文信息,因此表格中的實體識別不同於其他自然語言處理任務中的實體識別,十分具有挑戰性。除了處理實體識別外,數據表格中實體關係的挖掘和分析也至關重要。充分挖掘實體之間的關聯關係可以完成一些實體類型的推薦和回答數據分析的問題。
熱點2:構造通用知識和模型的框架
人類對知識和方法能夠舉一反三,觸類旁通。具體到數據分析領域,分析中用到的知識和模型需要在不同數據對象和分析任務之間共享和遷移。在機器學習領域,已經有很多相關工作,也提出了一些方法,比如遷移學習、多任務學習、預學習模型等等。要實現這個「舉一反三」的目標,除了需要深入研究具體的機器學習演算法,也需要從模型和知識的框架體系來思考,研究適合數據分析領域的通用知識和模型的原語體系,以及知識和模型的遷移共享的統一框架。
熱點3:建立高質量的訓練數據集和基準測試數據集
由於訓練數據的缺乏,人工智慧、深度學習等技術在數據智能領域的進一步應用遇到了很大的困難。正如ImageNet數據對於計算機視覺領域的研究起到了顯著的推動作用一樣,數據智能領域的研究也亟需建立起一整套公用的大規模、高質量的訓練數據集和基準測試數據集。一旦有了豐富的訓練數據,數據智能領域的很多研究,諸如自動分析、自然語言交互、可視化推薦等等,將會取得突破性的進展。
熱點4:提供具有可解釋性的分析結果
用戶將不再滿足於僅僅依賴黑盒式的智能、端到端地作用於整個任務,而需要更細粒度的、有針對性的、更透明的數據智能。例如,數據智能用於財務審計系統中,準確推薦最有風險的交易記錄進行優先審查,以達到在最小化系統風險的前提下,最大化審計效率。在這類系統的研發中,需要構建可理解性強的模型。在推薦高風險交易記錄的同時,盡量提供系統是依據哪部分信息、通過怎樣的邏輯判斷這是一條高風險交易的相關依據。這與過去通常使用的黑盒技術路線有了明顯的變化,將成為今後技術發展的一個趨勢。
熱點5:人類智能和機器智能更加緊密融合
現有人工智慧技術從本質上依然只是被動服從人類設定的既定邏輯然後自動地運行,歸根到底還是無法突破人類傳授的學習框架,沒有創造力。因此在可預見的未來,數據智能將依然無法擺脫人與機器協作的模式,需要全面地總結人類在數據分析方面的智能和經驗,便於轉化為機器演算法,系統化地集成到已有的智能系統當中。
熱點6:強大的指導性分析成為主流
數據分析的核心目標之一便是指導行動,無論分析得有多好,如果不採取行動,那麼分析的價值就不會得到實質的體現,這就是指導性分析的重要價值所在。
例如,根據詳盡的分析,數據智能預測某品牌在接下來一個季度的銷量會下滑10%。如果分析任務結束於此,那麼數據智能並沒有盡到全部的責任,人還需要根據後續分析結合自己的經驗去搞清楚怎樣才能減輕甚至避免潛在的銷量下滑。相應的指導性分析可以是,如果想保持下季度銷量不下滑,應該採取怎樣的行動。指導性分析的結果可以是把某一類子產品的產量減少20%,同時把另兩類子產品的產量各增加10%等等。
現在的數據智能技術在給出指導性分析的同時,並沒有具備足夠解釋性的模型,無法提供充足的依據,從而不足以讓人類用戶充分信任自動推薦的結果。提供具有更好解釋性的指導性分析是一個趨勢。
熱點7:基於隱私保護的數據分析更加成熟完善
通過從立法、技術、到用戶參與等全方位的共同努力,隱私保護將被進一步納入到未來的數據分析中。從技術層面, 應該確保個人數據由數據主體控制如何收集、管理、處理和共享,並在整個生命周期得到保護,同時應開發並部署保護隱私的數據處理技術,以便在保護隱私的前提下,數據得以處理並獲得想要的結果。
熱點8:智能分析助手得到普及
智能代理 (Intelligent Agent) 技術與數據分析技術的融合是一個重要的方向。在不久的將來,智能的數據分析助手能夠幫助人類更加高效地分析和利用數據。
這些數據分析智能助手通過自然語言對話的方式與人交流數據分析的任務和結果,理解分析的背景和上下文,可以完成人類交給的特定數據分析任務 (根據分析的語義層級不同,可分為基本分析命令和高級數據挖掘任務),也可以把具有商業價值的數據事實推薦給相關人類用戶 (比如自動從數據中挖掘到的數據洞察),並對某些數據事件做出智能判斷和適當的反應 (比如自動對數據中需要注意的變化進行提示和警報)。這樣的智能體還具有一定的學習能力,能夠通過與人類分析師的對話交流積累特定領域的知識,從而能夠更加具有針對性和更加智能地進行自動數據分析。
熱點9:協作化的可視分析
隨著各種溝通工具的興起和普及,協作化的可視分析會成為熱點。不同於傳統的面對面、小規模的協作,新的協作分析往往是非同步的和大規模的,人們在不同的時間和地點,使用不同的設備,對同一個數據進行可視分析。在此過程中,如何協調人們的協作?如何避免重複性的工作?如何保證不同人在不同的顯示終端上看到的數據是一致的?如何共享各種信息?如何搭建一個高效的協作平台?這些都是需要解決的技術挑戰。
熱點10:可視化將無所不在
在更長遠的將來,我們相信可視化終將變得透明。就像文字和語音一樣,廣泛滲透到我們的日常生活中。為此需要有三個方面的技術儲備:
首先,可視化視圖必須能夠被快速地生產和消費。目前,多數可視化視圖的生成還是離不開人的參與,但是在人工智慧的幫助下,未來在人工智慧的幫助下,可視化視圖將能被大規模和精確地生成,從而大大降低可視化創作的開銷。
其次,要進行交互方式的變革。傳統的基於鍵盤、滑鼠的交互模式不是最自然的方式,各種人類更習慣的方式 (例如手勢、筆紙、觸控等) 需要慢慢演化成更成熟的交互手段。
最後,需要顯示設備的普及。顯示設備終將被集成到人的生活中去,無論是穿戴式的、手持的,還是出現在人們日常生活的物品表面上的。只有當顯示設備無處不在的時候,可視化才能真正變成一種溝通的基本方式。
※第三代產品發布,Pony.ai亮相中國首支運營產品化無人車隊
※蘋果財報將不再公布 iPhone、iPad、Mac 銷量,到底是為什麼?
TAG:雷鋒網 |