想要玩轉數據可視化?先弄清我們能用非結構化數據做什麼吧
我們越來越擅長理解非結構化數據,但仍未達到理想狀態。
數據可視化發展近幾年突飛猛進。企業使用愈發令人驚嘆的軟體來展現他們收集的海量信息,使用反應敏捷、互動性強、往往又非常漂亮的表現形式,讓觀看者參與進來——無論是會議室里的決策者還是科技館裡的孩子們。
數據可視化領域從業者面臨的最重要挑戰之一,就是能用非結構化數據來做什麼。非結構化數據是指所有不能納入關係資料庫的數據,包括視頻、幻燈片、公司記錄、社交媒體、RSS、文件和文本——基本上就是絕大部分的交流。
據估計,世界上80%的數據都是非結構化的,而且這一數字正迅速增長,IDC預測非結構化數據將從2015年的9.3ZB到2020年增長至44.1ZB。它對企業的重要性也同樣迅速增長著。墨爾本大學客座講師與(商業分析)研究員Ranko Cosic曾指出:「在我看來,運用數據的方式在接下來幾年中的變化將是,雖然企業會繼續收集和分析數據倉庫、傳統資料庫和關係資料庫中的結構化數據,也將更多關注收集和分析傳統網站與社交媒體網站上的以錄音、圖像、音樂、文本、視頻和互動式內容形式出現的非結構化數據。」
非結構化數據如此重要,其原因是它所提供的語境。分析結構化數據能夠告訴我們什麼正在發生,但是通過分析複雜的非結構化數據流才能知道為什麼會發生。結構化數據包含收入表現和運營指標,但是非結構化數據的文本能夠展示對公司產品的看法、員工信息和競爭優勢。
然而,對非結構化數據的分析則是一門相對來說比較新的科學,其規模和複雜性以往使得人們難以理解。高效處理非結構化數據是許多創業公司的目標,他們中的大部分現在關注於使用機器學習演算法對其進行解鎖,而不是像以前會將非結構化數據轉化為結構化數據。他們將分析和可視化都自動化,所以公司能夠立即從非結構化資料庫得到結果。
BrainSpace和DeepDive是其中取得重大進展的兩個創業公司,而且它們都獲得了大型融資。Brainspace的CEO Dave Copps告訴我們:「之前,我們能夠對非結構化數據做的只有搜索,搜集起來一堆文件,然後用關鍵詞去嘗試(搜索)。Tableau和Quickview之類的技術通常適合檢索結構化數據,但是一旦你從文件中抽出詞來看,語境就不在了。所以,比如說你在分析簡歷,如果你從一名軟體開發者的簡歷中找到了『Java』,但你不知道這個詞的存在是否只是因為那個人寫了『我的Java很差勁』。我們做的,不僅僅只是分析詞句,而是著眼於詞與詞之間的空白——語境。」
然而,我們在非結構化數據的分析上取得了一些顯著進步的同時,實際上仍未發揮信息的全部潛力。在動態數據專家Logtrust最近受委託的451研究中,有反饋的IT經理中有89%表示他們將結構化數據方案在企業中提升到很高的優先順序,然而只有43%的人認為非結構化數據方案有一樣的優先順序。
改變這些態度的關鍵就是數據可視化。像BrainSpace這樣的公司提供具有參與性、互動性的自動可視化,但仍有許多未被發現的潛力。洛克希德馬丁的首席數據科學家Walter Storm指出:「技術確實使得非結構化數據更易被分析——一大問題卻是:『這種分析有什麼用?』 主題建模、圖表分析、甚至降維和可視化都有許多藝術可言。有多少特徵?都是些什麼?深網中有多少層?有多少節點?多大的粒寬能展現良好的差異性?第二、第三順序衍生出的特徵空間中相鄰兩者之間的關係是什麼?這種演算法到底剛學習到了什麼?我的假設是什麼來著?」
探索新鮮事物是件很棒的事情,但是如果你不能說服決策者,讓他們相信你想探索的東西確實是存在的,使他們採取合適的行動,那麼這對企業來說就完全沒有意義。數據可視化是實現這一點最好的方法,它揭示了數據中無法以其它方式來理解的複雜結構。人類大腦處理信息的方式意味著,通過視覺的方式將它傳達給人們並使得他們參與其中,讓你可以描述出你所發現的模式,甚至可以發現這種模式的洞察。這也能讓更多的人更易理解數據,可能有助於提升整個企業的數據平民化,並帶來更多的洞察。
相較於傳統數字化的數據,非結構化數據可視化帶來了獨特的挑戰,且仍處於初期階段。在最近舊金山數據可視化峰會上,通用汽車的數據可視化專家Ken Cherven使用以往所有國情咨文做了示範。他的示範結果顯示了為什麼可視化對於理解非結構化數據是非常有必要的,它也為我們提供了激動人心的機會,來創造性地以之前被認為是不可能的方式來展示信息,並為我們提供從中學習的機會。
註:本文由TalkingData解決方案架構師 張雪倩 編譯,並由TalkingData投遞並授權數據猿發布,原文作者為James Ovenden
※歐盟搞了個農業大數據項目DataBio 國內相關行業依然冷清
※區塊鏈:傳統投資人的焦慮與治癒
TAG:數據猿 |