當前位置:
首頁 > 科技 > 數據可視化實踐之美

數據可視化實踐之美

隨著DT時代的到來,傳統的統計圖表很難對複雜數據進行直觀地展示。這幾年數據可視化作為一個新研究領域也變得越來越火。成功的可視化,如果做得漂亮,雖表面簡單卻富含深意,可以讓觀測者一眼就能洞察事實併產生新的理解。可視化(visualization)和可視效果(visual)兩個詞是等價的,表示所有結構化的信息表現方式,包括圖形、圖表、示意圖、地圖、故事情節圖以及不是很正式的結構化插圖。

基本的可視化展現方式,如條形圖、折線圖、餅圖、雷達圖可以很容易通過各種軟體(如Excel)容易生成,這些方法是常見可視化問題的良好且強大的解決方案。然而,使用這些方法的最佳方式局限於一些特定的數據類型,而且其標準型和普遍性意味著它們基本無法達到新穎性。如果對地理空間數據、社會網路關係、多維數據進行可視化,直觀地傳遞數據期望表達的信息是需要特定的圖表類型來展示。

讓我們一起來看幾個經典的可視化,觀測它們是如何充分利用其源數據結構的。

1.「美國大選」數據可視化

在美國大選期間,美國媒體做了不少與之相關的數據報道,讓我們來回顧一下,他們是如何將美國大選的數據可視化的吧!

下圖為各洲「選舉人票」的佔比情況。作者設計了兩種表現方法,一是以「選舉人票」的分布做為底圖,一是直接以美國地圖作為底圖。除此圖上方雙方選舉人票總體數量對比外,滑鼠移至各洲上方還能顯示各洲「選舉人票」數量及對希拉里與特朗普的支持比例。

GIF/415K

關於第三方選舉人影響的情況(在只有兩種選擇和有四個選舉人的情況下,選民的態度又是怎樣呢?)

GIF/120K

特朗普的粉絲更多的是公立學校出身,而希拉里的則大都為精英階層。

希拉里的粉絲大都較為「書生氣」,使用與書籍相關的辭彙,其中有很多被認證為教授或博士;而特朗普的粉絲更加喜歡流行文化,他們可能同時是流行歌手的粉絲,也更加關注球類運動等。

2. 社會關係可視化

社會網路分析(SocialNetwrok Analysis,SNA)是在傳統的圖與網路的理論之上對社會網路數據進行分析的方法。隨著人類進入了移動互聯網時代,社會網路數據成了重要的數據資源。SNA的本質是利用各樣本間的關係來分析整體樣本的群落現象,並分析樣本點在群落形成中的作用以及群落間的關係。

近幾年手機端網遊越來越重視遊戲用戶社交性設計。這款遊戲的玩法設計特彆強調強社交性:用戶可以在遊戲內組建家族,家族成員有不同的職務等級,用戶也可以在遊戲內給好友贈送道具。我們從資料庫中收集抽取了部分用戶的家族數據(Nodes)和好友溝通數據(Links)。其中Nodes數據集包括Id(用戶ID)、Label(用戶名稱)、Group(所屬家族)、Level(等級)的信息;Links數據集包括Source(發起方)、Target(接收方)和Weight(鬥氣數量)信息。

從網路圖可以看出,不同家族的成員基本緊密聯繫在一起,並通過一些關鍵成員與其他家族成員聯繫。例如我們發現右下角的那個社群的成員先通過user1用戶、再通過user12用戶跟其他社團成員聯繫在一個大網路圖中。

我們也可以用Gephi軟體快速繪製社會網路圖,並對其進行美化。

3. 地理信息可視化

在第一個例子中,我們已經見識到了地理信息可視化的魅力。接下來我們簡單了解下如何利用Remap包快速繪製可交互的地圖數據可視化。目前託管在github,https://github.com/lchiffon/REmap。

百度遷徙圖是近年來非常流行的一種地理信息可視化,可以通過連線動態查看人口流向。此處給大家繪製一幅動態航班圖的地理信息可視化圖,大家點擊linkhttp://langdawei.com/REmap/REmapExamples/Nanchang/html/demo1.html可查看動態效果。

還可以把一些各地舉行的會議事件在地圖上進行可視化展示,下圖是2015年中國R語言會議在各個城市舉行的可視化展示。點擊linkhttp://langdawei.com/REmap/REmapExamples/Nanchang/html/7COS.html查看動圖。

城市熱力圖也是近年來非常流行的一種地理信息可視化方式,通過顏色的深淺表示不同地區的實際數值大小。點擊linkhttp://langdawei.com/REmap/REmapExamples/Nanchang/html/1GDP.html查看動圖。

通過以上的幾個小例子,相信大家已經驚嘆於上面的可視化效果,給人眼前一亮、耳目一新的感覺。以上可視化並未運用到很高深的技術,如果你也掌握以下一些可視化知識,也能繪製出以上圖表的效果。接下來,就給大家介紹幾個常用的交互數據可視化手段:D3、Echarts和R(R是一款數據分析挖掘軟體,但是其擁有強大的可視化功能,並能集成D3、Echarts圖庫,實現交互繪圖)。

D3 是最流行的可視化庫之一,它被很多其他的表格插件所使用。它允許綁定任意數據到DOM,然後將數據驅動轉換應用到Document中。你可以使用它用一個數組創建基本的HTML表格,或是利用它的流體過度和交互,用相似的數據創建驚人的SVG條形圖。

比如D3可以非常容易地繪製交互桑基圖。桑基圖(Sankey diagram),即桑基能量分流圖,也叫桑基能量平衡圖。它是一種特定類型的流程圖,圖中延伸的分支的寬度對應數據流量的大小,通常應用於能源、材料成分、金融等數據的可視化分析。桑基圖最明顯的特徵就是,始末端的分支寬度總和相等,即所有主支寬度的總和應與所有分出去的分支寬度的總和相等,保持能量的平衡。點擊linkhttps://bost.ocks.org/mike/sankey/查看動圖。

可以通過D3對SunburstPartition可視化探索。通過解析布點獲得的用戶行為路徑數據,我們可以用最簡單與直接的方式將每個用戶的事件路徑點擊流數據進行統計,並用數據可視化方法將其直觀地呈現出來。 D3.js是當前最流行的數據可視化庫之一,我們可以利用其中的Sunburst Partition來刻畫用戶群體的事件路徑點擊狀況。從該圖的圓心出發,層層向外推進,代表了用戶從開始使用產品到離開的整個行為統計;Sunburst事件路徑圖可以快速定位用戶的主流使用路徑。通過提取特定人群或特定模塊之間的路徑數據,並使用Sunburst事件路徑圖進行分析,可以定位到更深層次的問題。靈活使用Sunburst路徑統計圖,是我們在路徑分析中的一大法寶。點擊linkhttps://bl.ocks.org/mbostock/4063423查看動圖。

ECharts,縮寫來自Enterprise Charts,商業級數據圖表,一個純Javascript的圖表庫,可以流暢的運行在PC和移動設備上,兼容當前絕大部分瀏覽器(IE6/7/8/9/10/11,chrome,firefox,Safari等),底層依賴輕量級的Canvas類庫ZRender,提供直觀,生動,可交互,可高度個性化定製的數據可視化圖表。創新的拖拽重計算、數據視圖、值域漫遊等特性大大增強了用戶體驗,賦予了用戶對數據進行挖掘、整合的能力。

ECharts3還新增更多圖表類型,更好的滿足不同數據的處理需求更多的搭配方案讓你的數據呈現方式更個性和完美。

R語言是一套開源的數據分析解決方案,幾乎可以獨立完成數據處理、數據可視化、數據建模及模型評估等工作,而且可以完美配合其他工具進行數據交互。5) R語言擁有頂尖的製圖功能。不僅有 lattcie包、ggplot2包對複雜數據進行可視化,更有rCharts包、recharts包、plotly包實現數據交互可視化,甚至可以利用功能強大的shiny包實現R與web整合部署,構建網頁應用,幫助不懂CSS,HTML的用戶能利用R快速搭建自己的數據分析APP應用。

比如我們可以繪製動態交互的氣泡圖,通過下面的時間軸播放動態查看不同年份的氣泡情況。

也可以利用networkD3包調用D3.js庫,繪製社會網路圖和桑基圖。

好了,以上就簡單介紹了幾種這幾年比較流行的數據展現方式和常用的工具,後續會給大家陸續帶來詳細的技術實現。

來源:中國統計網

2017量化交易零基礎實訓營

怎樣動手編寫一套可用於實戰的量化模型?

怎樣理解進出場規則、止損止盈、倉位調整等各組成部分的本質?

如何做歷史測試?如何評價策略?如何解讀測試報告?

實戰中如何設置頭寸、資金管理?

如何優化與改進策略……

2017年7月22日 濟南

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據實驗室 的精彩文章:

加拿大研究員使用自然語言對抗生成中國古詩詞
孫正義:未來30年的人工智慧和物聯網
21世紀最大風險:精英階層製造大量人工智慧,絕大多數人淪為無用階層,數億人將失業
陳省身——什麼是幾何學
程序員搞笑故事:給女兒織的辮子????,你知道是什麼演算法嗎?

TAG:大數據實驗室 |

您可能感興趣

教你實現數據集多維可視化
數據差異的可視化
互聯網項目中針對數據分析和數據可視化實現的重要意義
冬奧會中的數據可視化
可視化數據中的不確定性
話說安全數據可視化
數據可視化分析工具實現精準營銷
數據可視化:基於網路爬蟲製作可視化圖表
數據中心的進化史
大數據監控平台實踐之路
銀行大數據風控應用實踐與思考
如何在美帝找數據可視化工作?不藏私大公開
視頻監控系統智能化與大數據分析
大數據可視化大屏設計經驗,教給你!
數據+進化演算法=數據驅動的進化優化?進化演算法PK數學優化
數據+進化演算法=數據驅動的進化優化?進化演算法PK數學優化
融合之路—視頻結構化:AI與視頻大數據的美妙結合
數據可視化,難點在哪兒?
麥當勞首席數據智能官蔡棟:實體產業的數字化改造非常困難,要具備大數據戰略
數據中心網路運維可視化新技術漫談