當前位置:
首頁 > 最新 > 可憋再誤會大數據分析了

可憋再誤會大數據分析了

太委屈

陶晶瑩

00:00/07:37

入坑大數據已久,路遇各種對於大數據的評論,其中不乏六月飛雪、比竇娥還冤的情形,今日稍作梳理,請各位看官評評理,大數據分析到底該是什麼樣的。

大數據=Hadoop?

二者並不等同。那究竟什麼是大數據?

百度百科的定義

大數據(big data)或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。

Gartner的定義

「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

小編認為Gartner的定義更具現實意義。

當我們提起「大數據」這個詞時,應該首先意識到,這是一種對於數據的新的處理模式,需要從數據處理的方法論層面上進行理解,而不僅僅是數據多了就行,況且在很多情況下,數據量並沒有想像得那麼多。

對於這種新的處理模式,需要更加高效的存儲和處理技術,因而Hadoop一定程度上成為了大數據時代的代名詞。但底層架構只是必要條件之一,大數據要成為有價值的信息資產,還需要數據挖掘和人工智慧等一系列的技術支撐。

歸根結底,大數據不僅僅是是基於已有數據的縱向歸類和統計,更是基於已有數據(海量或有限量)的處理,從而對還未產生的信息做出預測和推薦。

大數據就是很多數據?

並不是。大數據其實代表的是大局觀。

據豐田研討所數據科學家Jim Adler說,巨量存儲庫,一些IT經理們想像用它來存儲大量構造化和非構造化數據,基本就不存在。企業機構不會不加辨別地將一切數據寄存到一個共享池中。

Adler還說,這些數據是 「精心規劃」的,存儲於獨立的部門資料庫中,鼓舞「專註的專業學問」,這是完成合規和其他管理請求所需的透明度和問責制的獨一途徑。

更現實的問題是,現在很多客戶面臨的最大問題不是怎麼用大數據,而是小數據都沒用好的情況下怎麼用大數據。大數據應該是從小數據逐漸演變升級上去的,是一個正常的生態,而不是瞬間變化的。

因此,大數據體現的其實既是對數據本身價值的全局化理解,更是對數據價值產生的過程和環境的全局考量。

大數據分析平台應該是一鍵式自動化的?

No,no,no。不以解決業務問題為前提的大數據分析都是耍流氓。

業務問題千差萬別,即使是相同一份數據,如何分析使用它也有不少學問,只憑一種工具怎麼可能替代業務場景下最重要的人?因此,好的數據分析平台提供的應該是讓分析者可以自由暢快地探索數據的環境。

首先,在現實生活中,大數據常常不僅指是數量大,還有可能指的是數據類型的眾多,通過交叉分析才有可能發現新的規律和知識;另外從數據準備、數據收集、數據清洗、數據加工以及數據專題分析和結果可視化,數據解讀到決策調整會分出很多層次。因此,目前大數據分析過程少不了人工的參與才能實現其價值。

其次,即使是非常數量的數據分析師,在業務場景下也常常無法一次性就清楚判斷何種演算法將最適用這一輪的數據分析,而演算法的調用、修改和調優又是分析流程中門檻較高的環節,很難做到一鍵式自動。

最後,從實踐工作來看,大數據分析的能力其實亟待開放給基層業務人員,不能只局限在分析師和領導層使用,實際業務中的人才是決策的主體,通過多次的分析嘗試,在大數據支持下才有可能提升信息的產出價值,最終獲得信息的價值增量。

未來是屬於大數據的,這點毋庸置疑,但是大數據不代表徹底的顛覆,很多工作崗位依然需要很多傳統的工作方式去完成。

Hello,夥伴們


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大樹龍馬 的精彩文章:

TAG:大樹龍馬 |