當前位置:
首頁 > 最新 > 數據挖掘到底挖什麼?

數據挖掘到底挖什麼?

經常說數據挖掘可以從海量數據中得到人腦思考不到的規律和洞見,可以實現預測,這個說法還是很籠統,具體能得到什麼規律和洞見?怎麼預測?在具體例子上也許能想明白,但缺乏理論化的系統理解。

數據挖掘到底挖什麼?有什麼用?將近日學習的內容試著梳理總結一下。

發現數據特徵

從一張數據表格中發現規律、總結特點,這個人腦就能幹,日常工作中我們經常干這個。但是如果數據量太大,你可能就看不出來規律了,這時候通過計算機演算法從海量數據中發現人眼看不出來的特徵,這個是數據挖掘可以做的。

比如說京東想總結一下平台上年消費萬元以上的用戶有哪些特點,性別,年齡,住址,城市,等等,很多維度都可以去分析。比如我們可以分析去年北京交通違法人員的特點。總結出數據特徵之後就可能發現一些規律,用以指導我們的營銷或者管理工作。當然這個是數據挖掘裡面比較簡單基本的應用。

二挖掘事件發生的頻繁性和相關性

現實世界裡反覆發生的事兒,或者經常一起發生的兩件事、三件事,或者發生了A事件之後經常發生B事件,這些情況都是需要引起我們注意的,因為明顯這裡面有規律,為什麼可以不知道,但這種頻繁性和相關性,是可以指導我們更好的做事情的。

數據挖掘很重要的一個作用,就是從海量事件數據中發現頻繁性和相關性。這個經常需要更多的數據源在一起碰撞。比如哪些商品人們會傾向於一起購買。比如交通違法與季節、天氣、年齡、職業等因素有沒有聯繫。我們可以設置一些變數、屬性,放在一起去分析,也許就會發現意想不到的規律。

三分類與回歸,主要用於預測和識別

分類和回歸,主要是將海量數據作為學習集、訓練集,運用機器學習演算法(比如決策樹、神經網路等等),擬合出超級函數(可以參見之前的學習筆記)。這樣再有新的數據進來,就可以用來預測結果。

舉個例子,比如車輛識別中很重要的一部分是車型識別,以薩公司目前已經做到識別9萬多種車型,什麼概念?就是把每種車型作為函數值,把對應車型圖像數據化並提煉特徵屬性作為自變數,通過機器學習產生使二者對應的函數。今後再新來一輛車,就把它的特徵數據輸入函數,輸出對應的車型。這個實質上就是分類問題,用原有海量數據分了9萬多類,然後再新來一個就對應歸類。

回歸和分類的原理是一樣的,只不過分類的結果是離散的值,也就是類別。而回歸的結果是連續的數值。比如某公司想通過往年的數據預測今年的銷售額,銷售額是連續數值,這個就叫回歸。

四聚類

分類和回歸運用的數據一般是比較規範清晰的數據集(學習集、訓練集),哪些是自變數,哪些是因變數,很清晰,目的也很明確,就是計算預測模型。

但是還有些海量數據是散亂毫無頭緒的,我們也不知道怎麼分類。對此類數據的挖掘可能就需要聚類,就是通過演算法把相近的數據項、類似的事件組織在一起,形成一堆一堆的數據,術語叫「簇」。我們也不知道每個簇應該如何定義,反正「物以類聚,人以群分」,海量數據很多有這樣的分布特點。

找到這種數據分布規律,是有現實意義的,我們可以把海量的人和物分成簇,單獨研究每個簇的共同規律,有針對性的進行管理。例如可否對海量交通違法行為數據進行聚類分析,我也不知道結果如何,也許會形成「簇」,也許沒有,如果有明顯的「簇」,說明有規律可循,就可以繼續分析,找到規律,採取措施增強執法針對性。

五離群點分析

離群點分析與聚類是一枚硬幣的兩面。海量數據中一定包含個別數據項,與數據的一般模式不一致,也就是聚類以外的數據點,稱為離群點。有時候我們關注聚類,將離群點捨棄掉。但有時候可能罕見的事件比正常出現的事件更讓人感興趣,比如異常識別。

比如,我們公安部六合一交通執法系統,民警網上辦理相關執法審批手續的流程數據肯定是有一定規律的,如果聚類分析,一定會形成「簇」,這時候對於個別離群點應當關注,因為那有可能是違規操作,基於此可以形成一定的監督預警措施。銀行的交易數據也一樣,那些聚類之外的離群點,有可能是異常操作,可以發現金融犯罪的蹤跡。

數據挖掘的應用場景很多很多,具體挖什麼,要根據實際需要而定,但大體可以歸到上述幾類。充分理解上述幾種類別,有助於針對實際進行數據挖掘時,找准方向和方法。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 小白大亮學習筆記 的精彩文章:

聆聽交通大數據論壇有感

TAG:小白大亮學習筆記 |