數據挖掘到底挖什麼？

最新 08-04

經常說數據挖掘可以從海量數據中得到人腦思考不到的規律和洞見，可以實現預測，這個說法還是很籠統，具體能得到什麼規律和洞見？怎麼預測？在具體例子上也許能想明白，但缺乏理論化的系統理解。

數據挖掘到底挖什麼？有什麼用？將近日學習的內容試著梳理總結一下。

一發現數據特徵

從一張數據表格中發現規律、總結特點，這個人腦就能幹，日常工作中我們經常干這個。但是如果數據量太大，你可能就看不出來規律了，這時候通過計算機演算法從海量數據中發現人眼看不出來的特徵，這個是數據挖掘可以做的。

比如說京東想總結一下平台上年消費萬元以上的用戶有哪些特點，性別，年齡，住址，城市，等等，很多維度都可以去分析。比如我們可以分析去年北京交通違法人員的特點。總結出數據特徵之後就可能發現一些規律，用以指導我們的營銷或者管理工作。當然這個是數據挖掘裡面比較簡單基本的應用。

二挖掘事件發生的頻繁性和相關性

現實世界裡反覆發生的事兒，或者經常一起發生的兩件事、三件事，或者發生了A事件之後經常發生B事件，這些情況都是需要引起我們注意的，因為明顯這裡面有規律，為什麼可以不知道，但這種頻繁性和相關性，是可以指導我們更好的做事情的。

數據挖掘很重要的一個作用，就是從海量事件數據中發現頻繁性和相關性。這個經常需要更多的數據源在一起碰撞。比如哪些商品人們會傾向於一起購買。比如交通違法與季節、天氣、年齡、職業等因素有沒有聯繫。我們可以設置一些變數、屬性，放在一起去分析，也許就會發現意想不到的規律。

三分類與回歸，主要用於預測和識別

分類和回歸，主要是將海量數據作為學習集、訓練集，運用機器學習演算法（比如決策樹、神經網路等等），擬合出超級函數（可以參見之前的學習筆記）。這樣再有新的數據進來，就可以用來預測結果。

舉個例子，比如車輛識別中很重要的一部分是車型識別，以薩公司目前已經做到識別9萬多種車型，什麼概念？就是把每種車型作為函數值，把對應車型圖像數據化並提煉特徵屬性作為自變數，通過機器學習產生使二者對應的函數。今後再新來一輛車，就把它的特徵數據輸入函數，輸出對應的車型。這個實質上就是分類問題，用原有海量數據分了9萬多類，然後再新來一個就對應歸類。

回歸和分類的原理是一樣的，只不過分類的結果是離散的值，也就是類別。而回歸的結果是連續的數值。比如某公司想通過往年的數據預測今年的銷售額，銷售額是連續數值，這個就叫回歸。

四聚類

分類和回歸運用的數據一般是比較規範清晰的數據集（學習集、訓練集），哪些是自變數，哪些是因變數，很清晰，目的也很明確，就是計算預測模型。

但是還有些海量數據是散亂毫無頭緒的，我們也不知道怎麼分類。對此類數據的挖掘可能就需要聚類，就是通過演算法把相近的數據項、類似的事件組織在一起，形成一堆一堆的數據，術語叫「簇」。我們也不知道每個簇應該如何定義，反正「物以類聚，人以群分」，海量數據很多有這樣的分布特點。

找到這種數據分布規律，是有現實意義的，我們可以把海量的人和物分成簇，單獨研究每個簇的共同規律，有針對性的進行管理。例如可否對海量交通違法行為數據進行聚類分析，我也不知道結果如何，也許會形成「簇」，也許沒有，如果有明顯的「簇」，說明有規律可循，就可以繼續分析，找到規律，採取措施增強執法針對性。

五離群點分析

離群點分析與聚類是一枚硬幣的兩面。海量數據中一定包含個別數據項，與數據的一般模式不一致，也就是聚類以外的數據點，稱為離群點。有時候我們關注聚類，將離群點捨棄掉。但有時候可能罕見的事件比正常出現的事件更讓人感興趣，比如異常識別。

比如，我們公安部六合一交通執法系統，民警網上辦理相關執法審批手續的流程數據肯定是有一定規律的，如果聚類分析，一定會形成「簇」，這時候對於個別離群點應當關注，因為那有可能是違規操作，基於此可以形成一定的監督預警措施。銀行的交易數據也一樣，那些聚類之外的離群點，有可能是異常操作，可以發現金融犯罪的蹤跡。

數據挖掘的應用場景很多很多，具體挖什麼，要根據實際需要而定，但大體可以歸到上述幾類。充分理解上述幾種類別，有助於針對實際進行數據挖掘時，找准方向和方法。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 小白大亮學習筆記 的精彩文章:

※聆聽交通大數據論壇有感

TAG:小白大亮學習筆記 |