當前位置:
首頁 > 最新 > 什麼是數據挖掘?

什麼是數據挖掘?

近年來,數據分析,數據挖掘和數據科學等領域不可謂不火熱。而且人工智慧、演算法、數據科學領域的薪酬普遍高於傳統互聯網行業。既然決定從事互聯網行業,那就得給自己找一個不錯的方向,並為之不斷學習~


數據挖掘的概念:

數據挖掘可以簡單的理解為從大量數據中提取或挖掘知識或者說是知識發現。

數據挖掘應用了眾多領域的思想,包括來自統計學的抽樣、估計和假設檢驗;來自人工智慧、模式識別和機器學習的搜索演算法、建模技術和學習理論等。

數據挖掘的步驟:

數據挖掘作為知識發現的過程,一般由三個主要階段組成:

數據準備

數據挖掘

結果的解釋評估

知識的發現可以描述為這三個階段的反覆過程。


數據準備過程可以針對數據倉庫,也可以是普通數據文件。數據準備分為三個子步驟:

數據選取。 目的是確認挖掘任務的操作對象。

數據預處理。一般包括消除雜訊,推導計算預設數據,消除重複記錄、完成數據類型轉換等。

數據變換。目的是將數據轉換為適合數據挖掘需要的形式。


數據挖掘首先要確定挖掘的任務或目的。數據挖掘任務大致可以分為兩大類:

分類預測任務

分類預測任務是從已經分類的數據中學習模型,並使用學習出來的模型去解決新的未分類的數據。例如:給出一個顧客的消費情況,判斷其是重要客戶的可能性。

在分類預測任務中,需要用到的數據包括:

訓練集:用於訓練學習演算法和建立分類模型。

測試集:用於驗證所生成的模型是否正確。

驗證集:為實際應用中的數據,不具有類標籤。

常見的分類預測演算法有:決策樹、神經網路、規則歸納、支持向量機、貝葉斯、粗糙集、回歸分析、K-最近鄰等

描述型任務

根據數據內部具有的固有聯繫,生成對數據集中的數據關係或整個數據集的概要描述。

典型的描述型任務包括:

摘要:用於對數據集進行總結。

聚類:把沒有預定類別的數據劃分為幾個合理的類別。

依賴分析:用於發現數據項之間的關係。

比如一個典型的聚類描述型任務:根據客戶的行為特徵和基本屬性,將不同的客戶劃分不同類型的相似群體。

描述型任務的典型方法有:聚類、關聯分析等。

數據挖掘技術的知識大綱大致如此。

每天學習一點點,每天進步一點點。

END


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 小白客 的精彩文章:

每天學習一點兒演算法-遞歸

TAG:小白客 |