當前位置:
首頁 > 科技 > 數據挖掘從入門到精通完全指南

數據挖掘從入門到精通完全指南

數據挖掘(data mining)是一個跨學科的計算機科學分支,用人工智慧、機器學習、統計學和資料庫的交叉方法在相對較大型的數據集中發現模式的計算過程。

很多人會將其與數據分析相混。

數據分析是對收集來的數據進行處理與分析,提取有價值的信息。

而數據挖掘是從大量數據中尋找未知的模式與規律,發現知識規則。

著名的例子是啤酒尿布案例,數據分析:根據歷史銷售數據,分別分析買各種商品的人各自具有什麼特徵;數據挖掘:根據歷史銷售數據,使用關聯規則挖掘,分析買了啤酒的人還會購買什麼,得出尿布。

這份清單,送給想真正入門數據挖掘的你~

思維基礎

數學之美

吳軍

豆瓣評分:8.7

雖然名為數學之美,但不停留於抽象的公式邏輯推導,搭配現實世界中的工程實例,讓你明白數學是人理解世界的工具。能深刻地理解了大學所學的線性代數、概率論與數理統計和應該學而沒學的隨機過程、圖論、機器學習的應用意義

模式分類

豆瓣評分:8.8

很多高校的數據挖掘導論課程的經典教科書

數據挖掘導論

《數據挖掘導論》

作者: Richard O. Duda / Peter E. Hart / David G. Stork 譯者:李宏東

豆瓣評分:8.2

本書全面涵蓋了數據挖掘的五個主題:數據、分類、關聯分析、聚類和異常檢測。比較輕演算法而重現實應用小白入門書籍,系統講解了數據挖掘「是什麼」的層面。更偏向是是演算法的運行過程和意義,而非演算法本身的數學推理,本書把演算法按照它們實現的功能和目的,分成比如回歸、分類、聚類等,並細緻講解可以實現聚類、回歸等的演算法分別有哪些,這樣能夠構建一個大概的機器學習體系,但因為是導論,所以深度不夠,適合小白入門

數學統計

《統計學》(原書第5版)

作者: William Mendenhall / Terry Sincich

譯者: 梁馮珍 / 史道濟 / 關靜

豆瓣評分:8.8

統計知識是機器學習演算法的基礎組成,在實際項目,掌握很多統計學方法會如虎添翼,本書中有點自傲與很少涉及統計理論的嚴格數學證明,而是給出了大量與實際應用緊密聯繫的例子和練習,十分適合新手入門。

《統計學習方法》

李航

豆瓣評分:9.0

側重數學推導過程,對公式的推理十分詳細 ,新手小白看會很(xiang)燒(fang)腦(qi)

《矩陣分析》

作者: (美)合恩(Horn/R.A.)等/楊奇

豆瓣評分:8.9

補充線性代數沒有涉及的矩陣知識,能輔助你完成從大腦內演算法到計算機內建模的轉化

《最優化導論》

作者: Edwin K. P. Chong / Stanislaw H. Zak

豆瓣評分:9.5

最優化就是用來對目標函數參數求解的工具,這本書符合知識學習的基本邏輯;知識層次設計合理,大多數數學推導都伴以幾何演示,便於學生理解和掌握;例題豐富;內容涵蓋全面。

《凸優化》

作者: Stephen Boyd / Lieven Vandenberghe

豆瓣評分:9.6

關於最優化另一本經典,是Boyd的經典書籍,被引用次數超過14000次,面向實際應用,並且有配套代碼,是一本不可多得的好書

機器學習

機器學習

作者:周志華

豆瓣評分:8.8

機器學習入門的經典書籍,作者學術地位不用多說,跟李航老師的《統計學習方法》相比,廣度上要更加廣泛,

機器學習

作者: [美] Tom Mitchell

機器學習入門的經典書籍

《集體智慧編程》

作者: Toby Segaran

豆瓣評分:9.0

弱化公式推導 ,藉助Python從實際的例子入手,讓人很快的就能理解到演算法到實際問題的應用 ,並且還能自己上手寫寫代碼

《機器學習實戰》

作者:Peter Harrington

豆瓣評分:8.1

將各種機器學習演算法真正的用python實現了一遍 ,遺憾的是對於數值分析等方面考慮的並不周詳,建議配合吳恩達講義食用效果更佳

《利用Python進行數據分析》

作者: Wes McKinney

豆瓣評分:8.5

作者對於利用Python進行數據分析有著很豐富的經驗,因此寫出的書也是深入淺出,讓人很容易就能看懂,比較適合當工具書

《機器學習系統設計》

作者: [德] Willi Richert / Luis Pedro Coelho

豆瓣評分:7.6

介紹了python平台上最火的機器學習庫—scikit-learn

優點:這本書告訴了你,python機器學習工業級的應用

缺點:憑空用了許多函數,卻沒有告訴你函數參數的意義

《數據挖掘:實用機器學習工具與技術

作者: Ian H.Witten / Eibe Frank

從簡單的模型入手擴展到現實生活 中實際的演算法問題,最難能可貴的是書的最後還稍微講了下如何使用weka,這樣大家就能在學習演算法之餘能夠用weka做做小實驗,有更加直觀的認識。

解壓養生

《脊椎養護完全手冊》

作者: 郭振中

程序員更要好好愛護自己

《積極戀愛心理學》

作者: 趙永久

沉迷代碼,也要抬頭看看世界,保持愛人的能力

《女裝少年》

作者: 青山 裕企

偶爾女裝,釋放壓力。聽說女裝大佬的代碼更少bug哦

福利環節

在評論區留言

寫下你對數據挖掘的學習計劃或學習心得

點贊數前三能免費獲得相關圖書一本哦~


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲加社區 的精彩文章:

如何在雲上構建容器化的大規模計算平台?
這7大工具引爆了第三次零售革命-智慧零售

TAG:雲加社區 |