20本機器學習與數據科學必讀書籍
高校的暑假即將來臨,有沒有想利用這個暑假為自己充電,為未來的自己贏在起跑線上,成為人工智慧界的人生贏家呢?來自 KDnuggets 的 Matthew Mayo 就提供了這份書單,小編在翻譯此書單的同時,還貼心搜索了相應的中文譯本,並提供了中文版的購買鏈接。
1. 《統計思維:程序員數學之概率統計》Think Stats: Probability and Statistics for Programmers
Allen B. Downey|著
張建峰 等|譯
英文:http://www.greenteapress.com/thinkstats/
中文:https://union-click.jd.com/jdc?d=eysyRS
本書是 Python 程序員對概率和統計的介紹。
本書強調了一些簡單的技術,您可以利用這些技術來探索真實的數據集並回答有趣的問題。該書的樣例基於美國國立衛生研究院的數據,並鼓勵讀者使用真實的數據集展開項目。
2. 《貝葉斯方法:概率編程與貝葉斯推斷》Probabilistic Programming & Bayesian Methods for Hackers
Cam Davidson-Pilon|著
辛願 等|譯
英文:
中文:https://union-click.jd.com/jdc?d=noCI83
本書以計算 / 理解為主,數學為輔,介紹了貝葉斯方法理論和概率編程。
貝葉斯方法是對數學分析自然而然的估計與推論,但貝葉斯方法的推理非常晦澀、繁雜、難懂。通常介紹貝葉斯推斷之前,要先介紹兩到三章的概率論的相關內容。不幸的是,由於大多數貝葉斯模型的數學複雜性,讀者只能看到簡單的、人為編造的示例。於是給讀者留下一種「貝葉斯似乎也沒什麼用處」的錯覺。事實上作者本人在剛開始學貝葉斯方法就有過這種尷尬。
3. 《深入理解機器學習:從原理到演算法》Understanding Machine Learning: From Theory to Algorithms
Shai Shalev-Shwartz 等|著
張文生|譯
英文:
http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/
中文:https://union-click.jd.com/jdc?d=RFII4v
機器學習是計算機科學發展最快的領域之一,具有深遠的應用。本書的目的是以原則性的方式介紹機器學習及其提供的演算法範例。本書提供了機器學習的基礎知識,以及將這些原理轉化為實際演算法的數學推導的說明。在介紹基礎知識之後,本書還涵蓋了以前教科書沒有提到的大量重要的課題。課題包括討論學習的計算複雜性、凸性和穩定性的概念;重要的演算法包括隨機梯度下降、神經網路和結構化輸出式學習;以及新興的理論概念,如 PAC-Bayes 方法和 compression-based bounds 等。
4. The Elements of Statistical Learning
Trevor Hastie 等|著
英文:
http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf
中文:無
這本書在通用概念框架的基礎上闡述了統計學領域的重要思想。雖然本書的許多方法都是基於統計學的,但它的重心在概念上而不是數學理論上。本書以彩色配圖的形式給出了大量的樣例。本書對統計學家以及任何對科學或工業數據挖掘感興趣的從業人士來說都是一本不可多得的好書。本書的覆蓋面很廣,從監督式學習(預測)到非監督式學習都有所涉獵。書中還提到了神經網路、支持向量機、分類樹、預測和分級助推之類的其他話題,這也是相關話題在所有書籍中首次全面論述的一本書。
5. 《統計學習導論:基於 R 應用》An Introduction to Statistical Learning with Applications in R
Gareth James 等|著
王星|譯
英文:http://www-bcf.usc.edu/~gareth/ISL/
中文:https://union-click.jd.com/jdc?d=bf87xm
本書介紹了統計學習方法。本書主要面向非數學專業的高年級本科生、碩士研究生和博士生。本書包括大量的 R 語言的實例,這些實例詳細解釋了如何將統計方法使用真實世界情形設置的詳細解釋,這些資源對於有志於成為數據科學家的人來說應該很有價值。
6. Foundations of Data Science
Avrim Blum 等|著
英文:https://www.cs.cornell.edu/jeh/book.pdf
中文:無
雖然計算機科學的傳統領域仍然十分重要,但越來越多的研究人員目光轉向了如何利用計算機從應用中產生的大量數據中理解和提取有用的信息,而不僅僅是用計算機解決實際的應用問題。鑒於上述原因,本書涵蓋了未來四十年里都會非常有用的技術理論,這些理論的重要性,就相當於自動控制的原理和演算法,它們在過去四十年里對學生們在數據科學上的研究起到了很大的作用。
7. 《寫給程序員的數據挖掘實踐指南》A Programmer"s Guide to Data Mining: The Ancient Art of the Numerati
Ron Zacharski|著
王斌|譯
英文:http://guidetodatamining.com/
中文:https://union-click.jd.com/jdc?d=GQ9u7w
本書的編寫理念是遵循一個循序漸進的方法,引導讀者使用作者提供的 Python 代碼進行練習和實驗,而不是被動地去閱讀本書。作者建議讀者們可以積极參与這個編程的實戰中去,去嘗試數據挖掘的技術。本書通過將知識點分解成一系列小步驟,當讀者學完本書時,就可以掌握一個對於數據挖掘技術的基本理解了。
8.《大數據: 互聯網大規模數據挖掘與分散式處理》Mining of Massive Datasets
Jure Leskovec 等|著
王斌|譯
英文:http://mmds.org/
中文:https://union-click.jd.com/jdc?d=2fudaj
本書由斯坦福大學 CS246:Mining Massive Datasets 和 SC345A:Data Mining 課程的內容總結而成。
本書的設計同斯坦福課程一樣,假設讀者沒有相關的預備基礎知識。如果讀者想要了解更深層的東西,大多數章節都附有參考書目,讀者可以按此索引進行深入學習。
9. 《深度學習》Deep Learning
Ian Goodfellow 等|著
趙申劍 等|譯
中文:https://union-click.jd.com/jdc?d=HK6Cxh
本書旨在幫助讀者進入機器學習的領域,尤其是深度學習。網上有完整的在線免費版可供閱讀。
10. 《機器學習訓練秘籍》Machine Learning Yearning
Andrew Ng|著
人工智慧、機器學習和深度學習正在改變著許多行業。但是建立一個機器學習系統需要你做出以下的一些決策:
應該收集更多的訓練數據嗎?
應該使用端對端的深度學習嗎?
如何處理與測試集不匹配的訓練集?
等等……
11. Python 數據科學手冊 Python Data Science Handbook
Jake VanderPlas|著
陶俊傑 等|譯
英文:
https://github.com/jakevdp/PythonDataScienceHandbook
中文:https://union-click.jd.com/jdc?d=KBvZ05
本書介紹了使用 Python 處理數據所必需的核心庫:IPython、NumPy、panda、Matplotlib、Scikit-Learn 以及相關包。本書要求讀者需熟悉 Python 語言。如果讀者想快速學習 Python,可選讀作者另一本著作 A Whirlwind Tour of Python,該書是為計算機相關人員準備的快速入門。
12. Neural Networks and Deep Learning
Michael Nielsen|著
英文:http://neuralnetworksanddeeplearning.com
中文:無
本書分兩部分:
神經網路:一種唯美的、從萬物生長中汲取靈感的編程範式,使計算機能夠從數據中學習;
深度學習:一系列強有力的技術,讓神經網路壯大起來。
目前,神經網路和深度學習在圖像識別、語音識別和自然語言處理等諸多問題提供了最佳的解決方案。本書將教會讀者許多神經網路和深度學習背後的核心概念。
13. 《貝葉斯思維》Think Bayes
Allen B. Downey|著
許楊毅|譯
英文:http://greenteapress.com/wp/think-bayes/
中文:https://union-click.jd.com/jdc?d=zHle26
本書講述的是如何使用計算方法處理貝葉斯統計。
作為 Think X 叢書之一,本書的編寫理念是,如果讀者會編程,就可以用這項技能來學習其他科目了。
多數關於貝葉斯統計的書,用的都是數學符號,也就是以數學概念如微積分來表達其思想。本書用的是 Python 代碼,取代了數學符號,用離散近似代替連續數學。結果,數學裡的積分變成了求和,概率分布的運算大多成了簡單的環。
14. Machine Learning & Big Data
Kareem Alkaseer|著
英文:http://www.kareemalkaseer.com/books/ml
中文:無
本書尚未完成,將隨著時間推移進一步完善。本書的理念是,在理論和實踐之間取得平衡,讓軟體工程師能夠輕鬆使用機器學習模型,而不必過分依賴庫。多數情況下,模型或技術背後的概念都比較簡單直觀,但在細節或術語上就有所欠缺。另外,現有的庫通常都可以解決手頭的問題,但它們都是黑盒,它們多數還有自己的抽象方法和結構,看不到基本概念。本書的目的就是要把這些隱藏的基本概念弄清楚。
15. Statistical Learning with Sparsity: The Lasso and Generalizations
Trevor Hastie 等|著
英文:
https://web.stanford.edu/~hastie/StatLearnSparsity/
中文:無
在過去的十年里,計算機和信息技術發生了爆炸式增長。隨之而來的是醫學、生物學、金融和市場營銷等領域有了大量數據。本書在通用的概念框架中闡述了這些領域的重要思想。
16. Statistical inference for data science
Brian Caffo|著
英文:https://leanpub.com/LittleInferenceBook
中文:無
本書是 Coursera 課程 Statistical Inference(推論統計學)的配套書,也是 Data Science(數據科學)專業課的一部分。然而,如果讀者不上這門課,本書也可閱讀。
本書目的是對重要的推論統計學領域進行介紹。目標讀者是有數學背景、具備編程能力的學生,幫助他們把這樣的技能用到數據科學或統計學中去。
17. 《凸優化》Convex Optimization
Stephen Boyd 等|著
王書寧 等|譯
英文:http://stanford.edu/~boyd/cvxbook/
中文:https://union-click.jd.com/jdc?d=kBrTS3
本書是講述關於凸優化的問題。凸優化是一類特殊的數學優化問題,最小二乘法和線性規劃問題也屬於此類。眾所周知,最小二乘法和線性規劃問題有相當完整的理論,在各種應用中都有出現,並且可以非常有效地用數值方法求解。本書的基本要點是,對於較大的凸優化問題,也可以這樣用編程的方式來解決。
18. 《Python 自然語言處理》Natural Language Processing with Python
Steven Bird|著
張旭 等|譯
英文:https://www.nltk.org/book/
中文:https://union-click.jd.com/jdc?d=RSf7bd
本書是關於自然語言處理的書。所謂「自然語言」,是指一種人類日常交流所使用的語言:英語、印地語或葡萄牙語等。與編程語言和數學表示法等人工語言不同的是,自然語言是在代代相傳的過程中而進化的,很難用明確的規則來解析其中的含義。我們將把自然語言處理廣泛地應用於任何一種自然語言的計算機操作。
本書是基於 Python 編程語言和一個名為自然語言工具包(NLTK)的開源庫而寫成的。
19. Automate the Boring Stuff with Python
Al Sweigart|著
英文:https://automatetheboringstuff.com/
中文:無
你是否曾經花費好幾個小時來重命名文件、或者更新表格里的幾百個單元?這些任務是多麼乏味,那就讓電腦來為你效力吧!
Python 可以幫你完成這些乏味的任務。本書將教會你如何使用 Python 編程來幫你完成那些乏味的任務。本書不要求讀者有編程經驗,只需跟隨本書即可掌握相關編程技巧。一旦掌握編程的基礎知識,創建可以毫不費力地執行自動化的 Python 程序將是一件手到擒來的輕鬆事兒。
20. 《社會媒體挖掘》Social Media Mining: An Introduction
Reza Zafarani 等|著
劉挺 等|譯
英文:http://dmml.asu.edu/smm/
中文:https://union-click.jd.com/jdc?d=VyZxUc
過去十年,社交媒體的發展改變了個人互動和行業開展業務的方式。個人通過社交媒體互動、分享和消費內容,以前所未有的速度生成數據。了解和處理這種新型的數據,從而收集可操作的模式,為跨學科研究、新演算法和工具開發提供了挑戰和機會。社交媒體挖掘整合了社交媒體、社交網路分析和數據挖掘,為學生、從業者、研究人員和項目經理提供了一個方便、連貫的平台,以了解社交媒體挖掘的基礎和潛力。
參考鏈接:
https://www.kdnuggets.com/2017/04/10-free-must-read-books-machine-learning-data-science.html
https://www.kdnuggets.com/2018/05/10-more-free-must-read-books-for-machine-learning-and-data-science.html
※超級乾貨:2018數據科學以及機器學習領域頂級工具的排名與趨勢
※高盛利用機器學習預測:巴西將最終問鼎本屆世界盃
TAG:機器學習 |