如果你想學數據科學,這 7 類資源千萬不能錯過
本文為 AI 研習社編譯的技術博客,原標題 :
7 Resources for Those Wanting to Learn Data Science
作者 | Bruno Trentini
翻譯 | 凱伊?斯特朗、Eli伊萊、唯愛我清、Ophria
校對 | 鄧普斯?傑弗 整理 | 菠蘿妹
原文鏈接:
https://towardsdatascience.com/7-resources-for-those-wanting-to-learn-data-science-a89e25d1b55e
有時你只需要知道如何開始即可,以下是那些適用於我的經驗。
打開今日頭條,查看更多圖片圖片來源:https://tinyurl.com/y7bgtyjo
數據科學從一開始就是一個交叉學科,要求從業者在計算機、數學領域具備一定的技能,同時還要具備在同人與生意打交道的經驗。有些人會在多年的工作生活中慢慢累積相關的經驗,但是如果那兒有一個捷徑存在呢?
現在我決定同大家分享我在數據科學這條路上幫我打基礎的7大資源。選取的這些資源即兼顧了趣味兒性的同時也兼顧了包含在內的數據與科學原理。
圖片來源 https://timoelliott.com/blog/
寫在前面「數據科學」的關鍵詞不是數據,而是科學。——傑夫·萊克
約翰霍普金斯大學彭博公共衛生學院教授Jeff Leek在5年前寫道:「數據科學中的關鍵詞不是"數據",是"科學"。僅在使用數據回答問題時數據科學才有用。這是等式的科學部分。這種數據科學觀點的問題在於它比關注數據大小或工具的觀點要困難得多。計算數據集的大小要容易得多,並且說「我的數據比你的大」,或者說「我能在 Hadoop 中編碼,你能嗎?」 而不是說『我有這個非常難的問題,我可以用我的數據回答嗎?』。」
數據科學是個老概念了,John Graunt 在它還是個新概念的時候就研究它了。正是在15世紀的小冰期,他利用概率模型開發了人口統計學的第一部作品。到1960年,該主題已經非常成熟並且被稱為數據,但是僅在2012年哈佛商業評論發表文章「數據科學家:21世紀最性感的工作」後這個詞和這個工作才越來越受歡迎。此後僅兩年,就可以獲得關於該主題的大量在線課程。谷歌趨勢顯示了一些有趣的東西:儘管自2004年以來「統計學家」一詞呈下降趨勢,但「數據科學家」這一術語在哈佛商業評論的文章之後有了更強烈的積極變動,並且當在線課程的提供增加時,它得到了提升。
https://trends.google.com/trends/explore?date=all&q=Data%20Scientist,%2Fm%2F0c_xl
考慮到這一點,我要說清楚:數據科學家不是統計學家,並且他們也不會代替統計學家(反之亦然),但對統計學和數學的真正興趣才是正確進行數據科學的關鍵。我自己不是個統計學家,但是下面的第一個資源讓我喜歡上這個主題。
還請觀察下面資源如何更多地關注「好奇心」和「理解」而不是「應用」。
圖片來源:https://towardsdatascience.com/introduction-to-statistics-e9d72d818745
你喜歡清單嗎?簡而言之,7個資源是:
The Drunkard』s Walk,Leonard Mlodinow的書
Machine Learning Course,由斯坦福大學創建並由Andrew Ng執教
Introduction to Mathematical Thinking,同樣由斯坦福大學創建並由Keith Devlin執教
Coding
A prejudice-free review on Maths
People
Reading about Heterodox and Orthodox Economics
該清單既不是按照時間順序也不是按重要性順序,很多這些事情會同時發生並且4-7項幾乎肯定會並且永遠成為你作為數據科學家日常工作的一部分。
來讓我看看細節部分吧!醉漢漫步
(譯者註:這是一本書,豆瓣地址:https://book.douban.com/subject/3102009/)
許多年前(大概是2009年?)當我在聖誕節收到這本書時,對它並沒有很深的印象,但是多年後它變成了我一直以來的最愛。
醉漢漫步這本書是幫助我們理解隨機性對我們生活造成的影響,亞馬遜的產品描述是這樣的「它揭露了這些心理錯覺是如何阻擋我們理解生活,從選股到品酒」。
它幫助我覺察到我們是多麼容易成為概率的受害者,也幫助我理解為什麼我們更容易推到理解導致事件發生的所有因素,而預測類似情況會不會再次發生卻很難的原因。
從分析者的角度來說,這本書向我們展示了預測模型的重要性也從統計數據的角度證明了歷史事件發生的必然性,同樣還向我們展示了如何使用數據來解答一些難以理解的問題,以及為什麼有些問題仍舊無法獲得答案。我把這本書認為是我同「數據科學」的第一次親密接觸。
另外一本很好的同類讀物是:《Algorithms to Live by: The Computer Science of Human Decisions.》(《生活中的演算法:人類決策中的計算機科學》)
很好的一幅展示隨機漫步的圖片,來源: http://cu.t-ads.org/python-intro-02-random-walk/drunkard/。
機器學習
這門課是斯坦福大學在Coursera上的公開課,是很多朋友也是我在機器學習中的入門課,在我看來這是一個必讀的課程。
它會首先幫你複習線性代數中的核心概念,然後會教你基礎的Matlab(Octave)編程。完成這些後,才會提出第一個關於一元回歸的概念。之後,課程會帶你學習一些有趣的部分,比如做數據分析的一些主要方法工具以及神經網路,但是如果你想很認真很認真的學習,那你就要多做練習並且在過程中會接觸到很多課外知識,這些都會幫助你建立在機器學習中的直覺與數學能力。
課程中的示例圖片,來源:https://tinyurl.com/ybupqzzb
數學思維概論
2008年我的大學階段我很開心,因為我在這個階段學習了不同種類的數學。即便這樣,我也打算來聽斯坦福大學在Coursera上的這門公開課,通過它來幫助我回顧數學中的一些核心概念,同時增強我的數學技能。這門課不僅覆蓋了我在第一學期中學到的一些概念,它還提升了我在分析思維上的能力。對於大多數人來說,這門課在幫助大家從傳統的推理思維轉換到數學思維這件事兒上建立了一個很好的範例。除此以外,部分課程會在數學證明上具有一定的挑戰性。特別是對於普通的書寫語言而言,它會讓你有一種在學習一門新語言的感覺。
你不會感到學習「一門新語言」這件事很痛苦,因為批判思維對數據科學尤為重要。另外一個重要的點(或者說減輕痛苦的點)是這門課會幫助你在探索數據科學時掃清一些常見謬誤的概念。
Master List of Logical Fallacies 邏輯謬論列表
utminers.utep.edu/omwilliamson/emgl1311utminers.utep.edu
如果在剛開始學習這些內容時把你自己所在一個籠子里幾周,出來後你會對很多你聽到的、你見到的事情產生質疑。不要忘了目標:數據科學!
Dilbert列舉了許多常見謬誤
來源:https://tinyurl.com/y97w2oej
編程
總的來說,無論你的職業選擇是如何,你都要學會編程。它能在很多方面讓你的工作生活變的有趣和方便。
大體來說,對於生活中遇到的一些數據科學問題我們已經漸漸不用再自己去編程,這部分任務已經被 Alteryx, Azure Studio, Dataiku, H2O.ai, or Knime這些平台完成。然而,成為一個通用框架或編程專家在很長一段時間內都能給你在快速高效處理未清洗的機器學習數據時極強的自信。
在最開始時你的問題可能是「我如何把csv文件的內容讀取到數據框架里?我如何做一些簡單的數據可視化工作?我如何把所有類里的數據值變成數值?我如何處理多列表數據集?」,在過了某個時間節點後,你的問題就變成「這裡用loopsin合適嗎,還是有其他的方式能達到這個目標,比如vectorised?我如何才能把我的演算法簡化從而降低所佔用的計算機資源?「
一個簡單的Seaborn指令可以幫助你建立直觀大方的數據可視化視圖。(自有資源)
幸運的是你有很多種選擇來解決這些問題與挑戰:更多有經驗的人,Stack Overflow、Quora還有其他一些社區。
對編程語言來說,我推薦Python作為人工智慧的入門語言,因為它很容易上手,而且它在數據科學家中很流行,因為它的Pandas,Numpy,Matplotlib等多個庫可以幫助他們很好的處理數據準備、數據清洗及可視化等問題,而且它和機器學習框架TensorFlow配合很好,可以讓你很輕鬆的就調用GPU的算力。
另外一條比較通用的路徑就是R語言了。相對於Python可能會讓你花點時間進入「數據科學」的世界這件事來講,R會讓你立馬進入統計模型的世界。相比之下,選擇Python除了數據科學這個功能外,它還能幫助你更好的理解編程這件事,讓你上手其他語言如C++,Java更快。但是無論你選擇R還是選擇Python,都是可以的。
看看Udemy的這個課程,我沒去學習它,但是就課程內容和價格來講,看起來還不錯,鏈接如下:
https://www.udemy.com/the-data-science-course-complete-data-science-bootcamp/
另外一個比較好的資源就是Gareth James的 An Introduction to Statistical Learning with Applications in R(R語言在統計學習中的應用)。這本書在鏈接中就能看到,它的核心內容是如何使用R語言進行統計編程。如果你線性代數沒有學的很紮實,這本書會嚇到你(你第10頁就會遇到)。無論你如何選擇,你都需要學習數學。。。
對數學的無偏見評論
我一直很喜歡數學,但是我在高中的時候學的比較一般。在大學階段我就學的比較好了,當然是通過不懈的努力(2013年的時候)。差不多這個時候我決定我將在未來的某個時間節點去攻讀碩士研究生,然而在學習Gre和GMAT的過程中,我就發現了我一些基礎知識薄弱的地方,中間還有個有趣的插曲,就是我是通過看視頻學習的,這個視頻不是一般的視頻,而且給孩子學習數學看的lol。
多年後,我開始接觸到了數據科學和機器學習的邊角:高級線性代數和計算。雖然說這對於成為一個數據科學家來說並不是一個必須品,但是它對你理解數據很有幫助,比如說一個主成分分析(PCA)倒是在做什麼。懂的數據背後的數學可以在講述故事的時候幫助你很多,當日是在開始的時候。
2個群在3個主成分中的繪圖(自有資源)。數學直覺可以很好的幫助你理解這個。
在3個主要成分上繪製2個簇。數學直覺有助於解釋這個問題。
總的來說,Manhattan Prep的線上課程雖然昂貴,但是對我學習數學起到了至關重要的作用。它幫助在今天更容易的理解機器學習,統計學和金融分析。擁有一個牢固的數學基礎可以幫助你學習新知識時更快更好,同樣它在工作效率和自我認同上也提供了非常重要的作用。
看看下邊的資源:
GRE Just Math | Manhattan Prep
GRE Just Math is your live, comprehensive GRE Math prep course taught by a 99th-percentile GRE Math expert. In one…www.manhattanprep.com
Manhattan Prep GRE Set of 8 Strategy Guides, 4th Edition : Manhattan Prep : 9781937707910
Manhattan Prep GRE Set of 8 Strategy Guides, 4th Edition by Manhattan Prep, 9781937707910, available at Book Depository…www.bookdepository.com
除非你想獨自研究或者學習演算法,高級線性代數與計算並不是必備的,它對我來說是更快理解核心觀念的工具,尤其是在統計模型中。
人
作為一個數據科學可能需要你安靜的坐下來,然後敲無止盡的代碼,做成天上月的特徵工程,最後才能得到一些有意義的數據。在這樣的情況下,一個人如果無法能從高認知層面上解釋或者理解它在幹什麼以及它為什麼這麼干,那麼他是無法從中獲得樂趣的。當日,最關鍵的是你需要首先定義清楚你要解決的問題。
假設你是一個電子商務公司的數據科學家,你突然接到報告說「信用卡欺詐交易數量突然間上升了」。雖然說你對於這個問題還沒有任何線索,但是你心中已經知道大概可以先從這幾個點入手。一個新手會犯的錯誤是直接去看一個分類或者群模型,只是因為「欺詐」這個字眼影響你這麼做。探索性的數據分析可以在最開始的時候幫助你,但是核心問題仍舊無法被回答:應該去分析什麼,從哪兒開始,最終的目標是什麼,如何來衡量你工作的影響。最終可能你會發現問題是出在版本發行中的一個bug,一個你無須什麼數據分析技巧就能解決的問題。
事實上設計思維是一個在People中被廣泛認知的方法論。尤其是在基礎交流、講故事、定義問題和產品開發中。儘管設計思維同數據科學沒有直接的聯繫,但是它可以幫助數據科學家同身邊的人交流並交付「數據產品」。
Design Thinking Framework(設計思維框架). 來源: https://www.nngroup.com/articles/design-thinking/
總的來說,一個人在某一個方面越專精,越容易通過支持數據定義一個問題,並基於支持數據來快速高效的提出解決方案。不可忽略的是,哪怕是一個資深數據科學家,也要通過同人來交流從而幫助他解決遇到的挑戰。
A Virtual Crash Course in Design Thinking
This is an online version of one of our most frequently sought after introductory learning experiences. Using a video…dschool.stanford.edu
在很多情況下,理解更有經驗的人的觀點是非常有用的,同時這也是一種捷徑。你可以和來自世界各個角落的人分享觀點,參加黑客馬拉松和各種聚會,世界上的大多數城市都會有諸如此類的活動。核心是交流,學習和分享。完全沒有理由孤立自己。
"正統"經濟學和"異端"經濟學
如果你正在處理消費者數據,這些資源將會特別有用。但是如果你正在處理數據中心監控數據,藥品數據,金融監控,工廠感測器上的生物醫學數據,這些資源基本用不上。記住,這篇文章是基於我自身的經驗,但是這裡的要點是獲取某一專業領域的知識。
我用簡單的方式介紹一下兩者的不同:正統經濟學著重用一串的主流模型解釋過去,現在和未來。然而"異端"經濟學加入了很多的社會中的個人情況,經常在均衡中帶入一些主觀性。
拿巴西汽車價格舉例。雖然巴西仍然在與高物價,荒謬的稅收,僅僅只有12%的地方鋪有公路等情況做著鬥爭,但是汽車製造商仍然有很高的利潤率。除此之外,當人們在買車的時候,人們更傾向購買高檔次的汽車,有時不惜以過高的利率分72期進行償還。這又很多客觀的和主觀的原因在裡面。相比於公共交通的質量,有一輛好車既是地位的象徵,同時在繁忙的交通中人們有一輛車感覺會更好......這些變數可以用"正統"經濟學進行評估,但是當每一個人都有自己的價值感知時,這些變數就不能直接進行評估了。這個挑戰是在購買者和利潤率都最大化時定義產品和價格。所以理解文化價值和宏觀經濟因素對感知的影響之間的對抗是重要的,這將對你進行分析更加有利。而且,理解個人行為是個性化的關鍵,同時這也是數據科學中的一個重要主題。順便說一句,根據以上的例子,利率同樣來自主觀的因素,比如借款人和貸款人的時間偏好。
理解經濟學是處理國際業務的關鍵。明知道宏觀經濟動態並不能夠徹底地被GDP或者(貿易)順差這樣的主流指標解決,將迫使你自然而然地陷入可選擇但強制的辯解中。
出於我個人對金融危機的好奇,我大約在2008年的時候啟動了這些課題,但是我直到2012年的時候才發布了以下這些資源:
Winning At Innovation: The A-to-F Model
Innovation is a responsibility normally assigned to R&D departments but this is not enough. Companies need a systematic…www.amazon.co.uk
Economics
The MIT Press has been a leader in open access book publishing for two decades, beginning in 1995 with the publication…mitpress.mit.edu
Journals
Political Theory It seems to be universal that elected officials are seduced by the fantasy thesis that election to…mises.org
Demand: Creating What People Love Before They Know They Want It
Demand is one of the few economic terms almost everyone knows. Demand drives supply. When demand rises, it stimulates…www.amazon.co.uk
這些是怎麼結合起來的呢?
現在,假設你是在一家負責CRM(客戶關係管理)和訂閱主要寵物產品供應商的內容管理的機構工作。
以你對商業和人群不斷變化的理解,你寫了一個包含能夠對潛在客戶分類,並能識別「呼叫中心背景噪音有多大「與發表在企業APP上的「不斷增長的有關醜陋的狗狗內容」的綜合因素有關的根本原因的代碼。
你還了解到"客戶中心的響度"與「狗狗的醜陋」不是獨立思考的客戶流失的主要原因。你把這些你用python的Season庫並且你允許它使用這些數據並用數據可視化工具活動起來建立起來的圖表呈遞給你的首席戰略官。你已經成功地向組織的主要領導解釋了結論是如何形成的,就像指揮管弦樂隊的大師,但是你用對數學和統計建模的紮實理解的能力替代了指揮棒。你很自信,你的論點很有道理,這導致了領導層的認可,因為你現在正在創造一個欣欣向榮的環境來討論真正的問題,而不是謬誤。CRM將解決客戶容易流失的客戶案例,內容經理現在將開始發布有關llamas的更多信息,這將增加節假日的附加銷售,因為您的大多數客戶都居住在秘魯一個旅遊頻繁的城市。
最後,您還使用在GPU上運行的密集神經網路的TensorFlow來訓練這種流失預測演算法,來處理數十億條記錄和特性。它的部署方式是,即時評估應用程序、網站、實體商店和呼叫中心內客戶的所有交互,使系統能夠了解模式,並在檢測到高流失可能性時通知您。
數據科學不僅僅是演算法。資源:https://xkcd.com/1831/
聽起來很瘋狂,但這就是數據科學的重點:將問題轉化為答案,將挑戰轉化為巨大的機遇(在許多情況下,需要幾個月甚至幾年時間!)
總體思路當然,你接觸新信息的速度將超過你吸收新信息的能力。我仍然在學習許多我不完全理解的事情的進程上。誠然,我的學位和專業經驗幾乎是自然地幫助我在這一領域中立足的,但以上資源是獨立的,我可以放心地說,幾乎每個職業都有可轉移的技能,可以用於數據科學。選擇一個開始的地方可能是令人望而生畏的,特別是有這麼多可用的信息,但我希望經驗可以幫助您找到一些資源開始。
展望未來我對數據科學有很多樂趣,我相信那些喜歡多學科領域和不斷學習的人也會有。現在,我仍然依靠上面的一些資源來繼續前進。不過,我更重視傾聽人們的經歷。
事實上,它周圍的炒作和嗡嗡聲會讓很多人感到沮喪,許多神話-和過於簡單化-出現,但無論你是開始或只是路過,我希望這些資源對你有用。
想聽聽關於數據科學和A.I.的更多信息嗎?
在 twitter 上和媒體上關注我,在媒體上我會更經常地分享和發布這些主題。
想要繼續查看該篇文章相關鏈接和參考文獻?
長按鏈接點擊打開或點擊【如果你想學數據科學,這7類資源千萬不能錯過】:
https://ai.yanxishe.com/page/TextTranslation/1213
AI研習社每日更新精彩內容,觀看更多精彩內容:雷鋒網雷鋒網雷鋒網
命名實體識別(NER)綜述傑出數據科學家的關鍵技能是什麼?初學者怎樣使用Keras進行遷移學習如果你想學數據科學,這 7 類資源千萬不能錯過等你來譯:
深度學習目標檢測演算法綜述一文教你如何用PyTorch構建 Faster RCNN高級DQNs:利用深度強化學習玩吃豆人遊戲用於深度強化學習的結構化控制網路 (ICML 論文講解)※萬豪 5 億用戶數據遭泄,我們該如何 5 步自救?
※包圓北京20張路測新牌照,Apollo自動駕駛腳步「不剎停」
TAG:雷鋒網 |