如何快速成為數據分析師

最新 09-26

沒有任何牛逼的事情是能夠速成的，越是像數據分析這種收益周期長的技能，越是這樣。

但這並不代表，我們不能用一些有意思的方式，把學習的過程變得高效而有趣。這篇文章是要給所有正在學習數據分析，甚至還沒入門的同學一個高效的學習路徑，讓更多人可以平滑地、高效地成為專業數據分析師。

學習一門技術之前，你應該知道，你想要達成的目標是什麼樣的，也就是說，你想通過這門技術來解決哪些問題。有了這個目標，你就可以知道要達成這樣的目標，它的知識體系是怎麼樣的。只有明確的目標導向，學習最有用的那部分知識，才能避免無效信息降低學習效率。

如果你要成為數據分析師，那麼你可以去招聘網站看看，對應的職位的需求是什麼，一般來說你就會對知識體系有初步的了解。企業對技能需求可總結如下：

SQL資料庫的基本操作，會基本的數據管理

會用Excel/SQL做基本的數據提取、分析和展示

會用腳本語言進行數據分析，Python or R

有獲取外部數據的能力加分，如爬蟲或熟悉公開數據集

會基本的數據可視化技能，能撰寫數據報告

熟悉常用的數據挖掘演算法：回歸分析、決策樹、分類、聚類方法

其次是數據分析的流程，一般可以按「數據獲取-數據存儲與提取-數據預處理-數據建模與分析-數據可視化」這樣的步驟來實施一個數據分析項目。按照這個流程，每個部分需要掌握的細分知識點如下：

高效的學習路徑是什麼？就是數據分析的這個流程。按這樣的順序循序漸進，你會知道每個部分需要完成的目標是什麼，需要學習哪些知識點，哪些知識是暫時不必要的。

每學習一個部分，你就能夠有一些實際的成果輸出，有正向的反饋，你才會願意花更多的時間投入進去。以解決問題為目標，效率自然不會低。

按照上面的流程，我們總結學習路徑如下：

python基礎知識

python爬蟲

SQL語言

python科學計算包：pandas、numpy、scikit-learn

統計學基礎

回歸分析方法

數據挖掘基本演算法：分類、聚類

模型優化：特徵提取

數據可視化：seaborn、matplotlib

接下來我們分別從每一個部分講講具體應該學什麼、怎麼學。

- -

數據獲取：公開數據、Python爬蟲

如果接觸的只是企業資料庫里的數據，不需要要獲取外部數據的，這個部分可以忽略。但還是建議每一個數據分析師，都兼備外部數據獲取的能力。

外部數據的獲取方式主要有以下兩種。

第一種是獲取外部的公開數據集，一些科研機構、企業、政府會開放一些數據，你需要到特定的網站去下載這些數據。這些數據集通常比較完善、質量相對較高。給大家推薦一些常用的可以獲取數據集的網站：

UCI：加州大學歐文分校開放的經典數據集，被很多數據挖掘實驗室採用。

http://archive.ics.uci.edu/ml/datasets.html

國家數據：數據來源於中國國家統計局，包含了我國經濟民生等多個方面的數據。

CEIC：超過128個國家的經濟數據，能精確查找GDP、進出口零售，銷售等深度數據。

中國統計信息網：國家統計局官方網站，彙集了國民經濟和社會發展統計信息。

優易數據：由國家信息中心發起，國內領先的數據交易平台，很多免費數據。

數據堂：同為數據交易平台，包含語音識別、醫療健康、交通地理、電子商務、社交網路、圖像識別等方面的數據。

另一種獲取外部數據費的方式就是爬蟲。

比如你可以通過爬蟲獲取招聘網站某一職位的招聘信息，爬取租房網站上某城市的租房信息，爬取豆瓣評分評分最高的電影列表，獲取知乎點贊排行、網易雲音樂評論排行列表。基於互聯網爬取的數據，你可以對某個行業、某種人群進行分析。

在爬蟲之前你需要先了解一些 Python 的基礎知識：元素（列表、字典、元組等）、變數、循環、函數………

推薦：Python-菜鳥教程

http://www.runoob.com/python3/python3-tutorial.html

以及，還需要了解如何用 Python 庫（urllib、BeautifulSoup、requests、scrapy）實現網頁爬蟲。如果是初學，建議從urllib 和 BeautifulSoup開始。（PS：後續的數據分析也需要 Python 的知識，以後遇到的問題也可以在這個教程查看）

網上的爬蟲教程不要太多，爬蟲上手推薦豆瓣的網頁爬取，一方面是網頁結構比較簡單，二是豆瓣對爬蟲相對比較友好。

掌握基礎的爬蟲之後，你還需要一些高級技巧，比如正則表達式、模擬用戶登錄、使用代理、設置爬取頻率、使用cookie信息等等，來應對不同網站的反爬蟲限制。

除此之外，常用的的電商網站、問答網站、二手交易網站、婚戀網站、招聘網站的數據，都是很好的練手方式。這些網站可以獲得很有分析意義的數據，最關鍵的是，有很多成熟的代碼，可以參考。

- -

數據存取：SQL語言

你可能有一個疑惑，為什麼沒有講到Excel。在應對萬以內的數據的時候，Excel對於一般的分析沒有問題，一旦數據量大，就會力不從心，資料庫就能夠很好地解決這個問題。而且大多數的企業，都會以SQL的形式來存儲數據，如果你是一個分析師，也至少要懂得SQL的操作，能夠查詢、提取公司的數據。

SQL作為最經典的資料庫工具，為海量數據的存儲與管理提供可能，並且使數據的提取的效率大大提升。你需要掌握以下技能：

提取特定情況下的數據：企業資料庫里的數據一定是大而繁複的，你需要提取你需要的那一部分。比如你可以根據你的需要提取2017年所有的銷售數據、提取今年銷量最大的50件商品的數據、提取上海、廣東地區用戶的消費數據……，SQL可以通過簡單的命令幫你完成這些工作。

資料庫的增、刪、查、改：這些是資料庫最基本的操作，但只要用簡單的命令就能夠實現，所以你只需要記住命令就好。

數據的分組聚合、如何建立多個表之間的聯繫：這個部分是SQL的進階操作，多個表之間的關聯，在你處理多維度、多個數據集的時候非常有用，這也讓你可以去處理更複雜的數據。

SQL這個部分相對來說比較簡單，可以去這個教程：

MySQL-菜鳥教程

http://www.runoob.com/mysql/mysql-tutorial.html

當然，還是建議你找幾個數據集來實際操作一下，哪怕是最基礎的查詢、提取等。你可以去調用一些公司的數據來進行實際的演練，如果沒有合適的，這裡推薦UCI的經典數據集：

鳶尾花數據集

http://archive.ics.uci.edu/ml/machine-learning-databases/iris/

- -

數據預處理：Python（pandas）

很多時候我們拿到的數據是不幹凈的，數據的重複、缺失、異常值等等，這時候就需要進行數據的清洗，把這些影響分析的數據處理好，才能獲得更加精確地分析結果。

比如銷售數據，有一些渠道的銷售是沒有及時錄入的，有一些數據是記錄重複的。比如用戶行為數據，有很多無效的操作對分析沒有意義，就需要進行刪除。

那麼我們需要用相應的方法去處理，比如殘缺數據，我們是直接去掉這條數據，還是用臨近的值去補全，這些都是需要考慮的問題。

對於數據預處理，學會 pandas （Python包）的用法，應對一般的數據清洗就完全沒問題了。需要掌握的知識點如下：

選擇：數據訪問（標籤、特定值、布爾索引等）

缺失值處理：對缺失數據行進行刪除或填充

重複值處理：重複值的判斷與刪除

空格和異常值處理：清除不必要的空格和極端、異常數據

相關操作：描述性統計、Apply、直方圖等

合併：符合各種邏輯關係的合併操作

分組：數據劃分、分別執行函數、數據重組

Reshaping：快速生成數據透視表

網上有很多 pandas 的教程，主要是一些函數的應用，也都非常簡單，如果遇到問題，可以參看 pandas 操作的官方文檔。

pandas 官方文檔

http://pandas.pydata.org/pandas-docs/stable/tutorials.html

推薦書：《利用Python進行數據分析》

- -

概率論及統計學知識

數據整體分布是怎樣的？什麼是總體和樣本？中位數、眾數、均值、方差等基本的統計量如何應用？如果有時間維度的話隨著時間的變化是怎樣的？如何在不同的場景中做假設檢驗？數據分析方法大多源於統計學的概念，所以統計學的知識也是必不可少的。需要掌握的知識點如下：

基本統計量：均值、中位數、眾數、百分位數、極值等

其他描述性統計量：偏度、方差、標準差、顯著性等

其他統計知識：總體和樣本、參數和統計量、ErrorBar

概率分布與假設檢驗：各種分布、假設檢驗流程

其他概率論知識：條件概率、貝葉斯等

有了統計學的基本知識，你就可以用這些統計量做基本的分析了。通過可視化的方式來描述數據的指標，其實可以得出很多結論了：比如排名前100的是哪些，平均水平是怎樣的，近幾年的變化趨勢如何……

你可以使用 Seaborn、matplotlib 等（python包）做一些可視化的分析，通過各種可視化統計圖，並得出具有指導意義的結果。了解假設檢驗之後，可以對樣本指標與假設的總體指標之間是否存在差別作出判斷，以驗證結果是否在可接受的範圍。

推薦書：《深入淺出統計學》

- -

Python 數據分析

如果你有一些了解的話，就知道目前市面上其實有很多 Python 數據分析的書籍，但每一本都很厚，學習阻力非常大。但其實真正最有用的那部分信息，只是這些書里很少的一部分。比如用 Python 實現不同案例的假設檢驗，其實你就可以對數據進行很好的驗證。

比如掌握回歸分析的方法，通過線性回歸和邏輯回歸，其實你就可以對大多數的數據進行回歸分析，並得出相對精確地結論。這部分需要掌握的知識點如下：

回歸分析：線性回歸、邏輯回歸

基本的分類演算法：決策樹、隨機森林……

基本的聚類演算法：k-means……

特徵工程基礎：如何用特徵選擇優化模型

調參方法：如何調節參數優化模型

Python 數據分析包：scipy、numpy、scikit-learn等

在數據分析的這個階段，重點了解回歸分析的方法，大多數的問題可以得以解決，利用描述性的統計分析和回歸分析，你完全可以得到一個不錯的分析結論。

當然，隨著你實踐量的增多，可能會遇到一些複雜的問題，你就可能需要去了解一些更高級的演算法：分類、聚類。

然後你會知道面對不同類型的問題的時候更適合用哪種演算法模型，對於模型的優化，你需要去學習如何通過特徵提取、參數調節來提升預測的精度。這就有點數據挖掘和機器學習的味道了，其實一個好的數據分析師，應該算是一個初級的數據挖掘工程師了。

你可以通過 Python 中的 scikit-learn 來實現數據分析、數據挖掘建模和分析的全過程。

推薦：scikit-learn官方文檔

http://scikit-learn.org/dev/_downloads/scikit-learn-docs.pdf

- -

系統實戰與數據思維

到這個時候，你就已經具備了數據分析的基本能力了。但是還要根據不同的案例、不同的業務場景進行實戰，練習解決實際問題的能力。如何進行實戰呢？

上面提到的公開數據集，可以找一些自己感興趣的方向的數據，嘗試從不同的角度來分析，看看能夠得到哪些有價值的結論。

另一個角度是，你可以從生活、工作中去發現一些可用於分析的問題，比如上面說到的電商、招聘、社交等平台等方向都有著很多可以挖掘的問題。

開始的時候，你可能考慮的問題不是很周全，但隨著你經驗的積累，慢慢就會找到分析的方向，有哪些一般分析的維度，比如top榜單、平均水平、區域分布、年齡分布、相關性分析、未來趨勢預測等等。隨著經驗的增加，你會有一些自己對於數據的感覺，這就是我們通常說的數據思維了。

如果在分析思路和報告撰寫過程中遇到困難，你也可以看看專業的行業分析報告，比如：

艾瑞諮詢

看看優秀的分析師看待問題的角度和分析問題的維度，其實你會發現養成數據思維，也並不是一件困難的事情。

正好，DC學院推出的這門系統的數據分析課程，就是按照這樣的學習路徑。是無數分析師的爬坑經驗、以及無數本書的總結，60天，足夠打敗市面上多半所謂的分析師。

DC學院數據分析師課程，60天入門數據分析

第一期有2000+人加入學習

所以這期我們跟DC學院申請了粉絲優惠

￥499（原價599），限前300名

附：《數據分析（入門）》課程大綱

60天入門數據分析師

第一章：開啟數據分析之旅（1天）

1) 數據分析的一般流程及應用場景

2) Python 編程環境的搭建及數據分析包的安裝

第二章：獲取你想要的數據（2周）

1) 獲取互聯網上的公開數據集

2) 用網站 API 爬取網頁數據

3) 爬蟲所需的 HTML 基礎

4) 基於 HTML 的爬蟲，Python（Beautifulsoup）實現

5) 網路爬蟲高級技巧：使用代理和反爬蟲機制

6) 應用案例：爬取豆瓣 TOP250 電影信息並存儲

第三章：數據存儲與預處理（2周）

1) 資料庫及 SQL 語言概述

2) 基於 HeidiSQL 的資料庫操作

3) 資料庫進階操作：數據過濾與分組聚合

4) 用 Python 進行資料庫連接與數據查詢

5) 其他類型資料庫：SQLite&MongoDB

6) 用 Pandas 進行數據預處理：數據清洗與可視化

第四章：統計學基礎與 Python 數據分析（3周）

1）探索型數據分析：繪製統計圖形展示數據分布

2）探索型數據分析實踐：通過統計圖形探究數據分布的潛在規律

3）描述統計學：總體、樣本和誤差，基本統計量

4）推斷統計學：概率分布和假設檢驗

5）驗證型數據分析實踐：在實際分析中應用不同的假設檢驗

6）預測型數據分析：線性回歸

7）預測型數據分析：Python中進行線性回歸（scikit-learn實現）

8) 預測型數據分析：分類及邏輯回歸

9) 預測型數據分析：其它常用回歸和分類演算法（k近鄰、決策樹、隨機森林）

10) 預測型數據分析：聚類演算法（k均值、DBSCAN）

11) 預測型數據分析：用特徵選擇方法優化模型

12) 預測型數據分析實踐：用 scikit-learn 實現數據挖掘建模全過程

13) 預測型數據分析實踐：用 rapidminer 解決商業分析關鍵問題

14) 高級數據分析工具：機器學習、深度學習初探

第五章報告撰寫及課程總結（1周）

1) 養成數據分析的思維

2) 數據分析的全流程及報告撰寫的技巧

3) 課程回顧以及一些拓展

每課都有學習資料

即便你有很強的資源獲取能力，或者你已經收藏了很多乾貨，但我們還是很想幫你節約篩選有效信息的時間，已經幫你找到最有用的那部分，你可以把更多的時間用來做更多的練習和實踐。

考慮到各種各樣的問題，課程中每一節都準備了學習資料。主要包含四個部分：

課程中重要的知識點，資料中會進行詳細闡述，幫助理解；

默認你是個小白，補充所有基礎知識，哪怕是軟體的安裝與基本操作；

課程中老師的參考代碼打包，讓你有能力去復現案例；

提供超多延伸資料和更多問題的思路和實踐代碼，讓你可以去做更多的事情。

某節參考資料部分截圖

學完就能做競賽

DC學院首次將課程與競賽相結合，讓你有針對性地在真實數據中去實踐，並客觀地檢測自己的學習成果。針對課程專門設計的三個數據分析競賽已經全部上線，學完課程即可參加，提交分析結果可以即時獲得評分，並查看自己在同學中的排名。

目前不少同學在學習之後參與競賽，排行榜也在不斷被刷新中：

員工離職預測 TOP10 （截止9月21日）

帶你一步步實操的導師

課程採用錄播的形式，你可以按照自己的節奏來規劃學習節奏。為準備這個課程，DC學院邀請了兩位能夠為你提供學習方向的絕對大牛老師，為你分析最前沿的案例，覆蓋交通、金融、在線社區、體育運動等多個領域，事無巨細，帶你一步步實踐。

【課程主講老師】

王樂業

香港科技大學博士後

王樂業，香港科技大學博士後，法國國立電信學院及巴黎六大計算機科學與技術專業博士。本科和碩士畢業於北京大學計算機科學與技術專業。目前研究方向研究方向為城市時空數據挖掘。從事研究工作包括通過社交網路識別個人興趣、通過移動通信網路推理人群移動模式、以及通過公共交通數據優化交通站點分布等。發表論文20餘篇，其中SCI10餘篇，引用300餘次。樂業老師是一位樂於分享的學者，善於用簡單的方法解答覆雜的問題。在他看來，找到好的學習方法和路徑，其實可以少走很多彎路。

【課程研發老師】

周濤

電子科技大學教授

周濤，電子科技大學教授、大數據研究中心主任。主要從事統計物理與複雜性，數據挖掘與數據分析方面的研究。在 Physics Reports、PNAS、Nature Communications等國際 SCI 期刊發表300餘篇學術論文，引用超過17000次，H 指數為63。2015年入選全國十大科技創新人物，超級暢銷書《大數據時代》譯者，暢銷書《為數據而生:大數據創新實踐》作者。周濤教授參與課程的研發和課程體系的設計，以多年的教學科研和企業數據團隊管理經驗為課程的頂層設計保駕護航。

除此之外，你還會遇到指導你每一個細節的答疑老師，在學習群里，你的問題能夠得到快速解答，即便是最初級的問題。還有一群未來的優秀分析師，跟你一起，探索數據分析技術。第在短時間內，有不少同學都有了從0到1的進步：