數據分析如何入門,怎麼樣成為一個初級數據分析師
1.數據與數據分析
數據其實就是對事物特徵的定性職稱以及量化描述,比如一個人的身份證號,年齡,收入,身高,家庭情況等就構成了一組數據,如果把很多人的這些數據匯成表,便構成了「結構化」,但是有一些或者大部分的數據都不是規整的,也就是分布比較雜亂,沒有按照相關規律排布或者不是按照我們的要求分布的稱之為「非結構化」的數據。
數據分析的本質是什麼?那就是將這些結構化或者非結構化的數據,映射到指定格式的數據空間裡面,然後進行分析。
這句話說的比較繞,但是卻非常深刻,它告訴我們,數據分析的一個基礎就是尋找合適的數據空間映射方案或者可以理解為數據清洗。
2.掌握兩類工具
工具則大體可以分為兩種,一是基礎性的excel,spss,sas等數據分析軟體以及許多資料庫管理工具,它們主要處理的是結構化的數據,也就是把數據生成表的規整數據;二是編程語言,包括python,R,Java,Ruby等,這些語言工具主要是處理數據空間映射和清洗工作的,其中,比較常用的是python和R,前者由於其可擴充性,已經在大多數情況下優於後者了。
3.學習
請注意一點:python學習,對於沒有任何計算機基礎的人來說,基本上是開頭容易、越往後面越難!python一開始的類似自然語言的結構很友好,但你到了函數與面向對象的學習的時候,還是必須明確引用變數的變化以及作用域的動態變化等對入門者不友好的問題。
在這種情況下,《head first python》根本不適合,不要用它學習python!
如果有條件我的建議是,花點錢找個靠譜的數據分析培訓機構學習,這樣會節省很多時間,順便說一下加米穀數據分析與挖掘培訓,本月18號就開課了,有興趣的可以來了解一下,一定不會讓你失望的!
推薦幾本書:
可以看看入門的統計學教材:《深入淺出統計學 》
以及入門與深入理解資料庫原理:《MySQL必知必會 》+《資料庫系統概念 》
《R語言編程藝術 》
最後,可以使用《利用Python進行數據分析 》將所有知識串接起來,感受pandas以及scipy,numpy中的數據計算是如何體現數據空間映射這個深刻概念的。
※加米穀大數據:2入門介紹kafka0.10.x
※加米穀大數據:1下載kafka0.10.x
TAG:加米穀大數據 |