當前位置:
首頁 > 最新 > 不幹貨不分享——數據分析講座

不幹貨不分享——數據分析講座

編寫|小X

講師|Fred& Ray

Data Scientists

Fred是軟體工程師出身,博士期間主攻多媒體數據處理,包括圖片處理、文本處理和信息融合。目前作為Data Scientist在公司主要負責風險控制和用戶反欺詐的數據分析和數據研究。

Ray在博士期間的研究方向是Natural Language Processing 和Deep Learning。工作後主要參與機器學習模型的開發。

問答

Q1

哈佛商業評論曾評論 「Data scientist is the sexiest job in 21st century。」 作為sexiest工作中的一員,你們是怎樣理解數據分析呢?

Fred:根據我的工作體驗,數據分析主要是應用適當統計的方法,把收集來的大量數據進行分析。然後提取一些比較有用的信息,來幫助公司在用戶需求或者其他方向上做出決策。最重要的部分應該就是從海量的信息中去掉沒有用的數據,然後提取出對決策有幫助的信息。

Ray:我理解的數據分析主要是從數據中挖出有效的Pattern, 從雜亂無章的文本或Unstructure的數據結構中提取出Structure的信息,幫從而助大家的更便利的工作。

Q2

根據你們的工作經驗,可以介紹下數據分析的大致步驟嗎?

Fred:我的話通常第一步是數據的抓取或者可以說是log數據的獲取、存放,構建一個完整ETL的系統,得到原始的數據。第二步是做Data Cleaning,是很重要的一步。不涉及建模的話,第三步是統計分析,算一下均值或者standard division,如果是做Prediction或想要發現一些pattern,需要做一些machine learning的Model。最後會涉及一些Visualization, 讓結果更能被business team的人使用。

Ray:首先是目標確定,要知道我們做數據分析的目的是什麼。像如果是做風險控制,那目標就是找到存在欺詐行為的顧客,分析他們的行為。看看哪些行為、哪些數據對我們找到包括這些欺詐者有幫助。第二步,數據的獲取。根據第一步定下的目標, 我們可以知道需要什麼樣的數據。第三步,得到數據之後,得到的數據都是雜亂無章的,需要進行數據清洗,去掉一些我們認為的雜訊,或者對某一些缺失的數據,想辦法進行清理。第四步是進行數據的整理,把數據放在結構化的數據表裡,或者以結構化的形式存儲起來。根據我們的需求,找到欺詐的行為或者模式。

再接下來,需要進行數據建模,會用到machine learning的方法,也可能會基於一些規則,找到欺詐行為。建完模型之後,我們會得到模型的輸出,進行數據可視化,計算找到了多少欺詐的行為。下一步是通過可視化的結果,以及模型訓練出來的結果進行決策,對這些存在欺詐行為的顧客採取一定的懲罰。

最後當我們進行了一些線上的決策之後,我們會得到真實用戶的反饋,開始模型的調優,模型的驗證,觀察模型的結果或者Performance是怎麼樣的,進而進行修改或者優化,這是一個不斷迭代的過程。

總體來說,就是原始數據獲取,數據清洗,數據整理,建模分析,數據可視化、做決策、根據決策和實際情況,進行模型的調優。

Q3

很多人對數據分析的崗位很感興趣,請問在數據分析行業中,有哪些數據分析的崗位呢? 他們之間有什麼區別呢?

Fred:我所了解的通常有三個職位,Data analyst,Data engineer以及Data scientist。

Data engineer負責data infrastructure的維護和建立,比如spark的維護搭建;Data analyst偏向於business,把信息變成business insights,讓公司更容易理解數據,做商業決策,也會幫data scientist做performance tracking;Data scientist主要做machine

learning projects,比如推薦系統/paid ads/決策模型建模/prediction model等。

Ray:我所了解的和Fred類似,稍微區別在於,Data engineer 是獲取數據,存放在合適的位置,負責把數據轉換為數據表;Data analyst會根據數據表,查詢、計算趨勢等,提供一些數據簡單的分析;Data scientist主要負責建立模型,用machine learning做用戶行為分析,比如如何detect商業欺詐行為等。Data enginner也會考慮如何把model在系統中實現。

Q4

想要做數據分析師,你們認為哪些技能是重要的呢? 你們當初是如何選擇進入數據分析領域的呢?

Fred:作為數據分析師,我認為第一要素是programming,我們每個Data Scientist一定會coding,會寫code,其次相比software engineer,我們需要有很強的communication 能力,因為我們需要和做商業決策的人交流,讓他們相信數據分析是對真實情況的反應;同時,對所在的行業的了解,只有理解了行業,才能做problem formulation,才能做適合的建模。

所以是三點:programming,communication, business knowledge。

我進入數據分析是因為我phd專業就是數據分析,自然而然的選擇進入了數據分析領域。

Ray:數據分析師需要有programming skill,其次需要一些statistic background,統計知識是數據分析基礎。第三就是需要了解相關的領域。準備進入這個領域,可以學一學machine learning的課程。

入門的話,可以考慮Xcourse 的data analytics課程,實用性比較強,涵蓋了SQL,Tableau和Python這些比較重要的技能。

Q5

從事數據分析領域這麼多年,有沒有什麼特別的感悟?

Fred:我曾經有過一次經歷,是模型更新後,精準度突然變差。花了很多時間找原因,發現是因為一些data pipeline的問題。

我舉這個例子是想說,我們在比賽中,在學校時,往往都是有了完整的數據,但是現實世界中,涉及到了方方面面的東西,project的困境會遇到各種問題,比如數據清理,數據準備,數據傳輸,現實中的挑戰更大,我們需要更系統的設計machine learning的pipeline。這是工作中需要積累的經驗,也是以後自己做數據分析師的寶貴財富。

Ray:做數據分析的工作,總會得出很多有意思的結論。有時候,單看結果你會感覺很奇怪,但背後其實有一個複雜的演算法,分析中很少會只考慮單一因素,通常都是綜合考慮,給出最優的分配。

Q6

做了這麼久的Data Scientist, 有什麼建議給想要入行的人嗎?

Fred:數據分析行業有泡沫,進入了我們生活,但是基本需求是不會變的。如果大家感興趣,就要抓住機會,積累實踐經驗,哪怕泡沫退去,也不會受到衝擊。這是我的第一個建議。然後其次就是相比之前,知識獲取方式越來越多樣,以前是在學校,但是現在網上或者我們身邊有很多資源,都可以提供很好的平台,積累專業知識,所以說我們要有終身學習能力。

Ray:我認為數據分析一定是未來。華為有一句話,一切用數據說話。商業決策都需要用數據支持,我覺得入行的人要打好數據分析基礎,比如sql,python獲得想要的數據,同時你也要懂得如何讀數據,tableau的工具是很有用的。在一般的數據分析工作中,sql是最基本的語言,python大部分人也會經常使用,看到了數據後,我們也需要用一些Data Visualization的工具,像Tableau把數據展現出來。

GIF

講座的精彩內容很多,小X只是截取了其中一部分。看的不過癮?下次不要錯過小X的福利啦!

聽完大牛的分享,有沒有對加入數據分析師的行列心動?這裡向大家誠意推薦由Xcourse推出的Data Analytics基礎課程,由職業經驗豐富的業界大牛主講,深入淺出,無需編程背景,閑暇時間即可學習。

超強實用性 + 精英講師隊伍 + 合理課程設計 + 秒殺市場價的課程費用,選擇Xcourse,選擇最適合你的改變。

課程信息

Introduction toData Analytics

好消息!Xcourse推出的特別課程——「16天玩轉數據分析「,已經開始4月課程的報名。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Xcourse 的精彩文章:

TAG:Xcourse |