如何成為一名數據分析工程師:必備技能TOP5
什麼是數據分析工程師?
數據分析師指的是不同領域中,專門從事領域內數據搜集、清洗、分析,並依據數據特徵和統計結論,給出領域內相關問題的研究、評估和預測報告的專業人員。
01
專業領域的數據分析工程師有何特點?
1、知道如何提出正確的問題(核心特徵);
2、善於數據分析,數據可視化和數據呈現;
3、輔助科學研究,幫助降低決策成本,提高獲取科研結論的成功率,發現新的現象或者獲得新的觀點等。
02
數據分析工程師的主要任務有哪些?
1、從primary research和secondary research中收集提取數據
2、清理和選取數據,去除無關信息
3、熟悉使用統計軟體和其他技術分析和解讀數據
4、總結數據里的趨勢或相關性
5、為科學研究的提供可行建議與判斷研究觀點的可靠性
6、提供準確的數據分析和可視化報告
7、創建並管理維持資料庫,亦可開發針對特定問題的資料庫,開放給其它專業研究人員使用
——數據分析師《我的任務》
03
為什麼需要數據分析工程師?
1、大數據是一個時代,並不局限於生物領域,而且它正不斷的證明自己是一種先進生產力。現在的爆發得益於收集、存儲、分析、轉化利用數據的成本不斷下降,下降到唾手可得之時,即為爆發之時。
2、以生物醫學領域為例,從生物學角度來看,生物學科發展那麼多年,早已經進入了分子時代,以前由於技術限制,只能單個或者少數幾個基因,少量的生物個體進行研究。而這種東西在大數據面前這種研究模式不能繼續成為理所當然,因為我們不能一直管中窺豹,因為想看得更遠,只能站的更高,一定要有大局觀。人有兩萬左右的編碼基因,加上一些其他基因有4萬多,如果還是現在的基本分子生物學將無法進行研究,即使耗費足夠的精力,也無法研究清楚,因為機體是個整體,牽一髮而動全身,不通過組學將很難全局的觀測到發生的變化。
3、人的需求時無止境的,在滿足人不斷發展的需求中,各種新型技術不斷湧現。無論是對當前醫療現狀的不滿,亦或是技術發展到可以解決醫學領域的老大難問題也罷,人對疾病的精準智能診斷、藥物研發的智能化、治療方案的精準智能化的需求是在不斷被強化的,加之各種相關資源的獲取成本不斷降低,如此種種變化就必然迎來精準醫學領域蓬勃發展以及帶來數據的爆炸式增長。這些數據的不斷增加,必然需要更加智能的分析系統和專業的數據分析工程師。這就是行業新的需求以及對從業人員的新要求。
04
數據分析工程師有哪些必備技能?
要成為一名成功的數據分析師,需要的技能主要有兩大塊:挖掘問題和解決問題
挖掘問題
它是最核心的技能
主要依賴於對領域內知識和現狀的理解,同時更為重要的是興趣、好奇心與批判性思維。
解決問題
從數據角度解決問題依賴於
1、分解問題的能力
如何將挖掘到的專業問題轉變成數據問題是充滿挑戰和智慧的事,這也是用科學的方法和思路解決專業領域內問題的必備條件。
2、知識體系
統計學的基本知識、不同演算法和或統計方法3、依賴的數學基礎知識
領域數據特徵與數據產生原理(專業相關)
4、軟體工具與數據格式
對於數據分析師來說,可能每個項目的70%到80%的時間都是在收集和處理數據,他們需要首先想好需要什麼樣的數據,期望得到什麼樣的結論,從哪裡可以收集到數據?而後才是利用已有的或者自己開發相應的工具來收集、清洗、分析數據。為了能更好的從數據里提取到需要的信息,以下這些軟體就是數據分析師們常用的。
Querying language和Statistical language主要是用來做一些初步的數據分析,例如可以出一些圖表,看一下數據的分布,從而對數據有個了解。而scripting language則可以用於建模或者測試一下hypothesis。因此總的來說,這些軟體對於數據分析師來說就像廚師的刀,是必不可少的工具。
查詢語言(Querying Language)
SQL; CQL; Hive; Pig...
腳本編程語言(Scripting Language)
Python; Perl; Matlab...
統計語言(Statistical Language)
R; SAS; SPSS...
數據表(Spreadsheet)
Excel...
繪圖語言
ggplot2, EChats, AntV
其它工具
Tableau; LaTeX; PowerPoint; Word; ECharts...
計算平台工具
Hadoop; Slurm; Docker; Conda...
常用文件格式
FastQ; BAM; VCF; CSV; TSV...
05
數據科學常見過程?
1、問題陳述
識別出目標問題是什麼?
2、數據收集與存儲
數據從何而來?將它們存放在哪?存儲格式是什麼?需要多少存儲空間?等等
3、數據清洗
數據是否需要修改?有什麼需要刪除的?數據應該怎樣調整才能適用於接下來的分析與挖掘?
4、數據分析與機器學習
數據需要哪些處理?需要什麼樣的轉換?使用什麼樣的統計方法/演算法?運用什麼公式?是否需要用機器學習演算法/AI技術?使用什麼機器學習演算法?順序又是怎樣的?
5、數據展現和可視化實現
數據處理結果應該怎樣呈現出來?可以用一張或幾張數據表來表現,亦可使用熱圖、PCA、柱狀圖、WordCloud、地圖等形式。但是最佳的可視化方案是什麼?有沒有更好的替代方案呢?選用的可視化方案能否很好的與想要表達的觀點契合?
6、問題決議
在第一步里所提出來的疑問或者問題的答案究竟是什麼?數據處理結果還有哪些不足?這個方法能徹底解決問題嗎?你還能找出別的辦法嗎?
在數據分析、挖掘、機器學習或是可視化實現之前,做好相關的數據清洗工作意義重大。不過,請牢記,這是一個迭代的過程,因為在項目中我們可能需要不止一次地執行這些清洗操作。此外,我們所採用的挖掘或分析方法會影響清洗方式的選取。我們可以認為數據清洗包含了分析方法所能決定的各種任務,這有可能是交換文件的格式、字元編碼的修改、數據抽取等等。
以上,我們對數據分析工程師所必備的技能以及數據科學常見過程進行了概述,此為數據科學專欄的第一篇文章,之後我們將給大家呈現生物醫學領域的數據分析的各種工具、應用和分析方法。為您學習數據分析和解決研究中遇到的問題提供些許幫助
數據可視化是數據分析中的重頭戲,不過數據可視化本身只是用圖來展示關鍵性的信息,圖的選擇也並非一層不變的,需要依據具體需求來選擇,主要是要能用於直觀表達你的觀點!在我們研究發表文章的時候,很多編輯看完你的題目和摘要之後就會去找你的圖,如果沒有看到他想要的很多時候就會認為研究不到位或者有缺陷。一般來說論文中的圖是有規律的,不同類型的研究通常來說都需要包含一些特定類型的圖,如果你沒有可能編輯就要打個問號了!是不是少了某些實驗或者數據!另外一個就是圖表的數量,隨闡述問題的複雜程度不同圖表數量不同!所以大家可以收集一些常見的圖表,熟悉圖所表達的意義。只有真正理解圖的特點,常用於解釋或者說明哪些類型的問題,才有可能在自己研究時做到遊刃有餘。
——小編寄語
TAG:智匯醫圈Plus |