當前位置:
首頁 > 科技 > 這份修鍊指南,讓你成為不禿頭的數據工程師!

這份修鍊指南,讓你成為不禿頭的數據工程師!

全文共2190字,預計閱讀時長4分鐘

也許想要從事數據研究領域的你,一直不太清楚數據工程師和數據科學家之間的區別,甚至不少人可能覺得這就是一回事兒。如果你真的這麼想,那就大錯特錯啦!這兩種職位的差異如今正在逐步加大,如果你不能深入地了解異同之處,那未來等著你去踩的雷絕對不在少數。這篇文章,不得不讀!

數據工程師的工作技術性很強。他們負責設計和維護數據系統架構,這其中涵蓋了從基礎設施分析到數據倉庫等眾多概念。數據工程師需要對常用腳本語言有深入的理解,並通過利用和改進數據分析系統,穩步提高數據質量和數量。他們還負責創建用以建模、挖掘、驗證和獲取數據的步驟和流程。

據預測,行業內對技術嫻熟的數據工程師的需求量將快速增長。在現代世界,企業、組織需要穩固的數據架構以獲取和存儲數據。當一個企業壯大到需要運用數據科學時,就需要數據工程師了。其結果便是當下對數據工程師的急切需求。

一些企業以為所需的數據工程的技巧和經驗可以在項目中得到學習和積累。而Umbel的資深主管Kevin Safford認為,這樣想通常都是錯的。他補充道:「如果沒有具體地認真學習,實實在在地去構建數據管道、數據管理系統、數據分析以及編寫所有的中間代碼,使數據可用、可訪問並確保其正確,並確保分析的正確性——如果你沒有這些經驗,你可能就會以為這些東西慢慢就能學會。我見過很多人都這樣想。他們多數都是錯的,錯的還都一樣。」

數據工程師vs數據科學家

數據工程師和數據科學家的技能和責任常常重合,然而這兩種職位的差異卻在逐步加大。

數據科學家側重將大數據轉化為商業智能,而數據工程師更多地在為數據生成建設數據架構和基礎設施。數據科學家的工作環境和基礎設施需要數據工程師來創造。

數據科學家更注重與基礎設施的互動,而不是對其進行建設和管理,其責任還包括把原始數據轉化為有用、可理解、可執行的信息。數據科學家研究大數據,而數據工程師研究數據基礎設施和數據基礎。

數據基礎

數據基礎支撐所有形式的報告和分析。數據工程師的目標便是提供可信、完整且最新的數據以支持報告和分析。穩固的數據基礎將使企業受益巨大,使其更高效地行動和決策。其益處包括:

增加組織的交流與合作

數據的一站式購買

保存記錄的單一版本

支持企業內信息理解共識的達成

沒有高效的數據基礎,企業組織的安全風險會增高,組織內部也會變得低效。不牢固的數據基礎對一個問題會產生多個答案,也不足以支撐智能商業決策。

大數據工程技能

數據工程師需要對資料庫管理有很好理解,包括深入了解結構化查詢語言(SQL)。它們需要建設基礎設施、工具、框架和服務。一些人認為數據工程更加偏向軟體工程和應用程序研發而不是數據科學。其他有用技能包括:

Apache Hadoop, Hive, MapReduce和Hbase的使用經驗。

機器學習(ML)是數據科學家的研究重點,但對其的一些了解對數據工程也很重要。ML和大數據聯繫緊密。(ML簡化了大數據的處理流程,提供處理大數據的技術並使其合理化。)

代碼知識絕對是加分項。熟悉 C/C++, Java, Python, Perl, Golang或其他語言會很有用。掌握Linux, UNIX和Solaris 也很有幫助,因為這些是操作系統功能與硬體的根源。

對數據工程師來說,ETL(數據抽取、轉換和載入)經驗是必須的。ETL是從源系統提取數據並將其存儲在數據倉庫的數據倉庫建設過程。熟悉Segment或Oracle Warehouse Builder等ETL工具和Panoply或Redshift等數據存儲解決方案是很有用的。

ETL(數據抽取、轉換和載入)

計算機領域中,ETL被用於資料庫和倉庫構建。數據抽取、轉換和載入在二十世紀七十年代開始盛行。數據抽取指的是從同構和異構數據源中提取數據。數據轉換是說數據為便於存儲(之後被研究和分析),被轉化成合適的結構或形式。數據裝載是指把數據下載並轉移到數據集市、數據存儲區或數據倉庫的過程。

設計完善的ETL系統可以從源系統提取數據並保證數據一致性與質量標準。還能以預備演示的形式傳輸數據,允許開發人員開發應用程序,而終端用戶則決定其價值。

傳統上,ETL系統集成來自應用程序、不同供應商和計算機硬體的數據。含有原始數據的獨立系統常被不同的人操作和控制。比如,工資記賬系統的管理者可能會把銷售和採購的數據結合起來。

數據倉庫

數據倉庫被用來存儲、彙報和分析數據。對於現代商業智能,它的發展很重要。數據倉庫集中存儲一個或多個來源的集成數據,它們同時存儲當前數據和歷史數據,可用於開發分析報表。

沒有數據倉庫的話(或其更新的結構副本數據湖),大數據及任何數據科學相關的加工處理會變得非常貴或難以規模化。沒有精心設計的數據倉庫,分析者研究相同問題很容易得到不同結果。或在研究成品資料庫(沒有數據倉庫的情況下)無意間導致延遲或運行中斷。

成為數據工程師

大致上來說,成為數據工程師要取得信息技術或計算機科學學位證書並有其他相關培訓。由於每種工作環境的要求越來越個人化,數據工程教學也更加靈活。

你的學位和專業訓練很重要,但還不夠。額外證書也很有價值,有用的包括:

CCP數據工程師認證考試(Cloudera認證數據工程師證書)——提供了ETL工具和分析學的經驗證明。

谷歌的證書——證明熟悉基礎數據工程技能。

IBM認證數據工程師(大數據)——傳達的是具備大數據應用的工作經驗。

輔助認證同樣可行。比如MCSE(微軟認證解決方案專家)包含了很多主題,對特定主題還有附加認證,包括MCSE:數據管理和分析學;MCSA(微軟認證系統管理員):商業智能報表;和MCSA:微軟雲平台。此外,一些數據行業活動也能夠提供很棒的培訓和教學資源(同時提供進入互聯網的良好機會)。還有很多網路課程,能根據具體的情況提供有效培訓。

留言 點贊 發個朋友圈

我們一起分享AI學習與發展的乾貨

編譯組: 肖昂、韋振琛

相關鏈接:

http://www.dataversity.net/want-data-engineer/

如需轉載,請後台留言,遵守轉載規範

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

周末AI課堂:深度學習中的熵 理論篇
今日芯聲:致敬漫威之父:等待我們將你的夢想成為現實!

TAG:讀芯術 |