一份數據工程師必備的學習資源,乾貨滿滿
作者:PRANAV DAR
翻譯:張玲
校對:車前子
本文約6500字,建議閱讀15分鐘。
本文首先詳細介紹了數據工程的職責、與數據科學家之間的差別以及其不同的工作角色,然後重點列出了很多與核心技能相關的的優秀學習資源,最後介紹行業內認可度較高的3種數據工程認證。
簡介
在建立模型之前,在數據經過清洗用於探索分析之前,甚至在數據科學家工作開始之前,數據工程師就已經閃亮登場了。每一個數據驅動的業務都需要一個適用於數據科學管道的框架,否則就是失敗的配置。
大多數人懷揣著成為數據科學家的夢想進入數據科學世界,但卻沒有意識到數據工程師是做什麼的,或者這個角色需要具備什麼能力。數據工程師是數據科學項目的重要組成部分,以至於在當今數據豐富的環境里,產業對他們的需求正在指數式地上漲。
目前,沒有統一的或者正式的學習路線可供數據工程師使用。大多數擔任這個角色的人是通過在工作中學習的,而不是遵循一個詳細的學習路線。我寫這篇文章的目的是幫助那些想成為數據工程師,但卻不知道從哪裡開始以及從哪裡找到學習資源的人。
本文中,我列出了所有有抱負的數據工程師需要知道的事情。首先,我們將了解什麼是數據工程師,以及該角色和數據科學家的區別,然後將繼續討論你的技能寶箱中應該有的核心技能,以便完全勝任這個工作,最後我還提到了一些應該考慮的行業認可證書。
好了,讓我們直接開始吧!
目錄
1. 什麼是數據工程師
2. 數據科學家和數據工程師的區別
3. 數據工程中的不同角色
4. 數據工程認證
5. 核心數據工程技能及其學習資源
數據工程簡介
基本語言要求:Python
紮實的操作系統知識
豐富、深入的資料庫知識-SQL和NoSQL
數據倉庫-Hadoop、MapReduce、Hive、Pig、Apache Spark、Kafka
基本的機器學習知識
6. 總結
1. 什麼是數據工程師
數據工程師負責構建和維護數據科學項目的數據架構,他們必須確保伺服器和應用程序之間的數據流是連續的。改進數據基礎應用程序,將新的數據管理技術和軟體集成到現有系統中,構建數據收集管道及其他各種各樣的事情,都屬於數據工程師的職責。
數據工程中最受歡迎的技能之一是設計和構建數據倉庫的能力。數據倉庫是收集、存儲和檢索所有原始數據的地方,如果沒有數據倉庫,一個數據科學家做的所有任務就會變得要麼太昂貴,要麼太大,以至於無法拓展。
ETL(提取、轉換和載入)是數據工程師構建數據管道所遵循的步驟,它實際上是一份關於如何處理、轉換收集來的原始數據以備分析的藍圖。
數據工程師通常有著工程背景,與數據科學家不同的是,這個角色不需要太多的學術和科學知識。因此,對構建大規模結構和體系結構的開發人員或工程師非常適合這個角色。
2. 數據科學家和數據工程師之間的區別
了解這兩種角色之間的區別非常重要。從廣義上講,數據科學家綜合使用統計學、數學、機器學習和行業知識來構建模型。他/她必須使用組織支持的相同工具/語言和框架來編碼和構建這些模型。而數據工程師必須構建並維護適用於數據收集、處理和部署數據密集型應用的數據結構和體系架構。構建數據收集和存儲管道,將數據匯總給數據科學家,從而將模型投入生產-這些只是數據工程師必須執行的任務中的一部分。
要使任何大規模數據科學項目取得成功,數據科學家和數據工程師需要攜手合作,否則事情很快就會出錯。
要了解有關這兩個角色之間差異的更多信息,請訪問我們的詳細信息圖。
詳細信息圖:
https://www.analyticsvidhya.com/blog/2015/10/job-comparison-data-scientist-data-engineer-statistician/
3. 與數據工程相關的不同角色
數據架構師:數據架構師為數據管理系統收集、整合和維護所有的數據源奠定基礎,這個角色需要了解SQL、XML、Hive、Pig、Spark等工具。
資料庫管理員:顧名思義,擔任此角色的人需要對資料庫有著廣泛的了解。職責包括確保資料庫對所有需要的用戶可用,適當地維護資料庫,並且保證在添加新特性時沒有任何中斷。
數據工程師:精通以上眾多技巧的人。正如我們所見,數據工程師需要掌握資料庫工具、Python和Java語言、分散式系統(如Hadoop)等知識,這個角色負責多種組合任務。
4. 數據工程認證
谷歌認證專家
這是目前最重要的數據工程認證之一。要獲得此證書,你需要成功地通過一個具有挑戰性的、2個小時多的考試,題型是多項選擇題。你可以在這個網頁上找到考試內容的大體範圍,此外,這個網頁提供給了一些實際操作谷歌雲技術的實踐指南。請一定要看一下!
谷歌認證專家:
https://cloud.google.com/certification/data-engineer
IBM認證數據工程師
要獲得證書,你需要通過這個考試。考試包含54個問題,你必須正確回答44個。我建議在考試前,先了解IBM希望你了解的內容。「考試」鏈接中還提供了學習資料的進一步鏈接,你可以參考這些資料進行準備。
IBM認證數據工程師:
https://www.ibm.com/certify/cert?id=50001501
考試:
https://www.ibm.com/certify/exam?id=C2090-101
Cloudera的CCP數據工程師
這是另一個全球公認的認證,對新手來說是一個相當具有挑戰性的認證。你的概念需要更新和深入,你應該有一些使用數據工程工具的實踐經驗,如Hadoop,Oozie,AWS Sandbox等。但是,如果你通過這次考試,對於你獲得開啟數據工程領域工作來說,會是一個充滿希望的開始!
Cloudera曾提到,如果你參加他們的Apache Spark和Hadoop培訓課程,這將有助於你通過考試,原因是考試主要基於這兩個工具。
Cloudera的CCP數據工程師:
https://www.cloudera.com/more/training/certification/ccp-data-engineer.html
Apache Spark和Hadoop培訓課程:
https://www.cloudera.com/more/training/courses/developer-training-for-spark-and-hadoop.html
5. 數據工程核心技能及其學習資源
數據工程簡介
基本語言要求:Python
紮實的操作系統知識
豐富、深入的資料庫知識-SQL和NoSQL
數據倉庫-Hadoop、MapReduce、Hive、Pig、Apache Spark、Kafka
基本的機器學習知識
a. 數據工程簡介
在深入了解角色之間的不同方面之前,首先得了解數據工程的實質是什麼。數據工程每天執行的不同工作是什麼?頂尖技術公司想要怎樣的數據工程師?你是應該了解可見的所有一切,還是僅僅了解與某一特定角色相關的東西?我的目的是提供以下參考資料,以助你找到這些問題或者其餘更多問題的答案。
《數據工程入門指南》(第1部分):這是一篇非常受歡迎的、有關數據工程的文章,出自愛彼迎(Airbnb)的一位數據科學家之手。作者首先解釋了為什麼數據工程是所有機器學習項目中如此關鍵的一方面,然後深入探討了本主題的每個部分。我認為這是所有想要成為數據工程師、數據科學家的新手們必讀的一篇文章。
《數據工程入門指南》(第1部分):
https://medium.com/@rchang/a-beginners-guide-to-data-engineering-part-i-4227c5c457d7
《數據工程入門指南》(第2部分):接著上面的文章,第2部分將介紹數據建模、數據分區、Airflow和ETL的最佳實踐。
《數據工程入門指南》(第2部分):
https://medium.com/@rchang/a-beginners-guide-to-data-engineering-part-ii-47c4e7cbda71
《數據工程入門指南》(第3部分):這是入門指南系列中的最後一部分,本部分將介紹數據工程框架的概念。在整個系列中,作者不斷將理論與Airbnb的實踐相結合,從而寫了一篇篇精妙絕倫的文章,而且還在持續更新中。
《數據工程入門指南》(第3部分):
https://medium.com/@rchang/a-beginners-guide-to-data-engineering-the-series-finale-2cc92ff14b0
O"Reilly的免費數據工程電子書套件:O"Reilly以其優秀的圖書而出名,這一系列也不例外。不過,這些書是免費的!向下滾動到「大數據架構」部分,查看那裡的書籍。有些書籍需要有大數據基礎設施的基本知識,但這些書將有助於你熟悉複雜的數據工程任務。
O"Reilly的免費數據工程電子書套件:
https://www.oreilly.com/data/free/
b. 基本語言要求:Python
雖然還有其他的數據工程專用編程語言(如JAVA和Scala),但我們本文將只關注Python。我們看到業界已經明顯轉向使用Python,而且使用率正在快速上升。它已經成為數據工程師(和數據科學家)技能的重要組成部分。
網路上有大量的學習Python資源,我在下面提到了其中的一些。
在Scratch平台上使用Python學習數據科學的完整教程:KunalJain的這篇文章涵蓋了一系列可以用來開始學習和提升Python的資源,這是必讀的資源。
在Scratch平台上使用Python學習數據科學的完整教程:
https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/
使用Python的數據科學導論:這是Analytics Vidhya上最受歡迎的課程,涵蓋了Python的基本知識。我們還額外介紹了核心統計概念和預測建模方法,以鞏固你對python和數據科學基礎的理解。
使用Python的數據科學導論:
https://trainings.analyticsvidhya.com/courses/coursev1:AnalyticsVidhya DS101 2018T2/about
Codeacademy上學習Python課程:本課程不需要編程基礎,絕對是從python的最基礎開始,這是一個很好的起點。
Codeacademy上學習Python課程:
https://www.codecademy.com/learn/learn-python
如果你喜歡通過書本來學習,下面是一些免費的電子書,便於你開始學習:
Allen Downey的《思考Python》:全面深入地介紹了Python語言,非常適合新手,甚至非程序員。
Allen Downey的《思考Python》:
http://www.greenteapress.com/thinkpython/thinkpython.pdf
Python 3的非程序員教程:顧名思義,它是非IT背景和非技術背景新手們的完美起點,每章都有大量的示例來測試你的知識。
Python 3的非程序員教程:
https://upload.wikimedia.org/wikipedia/commons/1/1d/Non-Programmer"s_Tutorial_for_Python_3.pdf
c. 紮實的操作系統知識
在整個數據科學世界的「機器」中,操作系統是使管道運轉起來的重要「齒輪」。數據工程師應該了解基礎設施組件(如虛擬機、網路、應用程序服務等)的輸入和輸出。你對伺服器管理有多精通?你對Linux是否有足夠的了解,可以瀏覽不同的配置嗎?你對訪問控制方法有多熟悉?作為一名數據工程師,這些只是你將面臨的一些問題。
Linux伺服器管理和安全:本課程是為那些想了解Linux如何在公司應用的人而設計的,課程內容分為4周(最後還有一個項目),詳細介紹了這個主題中的所有基本內容。
Linux伺服器管理和安全:
https://www.coursera.org/learn/linux-server-management-security
CS401-操作系統:和其他操作系統課程一樣全面,這個課程包含9個部分,專門介紹操作系統的不同方面。主要介紹基於Unix的系統,儘管Windows也包括在內。
CS401-操作系統:
https://learn.saylor.org/course/cs401
Raspberry Pi平台和Raspberry Pi的python編程:這是一個炙手可熱的編程方式,現在對這種編程人員的需求空前高漲。本課程旨在讓你熟悉Raspberry Pi環境,並讓你開始學習Raspberry PI上的python基本代碼。
Raspberry Pi平台和Raspberry Pi的python編程:
https://www.coursera.org/learn/raspberry-pi-platform
d. 豐富、深入的資料庫知識-SQL和NoSQL
為了成為一名數據工程師,你需要熟練掌握資料庫語言和工具。這是另一個非常基本的要求,你需要具備實時從資料庫收集、存儲和查詢信息的能力。現今有很多可用的資料庫,我已經列出了目前在業界廣泛使用的資料庫的相關資源,分為SQL和NoSQL兩部分。
SQL資料庫
免費學習SQL:這是codecademy另一個課程,你可以在這裡學到SQL很基本的知識,像操作、查詢、聚合函數這些主題從一開始就涵蓋了。如果你是這個領域的新手,沒有比這更好的起點了。
免費學習SQL:
https://www.codecademy.com/learn/learn-sql
快速查找SQL命令的備忘錄:一個非常有用的Github存儲庫,包含定期更新的SQL查詢和示例。為了保證你在任何時候都可以快速查找SQL相關命令,請將為這個存儲庫加入收藏,作為日常參考。
快速查找SQL命令的備忘錄:
https://github.com/enochtangg/quick-SQL-cheatsheet
MYSQL教程:MySQL創建於20多年前,至今仍是業界的熱門選擇。這個資源是一個基於文本的教程,易於理解。這個站點最酷的是,每個主題都附帶實用示例的SQL腳本和屏幕截圖。
MYSQL教程:
學習Microsoft SQL Server:本教程從基礎知識到更高的主題探討SQL Sever的概念,並以代碼和詳細的屏幕截圖的方式解釋了概念。
學習Microsoft SQL Server:
https://www.tutorialspoint.com/ms_sql_server/
PostgreSQL教程:這是一個讓人驚叫的詳細指南,讓你開始和熟悉PostgreSQL。本教程分為16個部分,因此你完全可以想像出該課程的覆蓋面有多廣。
PostgreSQL教程:
Oracle Live SQL:誰能比創建者更好地學習Oracle SQL資料庫?這個平台設計得非常好提供了良好的終端用戶體驗。你可以在這個平台上查看腳本和教程,然後還可以在這裡編碼。哇,這太棒啦!
Oracle Live SQL:
https://livesql.oracle.com/apex/f?p=590:1000
NoSQL資料庫
MongoDB來自MongoDB:這是目前最流行的NoSQL資料庫,和上面提及的Oracle培訓課程一樣,學習MongoDB最好的方式是從創建它的大師們那裡學習。我在這裡鏈接了他們的整個課程目錄,你可以選擇你想參加的培訓課程。
MongoDB來自MongoDB:
https://university.mongodb.com/courses/catalog
MongoDB簡介:本課程將幫助你快速啟動和運行MongoDB,並教你如何利用它進行數據分析。這是一個為期3周的短課程,但有大量的練習。當你完成的時候,會覺得自己就是一名專家了!
MongoDB簡介:
https://www.coursera.org/learn/introduction-mongodb
學習Cassandra:如果你正在尋找一個優秀的、基於文本的、新手易於理解的Cassandra簡介,這會是一個完美的資源。像Cassandra的架構、安裝、關鍵操作等主題都會在這裡有所介紹,本教程還提供了專門的章節來講解CQL種可用的數據類型和集合、以及如何使用用戶自定義的數據類型。
學習Cassandra:
https://www.tutorialspoint.com/cassandra/index.htm
Redis Enterprise:了解Redis的資源不多,但這一個站點就足夠了。有多個課程和精心設計的視頻,使人沉浸其中,樂趣無窮,而且它是免費的!
Redis Enterprise:
https://university.redislabs.com/
Google Bigtable:作為Google的產品,學習BigTable工作原理的資源稀缺得讓人驚訝,我鏈接了一個包含大量谷歌雲主題的課程,你可以向下滾動,選擇BigTable(或BigQuery)。不過,我建議你仔細閱讀整個課程,因為它提供了有關谷歌整個雲產品如何工作的寶貴見解。
Google Bigtable:
https://www.coursera.org/learn/gcp-fundamentals
Couchbase:這裡提供多種培訓課程(向下滾動查看免費培訓課程),從初學者到高級都有。如果Couchbase是你們所用的資料庫,那麼你將在這裡了解有關它的所有信息。
Couchbase:
http://training.couchbase.com/store
e. 數據倉庫-Hadoop、MapReduce、Hive、Pig、Apache Spark、Kafka
現在,在每一個數據工程師的工作描述中都會看到像Hadoop(HDFS)這樣的分散式文件系統。它是所有角色都需要掌握的,你應該非常熟悉。除此之外,你還需要了解ApacheSpark、Hive、Pig、Kafka等平台和框架,我在本節列出了所有這些主題的資源。
Hadoop和MapReduce
Hadoop基礎知識:這本質上是Hadoop的學習路徑,它包括5門課程,可以讓你深入地了解hadoop是什麼、定義它的體系結構和組件是什麼、如何使用它、它的應用怎麼樣以及其他更多的內容。
Hadoop基礎知識:
https://cognitiveclass.ai/learn/hadoop/
Hadoop入門包:對於想要著手開始學Hadoop的人來說,這是一個非常全面的、優秀的免費課程。它包括HDFS、MapReduce、Pig和Hive之類的主題,可以通過免費訪問集群來練習所學的內容。
Hadoop入門包:
https://www.udemy.com/hadoopstarterkit/
HortonWorks教程:作為Hadoop的創建者,HortonWorks擁有一套令人萬分期待的課程,可以學習與Hadoop相關的各種知識。從低級到高級,本頁有著非常全面的教程列表,一定要看一下這個!
HortonWorks教程:
https://hortonworks.com/tutorials/
MapReduce簡介:在閱讀本文之前,你需要了解Hadoop的基本工作原理。請完成後,再回來深入了解MapReduce的世界。
MapReduce簡介:
https://www.analyticsvidhya.com/blog/2014/05/introduction-mapreduce/
Hadoop超越了傳統的MapReduce-簡版:本文介紹了Hadoop生態系統的概述,它超越了簡單的MapReduce。
Hadoop超越了傳統的MapReduce-簡版:
https://www.analyticsvidhya.com/blog/2014/11/hadoop-mapreduce/
更喜歡書嗎?別擔心,我已經幫你選好了!下面是一些免費電子書,涵蓋hadoop和它的組件。
《Hadoop詳解》:簡要介紹Hadoop的複雜體系,對Hadoop的工作原理、優勢、現實場景中的應用程序等進行了高層次的概述。
《Hadoop詳解》:
https://www.packtpub.com/packt/free-ebook/hadoop-explained
《Hadoop-你應該了解的》:這本書和上面的書有相似的內容。正如描述所說,這些書所涵蓋的內容足夠讓你了解Hadoop的方方面面,從而做出明智的決策。
《Hadoop-你應該了解的》:
https://www.oreilly.com/data/free/hadoop-what-you-need-to-know.csp?intcmp=il-data-free-lp-lgen_free_reports_page
《使用MapReduce進行數據密集型文本處理》:這本免費電子書涵蓋了MapReduce的基本知識及其演算法的設計,然後深入探討了你應該了解的示例和應用程序。建議你在閱讀這本書之前先上上述課程。
《使用MapReduce進行數據密集型文本處理》:
https://lintool.github.io/MapReduceAlgorithms/MapReduce-book-final.pdf
你應該加入Hadoop LinkedIn小組,以保證自己獲取最新的消息,並詢問你的任何問題。
Hadoop LinkedIn小組
https://www.linkedin.com/groups/988957/profile
Apache Spark
Apache Spark、RDD和Dataframes(使用PySpark)的綜合指南:這是一篇讓你開始學習Apache Spark的終極文章,屬於必讀指南。它介紹了Apache Spark的歷史以及如何使用Python、RDD/Dataframes/Datasets安裝它,然後通過解決機器學習問題,對自己的知識點進行查漏補缺。
Apache Spark、RDD和Dataframes(使用PySpark)的綜合指南:
https://www.analyticsvidhya.com/blog/2016/09/comprehensive-introduction-to-apache-spark-rdds-dataframes-using-pyspark/
初學者學習Spark R的詳細指南:如果你是R的用戶,這個就是為你準備的!當然,你可以使用Spark和R,本文可以作為你的指南。
初學者學習Spark R的詳細指南:
https://www.analyticsvidhya.com/blog/2016/06/learning-path-step-step-guide-beginners-learn-sparkr/
Spark的基礎知識:本課程涵蓋Spark的基礎知識、組件、使用方法、使用它的互動式示例和各種Spark庫,最後了解Spark集群。你還能從這門課程中要求更多的內容嗎?
Spark的基礎知識:
https://cognitiveclass.ai/courses/what-is-spark/
ApacheSpark和AWS簡介:這是一門以實踐為中心的課程。你將處理古登堡項目數據,它是世界上最大的電子書開放數據集。你還需要了解Python和Unix命令行,以便從本課程中學到更多。
ApacheSpark和AWS簡介:
https://www.coursera.org/learn/bigdata-cluster-apache-spark-and-aws
涵蓋Hadoop、Spark、Hive和Spark SQL的綜合教程
大數據基礎知識-HDF、MapReduce和Spark RDD:本課程採用真實的數據來教你基本的大數據技術-HDFS、MapReduce和Spark。這門課程非常詳細,示例豐富,數據集實用,而且教師很優秀,屬於經典課程。
大數據基礎知識-HDF、MapReduce和Spark RDD:
https://www.coursera.org/learn/big-data-essentials
大數據分析-Hive、Spark SQL、DataFrames 和GraphFrames:MapReduce和Spark解決了處理大數據的部分問題,通過這門直觀的課程你可以掌握這些高級工具,從而掌握有關Hive和Spark SQL等方面的知識。
大數據分析-Hive、Spark SQL、DataFrames 和GraphFrames:
https://www.coursera.org/learn/big-data-analysis
大數據應用-實時流:處理大數據的挑戰除了要具備處理數據的計算能力,還要具備儘可能快的處理速度。像推薦引擎這樣的應用程序需要實時地進行大量數據的處理、存儲和查詢,這就要求你掌握本課程中所提供的諸如Kafka、Cassandra和Redis等系統的知識。但要學習這門課程,你需要了解Hadoop、Hive、Python、Spark和Spark SQL的應用。
大數據應用-實時流:
https://www.coursera.org/learn/real-time-streaming-big-data
Kafka
使用Apache Kafka簡化數據管道:了解Apache Kafka及其體系架構和使用方法,你需要對Hadoop、Spark和Python有基本的了解,才能真正從本課程中獲得最大的收穫。
使用Apache Kafka簡化數據管道:
https://cognitiveclass.ai/courses/simplifyingdatapipelines/
Kafka官方文檔:這是一個非常直觀地介紹Kafka的工作原理及其組件的網頁,它還提供了一個關於分散式流媒體平台的解釋說明,非常棒!
Kafka官方文檔:
https://kafka.apache.org/intro
用Kafka給數據科學家賦能:這本身不是一個很好的學習資源,而是一篇介紹Stitch Fix的數據工程師如何根據數據科學家的要求構建一個平台的文章,非常有趣,而且十分詳細。
用Kafka給數據科學家賦能:
https://multithreaded.stitchfix.com/blog/2018/09/05/datahighway/
f. 基本的機器學習知識
雖然人們普遍認為機器學習是數據科學家的領域,但數據工程師也需要精通其中的某些技術,原因在於你需要簡化將模型投入生產的過程和用於數據收集、生成的管道。因此,你需要對機器學習演算法有一個基本的了解。
學習機器學習基礎知識的新手指南:作者Kunal Jain精彩地介紹了機器學習世界,旨在消除你聽到或讀到地所有行話。指南直截了當地切入問題的核心,最終你會愛上這種寫作風格。
學習機器學習基礎知識的新手指南:
https://www.analyticsvidhya.com/blog/2015/06/machine-learning-basics/
機器學習演算法基本知識:這是一篇優秀的文章,提供了各種對機器學習演算法的高層次理解,還提供了在R和python實現這些演算法的指南,這是開啟你學習旅程的絕佳地點!
機器學習演算法基本知識:
https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/
新手必讀的機器學習和人工智慧書籍:如果你更喜歡看書,那麼請閱讀本文!這裡收藏了最優秀的書,即使你只讀了其中的幾本,這也會助你朝著夢想中的事業邁進一大步!
新手必讀的機器學習和人工智慧書籍:
https://www.analyticsvidhya.com/blog/2018/10/read-books-for-beginners-machine-learning-artificial-intelligence/
提升你知識和技能的24個終極數據科學項目:一旦你獲得了一定量的知識和技能,請一定要把你的理論知識付諸實踐。查看這些數據集,按照易到難的順序,開始處理吧!
提升你知識和技能的24個終極數據科學項目:
https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/
6. 總結
成為一名數據工程師並不容易,因為你需要從以上所有的資源中獲取信息,而且你還要有著將工具、技術和職業道德融為一體的深入理解。由於現在是數據時代,數據工程師在業內需求巨大,對於任何願意從事這一工作的人來說,這依舊是一個收入可觀的職業選擇!
一旦你走上這條路,就力爭成為數據工程師吧!請在下面的評論區,告訴我你對這組資源的反饋和建議。
原文標題:
Want to Become a Data Engineer? Here』s a Comprehensive List of Resources to get Started
https://www.analyticsvidhya.com/blog/2018/11/data-engineer-comprehensive-list-resources-get-started/
譯者簡介
張玲,在崗數據分析師,計算機碩士畢業。從事數據工作,需要重塑自我的勇氣,也需要終生學習的毅力。但我依舊熱愛它的嚴謹,痴迷它的藝術。數據海洋一望無境,數據工作充滿挑戰。感謝數據派THU提供如此專業的平台,希望在這裡能和最專業的你們共同進步!
轉載須知
如需轉載,請在開篇顯著位置註明作者和出處(轉自:數據派THU ID:DatapiTHU),並在文章結尾放置數據派醒目二維碼。有原創標識文章,請發送【文章名稱-待授權公眾號名稱及ID】至聯繫郵箱,申請白名單授權並按要求編輯。
發布後請將鏈接反饋至聯繫郵箱(見下方)。未經許可的轉載以及改編者,我們將依法追究其法律責任。
※高性能計算之定製化優化演算法講座
※近期活動盤點:眾智創新賽、大數據應用與治理高峰會議、2018未來醫療100強論壇
TAG:數據派THU |