當前位置:
首頁 > 最新 > 如何有效的組建一支數據科學團隊

如何有效的組建一支數據科學團隊

數據科學/大數據的熱度在持續升高,越來越多的公司開始貼近大數據的概念,這其中不乏有許多技術非常強的團隊,但更多的是一些濫竽充數的團隊。這樣的行業現狀,其實反應的是行業中人才的稀缺,儘管整個大數據的熱潮已經持續了數年,可是人才卻始終沒有成長起來,我的願望也是想通過這個公眾號幫助廣大數據科學的愛好者了解更多資訊,儘快成長起來。

1

選定一個好的團隊領導者

由於數據行業整體屬於新興行業,因此在工作中常常會有方向不明等問題,並且常常會由於種種問題使得工作進度停滯不前,這個時候就需要一位富有經驗的工程師帶領整個團隊走向正確的方向。首先數據團隊的領導必須是做數據出身,而且一定要有非常豐富的機器學習建模、數據挖掘、數據分析等方面的經驗,作為數據團隊的領導,有可能你並不需要自己親手去寫代碼(但實際情況往往是,若想完全實現自己的構想,必須要自己親手去做),但是你一定要有非常清楚的頭腦,你需要對你的數據有著非常清楚的認識。比如我最近在做的車貸風控數據,除了基礎的數據科學知識之外,必要還要對車貸行業有較強的理解,這樣對於分析用戶行為、構建有效特徵是有著非常大的幫助。

不僅如此,一個好的數據團隊領導者更是要為團隊成員提供明確的目標和細化的任務。由於建模工作實際包含了數據清洗、數據整理、數據分析、特徵工程、調節參數等部分,對成員有效的分工也是實際工作中非常重要的一點。好的分工不僅可以加快工作的進度,更能夠讓團隊成員之間協同合作,取長補短,提供工作質量。

2

合理選定團隊成員數量

團隊成員的數量自然是因人而異,因項目數量而異,因工作量而異。但一個較為合理的團隊應該保持在建模過程中的每一部分均有一個專職的人員存在。一般情況下,數據清洗和數據整理需要1個專職人員,數據分析和特徵工程部分依照數據的複雜程度需要2-4個不等,構建模型需要2個工程師來嘗試更多的模型,再加上數據團隊的領導,一般一個成熟的數據團隊的規模應該在6-8人左右。

3

合理搭配團隊成員所掌握技能

目前從事數據科學工作的主要來自於統計專業,計算機專業,以及電子工程專業,其中又以統計和計算機的出身最為正統。統計出身的人一般會更側重於模型的可解讀性而犧牲了模型的準確性,因此常使用的模型一般有邏輯回歸(Logistic Regression)和決策樹(Decision Tree);計算機出身的人則更注重模型的準確性以及程序的有效性,因此他們往往更傾向於選擇更為複雜的模型,但同時也常常犧牲了模型的可解釋性。很明顯的是,在一個團隊當中,來自這兩個專業的人會天然形成互補,他們的通力合作會使該數據團隊能夠解決為廣泛的問題。

說了這麼多,其實構建數據科學團隊的關鍵便在於找到團隊的核心,即一個好的團隊領導者。有一個好的領導者帶領,才可以有明確的方向,避免在眾多無意義的問題中繞彎路,否則就算數據團隊規模再龐大,也終究很難做出有用的東西。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習學社 的精彩文章:

我為什麼堅持要更新

TAG:機器學習學社 |