Kaggle問卷主成分分析,16000萬數據從業者面臨這5類挑戰
大數據文摘作品
編譯:李雷、元元、小魚
數據科學的功能是在數據中尋找有用的觀點並加以應用。然而,數據科學並非憑空而來。在向分析目標邁進的過程中,數據從業者可能面臨阻礙其進展的各種挑戰。
本文探討了數據從業者在分析數據時遇到的挑戰類型。為了研究這個問題,本文分析了Kaggle 2017年數據科學和機器學習狀況調查報告(Kaggle 2017 State of Data Science and Machine Learning)中的數據。這是一項針對16,000多名數據從業者展開的專項調查(數據收集於2017年8月)。
Kaggle的調查數據顯示,數據科學家面臨的最常見挑戰包括臟數據(36%),缺乏數據科學人才(30%)和缺乏管理支持(27%)。
數據來源:
https://www.kaggle.com/kaggle/kaggle-survey-2017
工作中的障礙與挑戰
數據從業者過去一年所面臨的挑戰
在調查中10153名受訪者被問到,「在過去的一年中,你工作中遇到了哪些障礙或挑戰?(可多選)。」結果如上圖所示,排名前十的挑戰是:
臟數據(36%的受訪者提及此項)
缺乏數據科學人才(30%)
公司政策(27%)
缺乏明確的研究問題(22%)
數據無法訪問(22%)
結果未被決策者使用(18%)
向其他人解釋數據科學(16%)
隱私問題(14%)
缺乏專業領域知識(14%)
小公司請不起數據科學團隊(13%)
結果顯示,平均每個數據從業者就會遇到上圖中的三項挑戰(3是中位值)。不同職位所遇到的挑戰數量不同。自認為是數據科學家(Data Scientist)或預測建模師(Predictive Modeler)的數據從業者稱遇到了其中的四項挑戰。自認為是程序員的數據從業者稱只遇到了其中的某一項挑戰。
挑戰分組
我想將這20項挑戰進行分組,把通常一起出現的挑戰歸為一組,因此我對數據進行了主成分分析(0表示未經歷此項挑戰;1表示經歷過此項挑戰)。我發現了一個相當清晰的、由5個主要成分構成的分組方案,其中特定挑戰往往會與其他相關挑戰一起出現。
數據從業者遇到的挑戰的主成分分析。
圖中表格數據是方差極大正交旋轉後的成分矩陣,
得分大於等於0.40的成分以粗體顯示。
上圖中五個主要成分(挑戰分組)是:
分析結果未被用於決策:這組挑戰還包括公司政策、無法將研究結果納入決策過程以及缺乏管理支持。
數據隱私、真實性、無法訪問:這組挑戰圍繞數據本身展開,包括數據清洗的複雜程度、可訪問性以及隱私問題。
擴展/部署工具的局限性:這組挑戰與用於提取結果、部署模型以及將解決方案擴展到完整資料庫的工具相關。
缺乏資金:資金缺乏引起的挑戰會影響組織機構在外部數據源、數據科學人才以及可能的領域專業知識方面的購買力。
提出的錯誤問題:這組挑戰包括難以對數據科學項目的結果保持合理的期望,並且對數據分析沒有明確目的或方向。
結論
數據從業者在數據科學和機器學習工作方面會遇到一些挑戰。一年中平均每個數據從業者可能會遇到其中三項挑戰。最常見的數據科學和機器學習挑戰包括臟數據,缺乏數據科學人才,缺乏管理支持以及缺乏數據分析明確的方向或目的。
http://businessoverbroadway.com/top-10-challenges-to-practicing-data-science-at-work
【今日機器學習概念】
Have a Great Definition
開課倒計時2天
數據科學實訓營第5期
優秀助教推薦|土豆
現今紛紛擾擾的數據科學培訓市場,是不是早已讓你眼花繚亂,無處落足,還沒有找到組織?不必慌張,土豆老司機拉住你的手,語重心長的要為你指條明道:究竟優質的數據科學教育培訓是什麼樣的?
課程乾貨滿滿還不失風趣,講師精力充沛還熱愛分享,助教認真批改還熱情反饋。
沒錯!數據科學實訓營就是這樣的明星課程!從基礎的 Python 編程和Scrapy爬蟲,到熟練運用 Numpy/Pandas/Matplotlib/Seaborn/Scikit-learn 等多種Python庫,打通機器學習的任督二脈,在真實的數據科學競賽案例和數據挖掘項目的打磨下,完成從數據科學小白到骨灰級玩家的華麗轉變!
作為第4/5期的實訓營助教,寄語小白學員:堅持跟上課程進度,按時完成所有作業,認真做好學習筆記,最終一定可以實現輕鬆入門數據科學哈!
志願者介紹
TAG:大數據文摘 |