當前位置:
首頁 > 最新 > Kaggle問卷主成分分析,16000萬數據從業者面臨這5類挑戰

Kaggle問卷主成分分析,16000萬數據從業者面臨這5類挑戰

大數據文摘作品

編譯:李雷、元元、小魚

數據科學的功能是在數據中尋找有用的觀點並加以應用。然而,數據科學並非憑空而來。在向分析目標邁進的過程中,數據從業者可能面臨阻礙其進展的各種挑戰。

本文探討了數據從業者在分析數據時遇到的挑戰類型。為了研究這個問題,本文分析了Kaggle 2017年數據科學和機器學習狀況調查報告(Kaggle 2017 State of Data Science and Machine Learning)中的數據。這是一項針對16,000多名數據從業者展開的專項調查(數據收集於2017年8月)。

Kaggle的調查數據顯示,數據科學家面臨的最常見挑戰包括臟數據(36%),缺乏數據科學人才(30%)和缺乏管理支持(27%)。

數據來源:

https://www.kaggle.com/kaggle/kaggle-survey-2017

工作中的障礙與挑戰

數據從業者過去一年所面臨的挑戰

在調查中10153名受訪者被問到,「在過去的一年中,你工作中遇到了哪些障礙或挑戰?(可多選)。」結果如上圖所示,排名前十的挑戰是:

臟數據(36%的受訪者提及此項)

缺乏數據科學人才(30%)

公司政策(27%)

缺乏明確的研究問題(22%)

數據無法訪問(22%)

結果未被決策者使用(18%)

向其他人解釋數據科學(16%)

隱私問題(14%)

缺乏專業領域知識(14%)

小公司請不起數據科學團隊(13%)

結果顯示,平均每個數據從業者就會遇到上圖中的三項挑戰(3是中位值)。不同職位所遇到的挑戰數量不同。自認為是數據科學家(Data Scientist)或預測建模師(Predictive Modeler)的數據從業者稱遇到了其中的四項挑戰。自認為是程序員的數據從業者稱只遇到了其中的某一項挑戰。

挑戰分組

我想將這20項挑戰進行分組,把通常一起出現的挑戰歸為一組,因此我對數據進行了主成分分析(0表示未經歷此項挑戰;1表示經歷過此項挑戰)。我發現了一個相當清晰的、由5個主要成分構成的分組方案,其中特定挑戰往往會與其他相關挑戰一起出現。

數據從業者遇到的挑戰的主成分分析。

圖中表格數據是方差極大正交旋轉後的成分矩陣,

得分大於等於0.40的成分以粗體顯示。

上圖中五個主要成分(挑戰分組)是:

分析結果未被用於決策:這組挑戰還包括公司政策、無法將研究結果納入決策過程以及缺乏管理支持。

數據隱私、真實性、無法訪問:這組挑戰圍繞數據本身展開,包括數據清洗的複雜程度、可訪問性以及隱私問題。

擴展/部署工具的局限性:這組挑戰與用於提取結果、部署模型以及將解決方案擴展到完整資料庫的工具相關。

缺乏資金:資金缺乏引起的挑戰會影響組織機構在外部數據源、數據科學人才以及可能的領域專業知識方面的購買力。

提出的錯誤問題:這組挑戰包括難以對數據科學項目的結果保持合理的期望,並且對數據分析沒有明確目的或方向。

結論

數據從業者在數據科學和機器學習工作方面會遇到一些挑戰。一年中平均每個數據從業者可能會遇到其中三項挑戰。最常見的數據科學和機器學習挑戰包括臟數據,缺乏數據科學人才,缺乏管理支持以及缺乏數據分析明確的方向或目的。

http://businessoverbroadway.com/top-10-challenges-to-practicing-data-science-at-work

【今日機器學習概念】

Have a Great Definition

開課倒計時2天

數據科學實訓營第5期

優秀助教推薦|土豆

現今紛紛擾擾的數據科學培訓市場,是不是早已讓你眼花繚亂,無處落足,還沒有找到組織?不必慌張,土豆老司機拉住你的手,語重心長的要為你指條明道:究竟優質的數據科學教育培訓是什麼樣的?

課程乾貨滿滿還不失風趣,講師精力充沛還熱愛分享,助教認真批改還熱情反饋。

沒錯!數據科學實訓營就是這樣的明星課程!從基礎的 Python 編程和Scrapy爬蟲,到熟練運用 Numpy/Pandas/Matplotlib/Seaborn/Scikit-learn 等多種Python庫,打通機器學習的任督二脈,在真實的數據科學競賽案例和數據挖掘項目的打磨下,完成從數據科學小白到骨灰級玩家的華麗轉變!

作為第4/5期的實訓營助教,寄語小白學員:堅持跟上課程進度,按時完成所有作業,認真做好學習筆記,最終一定可以實現輕鬆入門數據科學哈!

志願者介紹


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據文摘 的精彩文章:

小扎包下9家報紙整版,為FB數據醜聞道歉

TAG:大數據文摘 |