機器學習和數據科學最常用到的TOP10演算法
數據科學的實踐,需要使用演算法和數據科學方法,來幫助數據專業人員從數據中提取洞察力和價值。Kaggle最近的一項調查顯示,數據專家在2017年比其他數據科學方法更多地使用數據可視化、邏輯回歸、交叉驗證和決策樹技術。展望2018年,數據專業人員對學習深度學習(41%)最感興趣。
Kaggle於2017年8月對16,000多名數據專業人員進行了調查。 他們的調查包括數據科學,機器學習,教育等方面的各種問題。 Kaggle發布了原始調查數據,根據這些調查數據,我發現一些有趣的東西。今天的文章是關於2017年數據專業人員使用的數據科學和機器學習方法,以及2018年最令他們興奮的機器學習/數據科學方法。
1. 2017年最受歡迎的數據科學/分析工具,技術和語言
調查包括一個針對數據專業從業人員的問題,「在工作中,你經常使用以下數據科學方法? (選擇所有使用的)」。平均而言,數據專家在2017年使用了5種(中值)數據科學方法。2017年使用的前5種數據科學方法是(見圖1):
數據可視化(49%)
Logistic回歸(42%)
交叉驗證(38%)
決策樹(36%)
隨機森林(34%)
時間序列分析(31%)
神經網路(28%)
PCA和維度降低(27%)
kNN和其他聚類演算法(26%)
文本分析(25%)
對於自稱為「數據科學家」的數據專業人員,這些方法的使用率更高。這些數據科學家的採用率大約高出15-20個百分點(例如,66%用於數據可視化,61%用於邏輯回歸, 56%為決策樹,56%為隨機森林)。
KDNuggets最近的一項調查發現,與目前的研究結果類似。在他們的研究中,頂級數據科學和機器學習方法還包括回歸(60%),聚類(55%),可視化(51%),決策樹/規則(51%)和隨機森林(46%)。
2. 哪些2018年學習最為興奮的機器學習和數據科學方法?
另一個調查是,所有數據專業人士(不管是否正在工作),了解他們在下一年最興奮的機器學習/數據科學方法。結果顯示,數據專業人員對深度學習最感興趣:
深度學習(41%)
神經網路(13%)
時間序列分析(6%)
貝葉斯方法(5%)
文本挖掘(5%)
3. 小結
Kaggle對16,000多名數據專家的調查結果,揭示了工作中使用的最流行的數據科學方法。數據可視化和邏輯回歸列在首位。
毫不奇怪,10位數據專業人士中有4位表示,他們非常高興在明年學習深度學習。
深度學習是一類機器學習演算法,它是根據大腦的信息處理和通信模式建模的。
深度學習使用單位層或節點進行特徵提取和轉換,每層使用前一層的輸出作為輸入。
深度學習方法可用於營銷,汽車,語音識別等領域。
這種對學習深度學習興趣的同時,調查結果還表明,用於深度學習的流行的開源軟體TensorFlow是專業人士有興趣學習的頂級工具數據。
本文翻譯自:
http://businessoverbroadway.com/top-machine-learning-and-data-science-methods-used-at-work
轉引自公眾號:數據科學與人工智慧,如有侵權,請隨時聯繫刪除。
清華大學孟天廣將帶來「大數據分析框架下的因果推論」,「第二屆社會科學研究方法高峰論壇」等你來!詳情掃描圖片二維碼了解。
※針對模型降階的機器學習
※谷歌用機器學習技術優化語音助手 聽起來更自然更口語化
TAG:機器學習 |