機器學習和數據科學最常用到的TOP10演算法

最新 04-01

數據科學的實踐，需要使用演算法和數據科學方法，來幫助數據專業人員從數據中提取洞察力和價值。Kaggle最近的一項調查顯示，數據專家在2017年比其他數據科學方法更多地使用數據可視化、邏輯回歸、交叉驗證和決策樹技術。展望2018年，數據專業人員對學習深度學習（41％）最感興趣。

Kaggle於2017年8月對16,000多名數據專業人員進行了調查。他們的調查包括數據科學，機器學習，教育等方面的各種問題。 Kaggle發布了原始調查數據，根據這些調查數據，我發現一些有趣的東西。今天的文章是關於2017年數據專業人員使用的數據科學和機器學習方法，以及2018年最令他們興奮的機器學習/數據科學方法。

1. 2017年最受歡迎的數據科學/分析工具，技術和語言

調查包括一個針對數據專業從業人員的問題，「在工作中，你經常使用以下數據科學方法？（選擇所有使用的）」。平均而言，數據專家在2017年使用了5種（中值）數據科學方法。2017年使用的前5種數據科學方法是（見圖1）：

數據可視化（49％）

Logistic回歸（42％）

交叉驗證（38％）

決策樹（36％）

隨機森林（34％）

時間序列分析（31％）

神經網路（28％）

PCA和維度降低（27％）

kNN和其他聚類演算法（26％）

文本分析（25％）

對於自稱為「數據科學家」的數據專業人員，這些方法的使用率更高。這些數據科學家的採用率大約高出15-20個百分點（例如，66％用於數據可視化，61％用於邏輯回歸， 56％為決策樹，56％為隨機森林）。

KDNuggets最近的一項調查發現，與目前的研究結果類似。在他們的研究中，頂級數據科學和機器學習方法還包括回歸（60％），聚類（55％），可視化（51％），決策樹/規則（51％）和隨機森林（46％）。

2. 哪些2018年學習最為興奮的機器學習和數據科學方法？

另一個調查是，所有數據專業人士（不管是否正在工作），了解他們在下一年最興奮的機器學習/數據科學方法。結果顯示，數據專業人員對深度學習最感興趣：

深度學習（41％）

神經網路（13％）

時間序列分析（6％）

貝葉斯方法（5％）

文本挖掘（5％）

3. 小結

Kaggle對16,000多名數據專家的調查結果，揭示了工作中使用的最流行的數據科學方法。數據可視化和邏輯回歸列在首位。

毫不奇怪，10位數據專業人士中有4位表示，他們非常高興在明年學習深度學習。

深度學習是一類機器學習演算法，它是根據大腦的信息處理和通信模式建模的。

深度學習使用單位層或節點進行特徵提取和轉換，每層使用前一層的輸出作為輸入。

深度學習方法可用於營銷，汽車，語音識別等領域。

這種對學習深度學習興趣的同時，調查結果還表明，用於深度學習的流行的開源軟體TensorFlow是專業人士有興趣學習的頂級工具數據。

本文翻譯自：

http://businessoverbroadway.com/top-machine-learning-and-data-science-methods-used-at-work

轉引自公眾號：數據科學與人工智慧，如有侵權，請隨時聯繫刪除。

清華大學孟天廣將帶來「大數據分析框架下的因果推論」，「第二屆社會科學研究方法高峰論壇」等你來！詳情掃描圖片二維碼了解。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※針對模型降階的機器學習
※谷歌用機器學習技術優化語音助手聽起來更自然更口語化

TAG:機器學習 |