數據和特徵決定了機器學習的上限，而模型和演算法只是逼近這個上限而已！

最新 05-14

在人工智慧，尤其是機器學習的世界裡，有這麼一條不成文的共識，也可以稱得上是一句名言警句：「數據和特徵決定了機器學習的上限，而模型和演算法只是逼近這個上限而已！」

此外，在機器學習界還有一句名言：「It』s not who has the best algorithm that wins. It』s who has the most data.」（引自吳恩達在網易雲課堂上的視頻）

此外，在引用吳恩達網易雲課堂上的課件里的一幅圖如下所示：

綜上所述，數據（data）對於機器學習的重要性遠遠大於機器學習演算法的參數，很多時候，真正能夠改善機器學習模型性能的不是調優參數，而是糾正所使用的數據。所以，對於機器學習的研究者們來說，在開發一套機器學習系統（模型）時，絕大多數的時間應該花在數據的分析及其預處理上（讀者可自行百度「數據清洗」與「特徵工程」等概念，尤其是特徵工程，特徵選擇對於機器學習來書，尤為重要！！！），而不是不斷地一個一個地抱著碰運氣的方式去嘗試各個參數。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※通過機器學習讓醫療數據更好用
※2018年來說說機器學習

TAG:機器學習 |