數據和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已!
最新
05-14
在人工智慧,尤其是機器學習的世界裡,有這麼一條不成文的共識,也可以稱得上是一句名言警句:「數據和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已!」
此外,在機器學習界還有一句名言:「It』s not who has the best algorithm that wins. It』s who has the most data.」(引自吳恩達在網易雲課堂上的視頻)
此外,在引用吳恩達網易雲課堂上的課件里的一幅圖如下所示:
綜上所述,數據(data)對於機器學習的重要性遠遠大於機器學習演算法的參數,很多時候,真正能夠改善機器學習模型性能的不是調優參數,而是糾正所使用的數據。所以,對於機器學習的研究者們來說,在開發一套機器學習系統(模型)時,絕大多數的時間應該花在數據的分析及其預處理上(讀者可自行百度「數據清洗」與「特徵工程」等概念,尤其是特徵工程,特徵選擇對於機器學習來書,尤為重要!!!),而不是不斷地一個一個地抱著碰運氣的方式去嘗試各個參數。
TAG:機器學習 |