機器學習基本概念總結
機器學習主要通過計算的手段從數據中提取出相應的模型,也就是說,機器學習的輸入是數據,經由學習演算法,輸出相應的模型,以後我們就可以基於這個模型解決實際問題了。
在機器學習中,輸入數據被稱為數據集,數據集被分為訓練集和測試集。訓練集用來通過學習演算法訓練模型,而測試集則用來評估我們的模型性能。數據集中包含一條條樣本,樣本則是由屬性或特徵構成的。例如描述人的數據,其中包含特徵身高(cm),體重(kg),臉型(1-圓臉,2-方臉,3-瓜子臉)
[
[180, 80, 1],
[160, 60, 2],
[170, 70, 3],
......
]
按照數據集是否有標記(上面的是沒有標記的數據集),可以將機器學習分為兩類,有標記的一類稱之為監督學習,另一類稱之為非監督學習。下面是上面數據集的有標記版本,讓用戶按照個人喜好作出評價(0-有好感,1-一般,2-討厭),可以看到,標記就是對某一條樣本的說明:
[
[180, 80, 1,0],
[160, 60, 2,1],
[170, 70, 3,2],
......
]
機器學習的目的,就是希望基於訓練集,通過一定的學習演算法,使得訓練出的模型能夠適用於非訓練集的場合,也就是說,模型應該具有一定的泛化能力,測試集就是用來評估模型泛化能力的,因此,一般測試集應該是與訓練集不同的樣本數據。
那麼,是否訓練樣本越多,就能獲得更好的泛化能力呢?答案是否定的,訓練樣本過多,會引入過擬合的問題,說的直白點,就是機器將訓練樣本學習的太好了,導致其泛化能力變弱,就好比學生死記硬背數學題目,但是出現其他的題目就無法解答了。但是訓練樣本過少,又會出現欠擬合的問題,就好比是學生做題量不夠,沒有覆蓋所有的知識點。所以,訓練集的數據量是需要仔細考慮的。
現實中,最常使用機器學習處理的問題主要有分類和回歸問題。我們給定一個樣本,分類能夠對這個樣本的數據進行分析,然後給出我們該樣本可能屬於的類別。回歸主要用來預測趨勢。分類和回歸屬於監督學習。聚類是無監督學習的方法,聚類主要按照無標記的訓練集,生成數據統計值的密度估計。
有一些知識,我們無法總結出規律,但是隱含在數據中的信息卻無法欺騙我們。我們需要做的就是利用各種演算法,提取出這些隱含知識。總的看來,機器學習是我們利用數據發掘和歸納知識的一種手段之後,我們可以利用這些知識解決實際的問題。
蘋果用戶也可讚賞
TAG:機器學習 |