當前位置:
首頁 > 時尚 > 分類和高斯分布

分類和高斯分布

機器學習的輸入是數據,數據本質上具有隨機性,因此概率語言可用於描述我們的數據並解決機器學習問題。我舉了一個通過頭髮長度來確定性別的例子來演示如何使用概率來解決分類問題。


高斯分布

由於許多原因,男性和女性可以有不同長度的頭髮。但總的來說,女性的頭髮總是比男性長,我們怎麼能用數學語言來描述真相呢?基本上,我們可以假設女性的頭髮長度和男性的頭髮長度分布是高斯分布,女性的平均頭髮長度大於男性。μ0和μ1可分別用於描述女性的分布和男性的平均值。σ0和σ1可以是兩個標準偏差。

分類和高斯分布

女性和男性頭髮的概率密度函數

因此女性的頭髮長度分布概率密度函數是

分類和高斯分布

男性可以用類似的方式寫的。

分類問題

分類問題:如何通過給出人的頭髮長度x0來預測性別。問題可用概率語言描述,P(Y = 0 | X =0)和P(Y = 1 | X =0),看哪個是較大的。Y = 0表示該人是女性,Y = 1表示該人是男性。

對於P(Y = 0 | X =0),它可以通過條件概率定義進行擴展:

分類和高斯分布

上面的過程忽略了P(X =0),因為當比較P(Y = 0 | X =0)和P(Y = 1 | X =0))時,它們都具有相同的分母P(X =0) )。

對於P(Y = 1 | X =0),它也可以以相同的方式擴展

分類和高斯分布

為了比較兩者,除法是有幫助的。

分類和高斯分布

如果t> 1,我們知道這是一個女人,否則就是男人。


訓練過程

根據女性頭髮長度和男性頭髮長度的訓練數據,採用極大似然估計方法估計女性頭髮的高斯分布參數和男性頭髮的分布參數。在給定兩個高斯分布的情況下,可以計算出t。

P(X=?|Y=0) = f?(?), 是一個非常小的數,通過乘以Δ和概率密度,我們可以得到女性擁有長度為?的頭髮的概率。以同樣的方式我們得到P(X=?|Y=1) = f?(?)。

因此

分類和高斯分布

我將舉例說明如何訓練我們的分類器

分類和高斯分布

人們的頭髮長度訓練數據集

利用極大似然估計方法,可以求解各高斯分布的參數

分類和高斯分布

男性的頭髮分布參數也可以通過給定的數據集來計算

分類和高斯分布

剩下的概率

分類和高斯分布

然後對於每個,,我們可以計算t來確定其性別

分類和高斯分布

t是關於0的一元函數。為了更好地理解這個函數。從圖中可以看出,當0大於12.5和15之間的數字時,t總是大於1,這意味著人總是女性。

分類和高斯分布

y表示t,x表示0


更多的問題分析

基於這些,我們可以分析在給出女性頭髮長度時分類為男性的錯誤,並且在給出男性頭髮長度時將錯誤歸類為女性。為了描述兩個錯誤之一,可以調整t函數。對於這些內容,您可以參考《模式識別》相關內容,它可以清晰全面地解釋了這些概念。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |