機器學習基石-Noise and Error
Noise and Error
回顧
通過lecture7的學習,我們知道當我們的hypothesis set擁有有限的dVC,我們擁有足夠多的資料,並且能設計一個演演算法找到一個足夠小的Ein,那麼學習是可行的,本節課我們看看雜訊的加入會帶來什麼改變。
Noise and Probabilistic Target
首先,必須承認的是現實生活中雜訊是客觀普遍存在的,結合我們的學習流程,輸入輸出等多個環節都可能導致雜訊的產生。接著我們回顧下學習的流程,在之前的基礎上我們考慮加入雜訊,然後看看雜訊是否對我們推導的VC bound有什麼不良影響。
說到VC bound,我們回到關於其的最重要的模型—推測罐子中橘色彈珠的佔比。我們將其中的每一個彈珠看成一筆資料,通過某個分布P我們將其取出,然後如果f(x) ?= h(x)成立,則將其漆成橘色。
現在我們想像有一種特殊的彈珠,這種彈珠的顏色一直在變化(比如一天60%的時間是橘色,40%的時間是綠色),我們通過記錄抽樣瞬間彈珠的顏色來推測整體的彈珠佔比。這種會變色的彈珠對應到學習的問題就是可能的雜訊。當我們的x取樣來自某個P(x),y取樣來自於某個P(y|x)(y在是一個彈珠的前提下顏色的概率),並且兩者都是i.i.d的,那麼我們的VC bound理論還是成立的。
我們一般把P(y|x)稱為target distribution,他實際告訴對某一個點做的預測。比如,現有一個點,他有70%的概率是1,有30%的概率是0。我們一般都會選擇將其預測成1,那麼我們范的30%的錯誤可以看成是選1這個最好的選擇下存在的雜訊,這是對target distribution的一中理解。
第二種理解就是預測100%成立帶著0%的雜訊。加入這部分內容後,我們的學習流程可進一步細化如下:
Error Measure
學習進行到最後一步,我們總是要評估我們學習效果的好壞,我們使用的主要評價指標是Eout,實際上更本質的是我們需要給出g和f相似性的打分標準。
我們使用的g有以下三個特徵:額外的資料上看效果;逐個資料看效果;分類效果(二元),分類效果又被稱為0/1錯誤。
我們定義Pointwise Error,然後在此基礎上給出兩種常見的
Pointwise Error Measures,分別是0/1error和square error,計算方式如上圖,下面給出一個具體的例子,計算兩種錯誤衡量方式下的結果,會得到不同的結論。
進一步,我們在前面的學習流程上告訴我們的錯誤衡量方式來看看我們選擇的g的f間的差距。這一塊還需要說明的是,VC對於非分類非監督學習的很多hypothesis和理論能得到VC bound類似的結論。
Algorithmic Error Measure
我們結合超市指紋識別的例子來看看error的具體情形,我們的f和g可能情形有四種,其中的兩種錯誤是false reject和false accept,對於超市來說兩種錯誤發生造成的影響是不同,前者的影響可能是後者的十倍甚至更多,因此給出的錯誤懲罰理應給更高的權重。
但是如果實際的場景是CIA的場景,他們對應的成本矩陣就截然不同,有可能如下圖。
由此可見錯誤衡量方式的選擇是比較重要的,我們要根據實際場景和需求選擇合適的錯誤衡量方式。
Weighted Classification
我們定義一個新的概念weighted classification:對不同的資料給予不同的重要性的分類方式,然後我們來看看怎麼解決這樣的問題。
在VC理論成立的情況下,我們主要目的轉化為最小化Ein,我們回顧我們之前學習的pocket演演算法,然後在思考是否加權變形後的pocket也能有理論保證呢?
我們來看原始的問題,我們現在有一筆帶有標籤的資料集;我們做另一個資料集:當資料標籤為+1的時候,我們複製這些資料,資料標籤為-1的時候,我們複製這些資料1000次,然後我們將同權重的損失矩陣給到創建的這筆資料。這樣,兩者最後的error是一致的。也即我們證明了加權變形後的pocket是有理論保證的。
於是結合我們上面的證明,我們可以定義Weighted Pocket Algorithm,我們可以按上面替換的思路去實現這個想法,考慮到實際問題的實現難度,我們更多在演算法層面進行實現。
主要的修正是我們將pocket中均衡概率查找+1和-1的點改成給與-1的點1000倍以上於+1的概率,然後其他的操作與pocket一致。
小結
本節課我們首先思考在有雜訊的前提下用P(y|x)代替
f(x)的方式,然後我們看了指紋識別的具體場景並介紹了兩個錯誤衡量方式,具體場景的錯誤衡量方式應具體問題具體分析,最後我們給出了Weighted Classification的定義及相關理論證明。
※亞馬遜揭開SageMaker AI服務的面紗,分享能夠大規模地訓練機器學習模式
※關於機器學習,你需要知道的三件事!
TAG:機器學習 |