看圖學機器學習
哈希大數據致力於互聯網、金融、物流等行業大數據採集、分析、營銷與決策提供綜合解決方案
2018.4.12
THU
昨天我們講了機器學習的「入坑指南」,今天我們給大家介紹機器學習專家Deniz Yuret用10張漂亮的圖來解釋機器學習的重要概念,哈希在這裡給大家普及一下,同時加一些自己的見解!
1.Test and training error(測試集誤差和訓練集誤差)
為什麼訓練集誤差不是越低越好呢?:上圖以模型複雜度為變數的測試集及訓練集的誤差函數。大家從圖中可以看到隨著模型複雜度的增加訓練集的預測誤差越來越小,但測試集的誤差確實先變小後變大。
測試集誤差可簡單認為是有Bias(偏差)+Variance(方差)組成。Bias(偏差)代表模型不精準度,Variance(方差)代表模型的穩定度(既改變訓練樣本模型參數的變化大小),當模型複雜度底時模型精準度底,但穩定度高。當模型複雜度高時模型精準度高,但不穩定,模型參數受數據樣本變化較大。
由上圖左邊第一圖可以清晰看出Bias在逐漸降低,Var在逐步提高。
2. Under and overfitting(欠擬合和過擬合)
欠擬合或者過度擬合的例子。下圖多項式曲線其中M代表多項式最高次,用紅色曲線表示,其中綠色曲線代表生成數據集的函數,圖中小圓圈是添加擾動後呈現的。從圖中可以看出底次擬合和高次擬合效果都不好。
3. Occam』s razor(奧卡姆剃刀理論)
為什麼貝葉斯推理可以具體化奧卡姆剃刀原理。下面這張圖直觀解釋了為什麼使用複雜模型原來是小概率事件這個問題。水平軸代表了可能的數據集D空間。貝葉斯定理以他們預測的數據出現的程度成比例地反饋模型。這些預測是通過在數據集D上歸一化概率分布來量化的。
數據的概率給出了一種模型Hi,P(D|Hi)被稱作支持Hi模型的證據。一個簡單的模型H1僅可以做到一種有限預測,以P(D|H1)展示;一個更加強大的模型H2,可以比模型H1擁有更加自由的參數,可以預測更多種類的數據集。但無論如何,H2在C1域中對數據集的預測做不到像H1那樣強大。假設兩個模型已經分配了相同的先驗概率,如果數據集落在C1區域,不那麼強大的模型H1將會是更加合適的模型。
4. Feature combinations(特徵組合)
為什麼整體相關的特徵單獨來看也許並不相關,這也是線性方法可能會失敗的原因。從Isabelle Guyon特徵提取的幻燈片來看。
5. Irrelevant features(非相關屬性)
為什麼無關緊要的特徵會損害KNN,聚類,以及其它基於相似度度量的方法。下圖中左邊這幅圖展示了在低緯度情況下一條水平線將兩類數據很好地被分離開來。而右圖加入了一個新的維度——一條橫軸,它破壞了分組,在該情況下不屬於同一類別的反而會被分為一組,例如左邊一組、右邊一組。
6. Basis functions(基礎函數)
非線性基礎函數是如何將沒有線性邊界的低維分類問題轉化為具有線性邊界的高維分類問題。Andrew Moore的支持向量機SVM(Support Vector Machine)教程幻燈片中有:一個單維度的非線性帶有輸入x的分類問題轉化為一個2維的線性可分的z=(x,x^2)問題。
7. Discriminative vs. Generative(判別性vs生成性)
為什麼判別式學習比生成式學習更加簡單:PRML下圖這兩類方法的分類條件的密度舉例,有一個單一的輸入變數x(左圖),給出相應的後驗概率(右圖)。注意到在在左圖中以藍色線條表示的分類條件密度p(x|C1)的模式,對後驗概率沒有影響,咱們去檢驗其真實概率分布比較困難,但基於右圖直接配別其分類還是比較簡單的。右圖中垂直的綠線展示了x中的決策邊界,它給出了最小的誤判率,在綠線左側屬於C1在綠線右側屬於C2。
8. Loss functions(損失函數)
學習演算法可以被視為用來優化不同的損失函數的,PRML下圖中用藍色線條表示應用於支持向量機中的「鉸鏈」錯誤函數圖形,邏輯回歸中的誤差函數被用1/ln(2)進行放縮來重新調整,使它能通過點(,1),以紅色線條表示。黑色線條表示誤分,均方誤差以綠色線條表示。
9.Geometry of least squares(最小二乘的空間原理)
ESL下圖是利用二維空間的最小二乘回歸對N維空間預測的幾何原理圖。真實向量y正交投影到被輸入向量x1和x2所跨越的超平面上,投影y^代表了最小二乘預測的向量。
10.Sparsity(稀疏性)
為什麼Lasso演算法(L1正規化或者拉普拉斯先驗)給出了稀疏的解決方案(比如:很多特徵的權重為):ESL下圖中左邊是lasso演算法的判斷函數圖,右側是嶺回歸演算法的判斷函數圖。展示了誤差函數的等值線以及約束函數。當紅色橢圓是最小二乘誤差函數的等值線時,實心的藍色區域是約束區域|β1| + |β2| ≤ t以及β12+ β22≤ t2。由下圖可以看出lasso演算法得到的解並非最優解,但其確實能起到降維的作用左圖中最終結果β1=0,β2是一個不為零的值,嶺回歸演算法得到的β1雖然不為但也很小,所以β1對應的變數變化對結果影響也非常有限,起到了降維的作用。
有任何不懂的同學歡迎文章後留言,或是關注公眾號後留言哦!!我們還有QQ群和微信群,這裡有很多志同道合的小夥伴,也許可以直接回答你的問題~~~
▲ 微信
▼QQ群
別忘了關注我們的公眾號哦~~
哈希
※機器學習:開發人員和業務分析師須知
※機器學習三兄弟概念大揭秘:「監督學習」「非監督學習」「強化學習」
TAG:機器學習 |