機器學習（1）之入門概念

知識 06-19

微信公眾號

關鍵字全網搜索最新排名

【機器學習演算法】：排名第一

【機器學習】：排名第二

【Python】：排名第三

【演算法】：排名第四

機器學習是什麼

機器學習是什麼？

實際上，即使是研究機器學習的專業人士（如Hinton，Bengio，LeCun，Andrew Ng等）在定義這個問題時也會有不同認知，目前還不存在一個被廣泛認可的定義，為此，我想藉助斯坦福大學的Machine learning課程中的一些案例來說明這個問題。

先看一下機器學習在學術上定義的發展歷程，

Arthur Samuel

是這樣定義的：

在進行特定編程的情況下，給予計算機學習能力的領域。

他的傑作也是大家比較熟悉的西洋棋程序，通過編程讓程序跟自己下了幾萬盤棋，通過學習那種布局會贏那種布局會輸，一段時間之後，該西洋棋程序就知道什麼是好的布局什麼是壞的布局，再然後就牛逼了~

在此之後，機器學習的鼻祖級的人物、卡內基梅隆大學教授

Tom Mitchell

重新定義了什麼是機器學習：

一個程序能夠從經驗E中學習，解決任務T,達到性能度量值P，當且僅當，優樂配經驗E後，經過P評價，程序在處理任務T時的性能有所提升

對於上述的西洋棋程序而言，經驗E就是程序自己進行的上萬次的自我學習，任務T就是下棋這個過程，性能度量值P就是比賽的最紅會贏的概率。

這裡引用電子郵件系統中的垃圾郵件標註的案例，加入我們將一份該系統並沒標註為垃圾郵件的郵件手動變主衛垃圾郵件，基於我們標註的垃圾郵件，該垃圾郵件識別系統將更好的學習如何過濾垃圾郵件。

換個角度，機器學習學習的對象又是什麼呢？數據，是的，是數據。他從數據出發，提取數據特徵，發現數據中的知識，然後又回到對數據的分析預測中去。為此，在機器學習的假設中有很重重的一個假設，那就是假設同類數據的數據有一定的統計特性。這樣機器學習通過考慮學習什麼樣的模型以及如何學習的問題，使得模型能讀數據進行準確的預測與分析。

機器學習的組成

基於數據構架模型從而對數據進行分析預測的機器學習由

監督學習

（supervised learning）、

非監督學習

（unsupervised learning）、

半監督學習

（semi-supervised learning）和

強化學習

（reinforcement learning）等組成。

監督學習

1、可以由訓練資料中學到或建立一個模式，並依此模式推測新的實例。訓練資料是由輸入物件（通常是向量）和預期輸出所組成。函數的輸出可以是一個連續的值（稱為回歸分析），或是預測一個分類標籤（稱作分類）。

2、一個監督式學習的任務在觀察完一些訓練範例（輸入和預期輸出）後，去預測這個函數對任何可能出現的輸入的值的輸出。要達到此目的，學習者必須以"合理"（見歸納偏向）的方式從現有的資料中一般化到非觀察到的情況。在人類和動物感知中，則通常被稱為概念學習。

3、監督式學習有兩種形態的模型。最一般的，監督式學習產生一個全域模型，會將輸入物件對應到預期輸出。而另一種，則是將這種對應實作在一個區域模型。（如案例推論及最近鄰居法）。

目前最廣泛被使用的分類器有

人工神經網路、支持向量機、最近鄰居法、高斯混合模型、樸素貝葉斯方法、決策樹和徑向基函數分類

。

無監督學習

1、無監督式學習(Unsupervised Learning )其目的是去對原始資料進行分類，以便了解資料內部結構。有別於監督式學習網路，無監督式學習網路在學習時並不知道其分類結果是否正確，亦即沒有受到監督式增強(告訴它何種學習是正確的)。其特點是僅對此種網路提供輸入範例，而它會自動從這些範例中找出其潛在類別規則。當學習完畢並經測試後，也可以將之應用到新的案例上。

2、無監督學習里典型的例子就是聚類了。聚類的目的在於把相似的東西聚在一起，而我們並不關心這一類是什麼。因此，一個聚類演算法通常只需要知道如何計算相似度就可以開始工作了。

半監督學習

1、給定一個來自某未知分布的樣本集S=L∪U, 其中L 是已標籤樣本集L={(x1,y1),(x2,y2), … ,(x |L|,y|L|)}, U是一個未標籤樣本集U={x』1,x』2,…,x』|U|},希望得到函數f:X → Y可以準確地對樣本x預測其標籤y，這個函數可能是參數的，如最大似然法；可能是非參數的，如最鄰近法、神經網路法、支持向量機法等；也可能是非數值的，如決策樹分類。其中, x與x』均為d 維向量, yi∈Y 為樣本x i 的標籤, |L| 和|U| 分別為L 和U 的大小, 即所包含的樣本數。半監督學習就是在樣本集S 上尋找最優的學習器。如何綜合利用已標籤樣例和未標籤樣例,是半監督學習需要解決的問題。

2、半監督學習問題從樣本的角度而言是利用少量標註樣本和大量未標註樣本進行機器學習，從概率學習角度可理解為研究如何利用訓練樣本的輸入邊緣概率 P( x )和條件輸出概率P ( y | x )的聯繫設計具有良好性能的分類器。這種聯繫的存在是建立在某些假設的基礎上的，即聚類假設(cluster assumption)和流形假設(maniford assumption)。

強化學習

強化學習是從動物學習、參數擾動自適應控制等理論發展而來，其

基本原理

是：

如果Agent的某個行為策略導致環境正的獎賞(強化信號)，那麼Agent以後產生這個行為策略的趨勢便會加強。Agent的目標是在每個離散狀態發現最優策略以使期望的折扣獎賞和最大。

強化學習把學習看作試探評價過程，Agent選擇一個動作用於環境，環境接受該動作後狀態發生變化，同時產生一個強化信號(獎或懲)反饋給Agent，Agent根據強化信號和環境當前狀態再選擇下一個動作，選擇的原則是使受到正強化(獎)的概率增大。選擇的動作不僅影響立即強化值，而且影響環境下一時刻的狀態及最終的強化值。

強化學習不同於連接主義學習中的監督學習，主要表現在教師信號上，強化學習中由環境提供的強化信號是Agent對所產生動作的好壞作一種評價(通常為標量信號)，而不是告訴Agent如何去產生正確的動作。由於外部環境提供了很少的信息，Agent必須靠自身的經歷進行學習。通過這種方式，Agent在行動一一評價的環境中獲得知識，改進行動方案以適應環境。

強化學習系統學習的目標是動態地調整參數，以達到強化信號最大。若已知r/A梯度信息，則可直接可以使用監督學習演算法。因為強化信號r與Agent產生的動作A沒有明確的函數形式描述，所以梯度信息r/A無法得到。因此，在強化學習系統中，需要某種隨機單元，使用這種隨機單元，Agent在可能動作空間中進行搜索並發現正確的動作。

參考資料：