機器學習三兄弟概念大揭秘：「監督學習」「非監督學習」「強化學習」

最新 04-04

來源：bigdata-madesimple

編譯：T.R

當我們在探究人工智慧和機器學習背後的概念和演算法時會接觸到一系列與這一領域相關的專業術語和核心概念。理解這些術語和概念有助於我們更好的把握這裡領域的發展，並理解數據科學家和AI研究人員們是如何引領時代發展的。

在這篇文章中，我們將幫助你更好的理解監督學習、非監督學習和強化學習的定義的內涵，並從更廣闊的視角中闡述它們與機器學習之間的聯繫。深入理解它們的內涵不僅有助於你在這一領域的文獻中盡情的徜徉，更能引導你敏銳地捕捉到AI領域的發展和技術進步的氣息。

監督學習、非監督學習和強化學習描述了機器處理和利用數據學習的三種不同手段，根據不同的數據和任務人們採用不同的學習方式來從數據中凝練出知識，從而在生產生活中幫助人類。

監督學習

為了讓更多的朋友理解機器學習的核心概念，我們首先給出簡明監督學習簡明扼要的定義：在知道輸入和輸出的情況下訓練出一個模型，將輸入映射到輸出。我們在開始訓練之前就已經知道了輸入和輸入，我們的任務時建立起一個將輸入準確映射到輸出的模型，當給模型輸入新的值時就能預測出對應的輸出了。

在這一過程中機器不斷的通過訓練輸入來指導演算法不斷改進。如果輸出的結果不正確，那麼這個錯誤結果與期望正確結果之間的誤差將作為糾正信號傳回到模型，糾正模型的改進。在深度學習中著名的反向傳播演算法根本上也是將誤差向後傳播來指導模型改進的。

目前監督學習佔據了機器學習演算法的絕大部分，通過演算法將輸入變數x和輸出變數y銜接起來創造了很多具有深遠影響的應用。要理解監督學習我們需要把握住以下幾點，在監督學習中所有的演算法、輸入、輸出以及場景都是人類提供的。將監督學習問題分為兩類將更好地幫助我們理解監督學習地含義。

分類：分類問題的目標是通過輸入變數預測出這一樣本所屬的類別，例如對於植物品種、客戶年齡和偏好的預測問題都可以被歸結為分類問題。這一領域中使用最多的模型便是支持向量機，用於生成線性分類的決策邊界。隨著深度學習的發展，很多基於圖像信號的分類問題越來越多的使用卷積神經網路來完成。

回歸：主要用於預測某一變數的實數取值，其輸出的不是分類結果而是一個實際的值。最常見的例子便是市場價格預測，降水量預測等問題。人們主要通過線性回歸、多項式回歸以及核方法等來構建回歸模型。

非監督學習

在了解了監督學習後我們再來看看非監督學習法，這種方法的使用不如監督學習廣泛，目前的實際應用也不如監督學習那般普遍。但這種獨特的方法論為機器學習未來的發展方向給出了很多啟發和可能性。也許非監督學習可以讓我們從「教會機器去做什麼」發展到讓機器「自己學會去做什麼」。

與監督學習不同，非監督學習並不需要完整的輸入輸出數據集，並且系統的輸出經常是不確定的。它主要被用於探索數據中隱含的模式和分布。非監督學習具有解讀數據並從中尋求解決方案的能力，通過將數據和演算法輸入到機器中將能發現一些用其他方法無法見到的模式和信息。

讓我們用一個簡單的例子來理解非監督學習。設想我們有一批照片其中包含著不同顏色的幾何形狀。在這裡計算機面對的是沒有任何標記的圖片，它並不知道幾何形狀的顏色和外形，它看到的只是一張張照片而已。但通過將數據輸入到非監督學習的模型中去，演算法可以嘗試著理解圖中的內容，通過相關性和特徵將圖中的相似的物體聚為一類。在理想的情況下它可以將不同形狀不同顏色的幾何形狀聚集到不同的類別中去，特徵提取和標籤都是機器自己完成的。

但就像人類學習一樣，機器也會犯錯。而機器的能力可以通過識別錯誤、並從錯誤中學習而不斷提高改善。

強化學習

強化學習是機器學習的重要部分，在為機器學習開拓新方向上做出了巨大的貢獻。強化學習突破了非監督學習，為機器和軟體如何獲取最優化的結果給出了一種全新的思路。它將如何最優化主體的表現和如何優化這一能力之間建立起了強有力的鏈接。通過獎勵函數的反饋來幫助機器改進自身的行為和演算法。

但強化學習在實踐中並不簡單，人們利用很多種演算法來實現強化學習。簡單來說，強化學習需要指導機器做出在當前狀態下能獲取最好結果的行為。

強化學習中主體通過行為與環境相互作用，而環境通過獎勵函數來幫助演算法調整做出行為決策的策略函數。從而在不斷的循環中得到表現優異的行為策略。它十分適合用於訓練控制演算法和遊戲AI等場景。

最後在了解和這三者的概念後讓我們來討論監督學習、非監督學習和強化學習的異同點：

1.監督學習 v.s 強化學習

在監督學習中對應的輸入輸出數據扮演了監督的角色，將其中蘊含的知識通過訓練賦予模型，模型通過數據的糾正信號不斷學習最終形成能較好理解數據並準確預測的演算法。而在強化學習中監督數據並不是必須的，主體可以通過與環境相互作用嘗試很多方法和表現並調節。我們可以想像圍棋的例子，在最終勝負揭曉之前我們需要執行很多次操作，每一次操作都有很多種可能，為這一任務建立監督學習的知識是十分複雜的工作。而電腦則可以根據與環境相互作用後收到的反饋建立起自己對於棋局的理解。

當機器開始學習後她便可以不斷地充實自己的經驗並改善表現。這也許是與監督學習最大的不同了。雖然兩種模型都建立了某種輸入到輸出的映射關係，但強化學習卻是通過獎勵函數來幫助系統不斷改進模型的。

2.強化學習 v.s 非監督學習

強化學習根本上來說是通過映射結構來對輸入和輸入進行銜接，但非監督學習則在輸入和輸出之間沒有任何的鏈接。在非監督學習中，機器的主要任務是對數據種的模式進行識別而不是建立映射關係。如果我們想要建立一個用戶新聞推薦系統，強化學習可以通過用戶的使用反饋不斷改進，並建立起用戶喜歡的新聞類型圖譜實現更精準的推薦。而對於非監督學習來說，則能從用戶讀過的文章種總結出用戶的喜好，並為用戶推薦合適的主題。

-The End-

將門是一家專註於發掘、加速並投資技術創新激活商業價值的創業公司的創投機構，旗下設有將門創新服務、將門技術社群以及將門投資基金。

將門創新服務專註於使創新的技術落地於真正的應用場景，激活和實現全新的商業價值，服務於行業領先企業和技術創新型創業公司。

將門技術社群專註於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容，使創新成為持續的核心競爭力。

將門投資基金專註於投資通過技術創新激活商業場景，實現商業價值的初創企業，關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡，將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、偉景智能、Convertlab、迪英加科技等十幾家具有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給我「門」:bp@thejiangmen.com

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※機器學習精華版
※機器學習實戰

TAG:機器學習 |