機器學習精華版

最新 03-12

背景

機器學習系列文章已經連續推出幾天了，通過這幾期的內容，我們大概認識了機器學習的輪廓，以及這些機器學習問題能解決什麼樣的問題。

幾期下來，是不是有的人會覺得每天的篇幅太短，內容太少，看起來不太過癮呢？

在第一期《開篇》中說過，由於精力有限，所以每日的篇幅不會長，後邊還會繼續這種方式。不過考慮到很多同學還是希望能痛快點來個長篇，因此決定另外開啟個《機器學習精華版》系列，定期把短篇內容做個匯總，具體以短篇內容為依據，不定期推出，大概是每結束一個大話題，就推出一篇對應的精華版。

開始

話不多少，開始機器學習精華版第一期。本期基調是認識機器學習，解答「機器學習是什麼」，「機器學習能幹什麼」，「機器學習大概要怎麼干」，這幾個基本問題。

機器學習是什麼？

現在機器學習已經在我們生活中處處可見了，從地圖導航、搜索引擎、垃圾郵件過濾、新聞推薦，到阿爾法狗、大疆無人機、首個獲得公民身份的機器人索菲亞，等等等等，都是機器學習的例子。

機器學習發展於人工智慧領域，是人工智慧的一部分。從上世紀四五十年代起，經歷了幾起幾落，在曲折中發展至今。

近幾年，隨著神經網路研究的興起，機器學習的成果正不斷地湧入公眾的視界，且不斷地刷新著記錄，甚至有些領域已經超越了人類（如圖像識別領域）。

傳統編程中，我們需要程序員要先有經驗，才能寫出好程序；而機器學習則相反，我們需要寫出的程序自己通過學習去總結經驗，而程序員則不需要，例如阿爾法狗，他的開發者不是圍棋大牛，甚至可能根本就不會下圍棋，但是他們確造出了能打敗人類圍棋大師的機器人。

因此，我們是這麼定義機器學習的：

一個程序被認為能從經驗E中學習，解決任務 T，達到性能度量值P，當且僅當，有了經驗E後，經過P評判，程序在處理 T 時的性能有所提升。

機器學習能幹什麼呢？

監督學習，可以進行房價測算，如下圖：

有一下房子價格與房子面積的數據，我們可以用一條曲線來擬合這些數據，這條曲線就大體反應了房價與面積的關係，這樣，如果給定房屋面積，我們就可以算出房價大致說多少。這類問題，我們稱之為回歸問題，它的結果是連續的，可以有無限個結果。

監督學習，還可以解決垃圾郵件過濾問題。我們可以找一些垃圾郵件樣例，看看他們有什麼共性，再找一些正常郵件，看看他們有什麼共性，再交叉對比一下垃圾郵件和非垃圾郵件有什麼差異，總結出一個垃圾郵件的規則，例如，「中獎」、「打折」同時出現則是垃圾郵件，「中獎」出現3次以上，「打折」出現2次以上是垃圾郵件等等。這樣，你再給我一個新的郵件，我就按照這個規則去判讀，滿足這個規則的就判為「垃圾郵件」。這類問題，我們稱之為分類問題，它的結果是離散的，只有有限個結果。

無監督學習，可以把數據集劃分成幾堆，例如谷歌新聞會把「相關」主題的新聞聚集到一塊，方便用戶瀏覽，如下圖：

與「分類問題」相比，我們的數據集是一堆沒有標籤的新聞內容，我們並不知道這堆數據中會有什麼主題（或者說沒有標籤），但是，我們可以讓機器自動去發現這些主題。這類問題，我們稱之為「聚類問題」。

無監督學習，還可以從大量的元數據中提取出重要的信息，從而對數據進行壓縮、約減。例如，你要選購一隻基金，你有哪些參考指標（維度）？你可能會考慮基金的題材，過去的平均業績，當前時期的政策，基金經理的資質，甚至可能的話你還會考慮基金經理這些天的心情怎麼樣，有這麼多的指標，但都是你憑經驗得來的，到底哪些指標對基金收益的影響大，而哪些幾乎沒影響呢？我們可以通過「主成分分析」演算法，找到最能影響基金價格的指標作為基金特徵。

下圖展示了三維數據約減到二維的過程：