當前位置:
首頁 > 最新 > 機器學習精華版

機器學習精華版

背景

機器學習系列文章已經連續推出幾天了,通過這幾期的內容,我們大概認識了機器學習的輪廓,以及這些機器學習問題能解決什麼樣的問題。

幾期下來,是不是有的人會覺得每天的篇幅太短,內容太少,看起來不太過癮呢?

在第一期《開篇》中說過,由於精力有限,所以每日的篇幅不會長,後邊還會繼續這種方式。不過考慮到很多同學還是希望能痛快點來個長篇,因此決定另外開啟個《機器學習精華版》系列,定期把短篇內容做個匯總,具體以短篇內容為依據,不定期推出,大概是每結束一個大話題,就推出一篇對應的精華版。

開始

話不多少,開始機器學習精華版第一期。本期基調是認識機器學習,解答「機器學習是什麼」,「機器學習能幹什麼」,「機器學習大概要怎麼干」,這幾個基本問題。

機器學習是什麼?

現在機器學習已經在我們生活中處處可見了,從 地圖導航、搜索引擎、垃圾郵件過濾、新聞推薦,到阿爾法狗、大疆無人機、首個獲得公民身份的機器人索菲亞,等等等等,都是機器學習的例子。

機器學習發展於人工智慧領域,是人工智慧的一部分。從上世紀四五十年代起,經歷了幾起幾落,在曲折中發展至今。

近幾年,隨著神經網路研究的興起,機器學習的成果正不斷地湧入公眾的視界,且不斷地刷新著記錄,甚至有些領域已經超越了人類(如圖像識別領域)。

傳統編程中,我們需要程序員要先有經驗,才能寫出好程序;而機器學習則相反,我們需要寫出的程序自己通過學習去總結經驗,而程序員則不需要,例如阿爾法狗,他的開發者不是圍棋大牛,甚至可能根本就不會下圍棋,但是他們確造出了能打敗人類圍棋大師的機器人。

因此,我們是這麼定義機器學習的:

一個程序被認為能從經驗E中學習,解決任務 T,達到性能度量值P,當且僅當,有了經驗E後,經過P評判,程序在處理 T 時的性能有所提升。

機器學習能幹什麼呢?

監督學習,可以進行房價測算,如下圖:

有一下房子價格與房子面積的數據,我們可以用一條曲線來擬合這些數據,這條曲線就大體反應了房價與面積的關係,這樣,如果給定房屋面積,我們就可以算出房價大致說多少。這類問題,我們稱之為回歸問題,它的結果是連續的,可以有無限個結果。

監督學習,還可以解決垃圾郵件過濾問題。我們可以找一些垃圾郵件樣例,看看他們有什麼共性,再找一些正常郵件,看看他們有什麼共性,再交叉對比一下垃圾郵件和非垃圾郵件有什麼差異,總結出一個垃圾郵件的規則,例如,「中獎」、「打折」同時出現則是垃圾郵件,「中獎」出現3次以上,「打折」出現2次以上是垃圾郵件等等。這樣,你再給我一個新的郵件,我就按照這個規則去判讀,滿足這個規則的就判為「垃圾郵件」。這類問題,我們稱之為分類問題,它的結果是離散的,只有有限個結果。

無監督學習,可以把數據集劃分成幾堆,例如谷歌新聞會把「相關」主題的新聞聚集到一塊,方便用戶瀏覽,如下圖:

與「分類問題」相比,我們的數據集是一堆沒有標籤的新聞內容,我們並不知道這堆數據中會有什麼主題(或者說沒有標籤),但是,我們可以讓機器自動去發現這些主題。這類問題,我們稱之為「聚類問題」。

無監督學習,還可以從大量的元數據中提取出重要的信息,從而對數據進行壓縮、約減。例如,你要選購一隻基金,你有哪些參考指標(維度)?你可能會考慮基金的題材,過去的平均業績,當前時期的政策,基金經理的資質,甚至可能的話你還會考慮基金經理這些天的心情怎麼樣,有這麼多的指標,但都是你憑經驗得來的,到底哪些指標對基金收益的影響大,而哪些幾乎沒影響呢?我們可以通過「主成分分析」演算法,找到最能影響基金價格的指標作為基金特徵。

下圖展示了三維數據約減到二維的過程:

這類問題,我們稱之為「降維問題」。

除此之外,推薦演算法可以根據用戶的行為,精準個性地推薦合適的內容給他。現在關於推薦的應用越來越多,不同的場景應用不同的推薦方式,推薦演算法逐漸也變成了一個大課題,也有很多人專們研究推薦演算法。

在這些基礎的機器學習問題之上,近些年有發展出的強化學習、深度學習等,讓我們能做的事情越來越多。

器學習該怎麼干?

對於監督學習,我們分兩個階段:

數據集 => 訓練 => 模型

新數據 => 模型 => 結果

對於無監督學習,我們沒有訓練階段,直接讓演算法輸出結果:

數據集 => 無監督學習 => 結果

至此,我們大概了解了機器學習的輪廓,整體上對於機器學習是什麼、能做什麼、怎麼做有了個了解,後面,我們會逐漸深入的進入到這些問題中去,詳細探討應該怎麼做。

關注公眾號,獲取更多內容~


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

論文圖片查重費時費力,機器學習演算法能否扭轉乾坤?
2018 Gartner數據科學和機器學習平台魔力象限的贏家和輸家

TAG:機器學習 |