機器學習的本質就是數理統計?答案可能沒這麼簡單
可能許多剛剛接觸 AI 的新人們都產生過類似這樣的疑問:機器學習和數理統計,究竟有什麼本質區別?不都是玩數據的么。
如果從傳統意義上的數據分析師的觀點來說,這個問題的答案很簡單,無非是下面這兩點:
● 機器學習本質上是一種演算法,這種演算法由數據分析習得,而且不依賴於規則導向的程序設計;
● 統計建模則是以數據為基礎,利用數學方程式來探究變數變化規律的一套規範化流程。
總結來說,機器學習的關鍵詞是預測、監督學習和非監督學習等。而數理統計是關於抽樣、統計和假設檢驗的科學。
這個答案看起來似乎無懈可擊,但其實機器學習和數理統計之間的關係遠沒有這麼簡單。
相同點
按照數理統計學的大師級人物 Larry Wasserman 的說法,實際上「這兩門學科(機器學習和數理統計)關心的是同一件事,即我們能從數據中學到什麼?」
根據他在個人博客中的總結,以下這些在數理統計和機器學習中的常見術語實際上具有相同的含義。
除此之外,另一位學術界的專家,斯坦福大學著名統計學和機器學習大師 Robert Tibshirani 也一直將機器學習稱為「美化過的統計學」(glorified statistics)。
實際上,發展到今天,機器學習和統計學技術都已經是模式識別、知識發現和數據挖掘等領域的常用技術。雖然根據 SAS 於 2014 年發布的統計結果(如下圖),機器學習和數理統計之間的關係是相互獨立的,但實際上在近兩年他們之間的界限已經已經越來越模糊,甚至有相互融合的趨勢。
這樣看來,機器學習和數理統計的確具有相同的目標:從數據中學習。他們的核心都是探討如何從數據中提取人們需要的信息或規律。但是,這兩門學科在研究方法上卻有本質的區別。
不同點首先,機器學習是一個比較新的領域,是計算機科學與人工智慧的一個分支,它更多地關心如何構建一個系統去分析數據,而不是針對特定的程序化指令。
而統計建模則完全是數學的分支。雖然現在廉價的計算能力和海量的可用數據的支持下,數據科學家們已經可以通過數據分析來訓練計算機的學習能力,即機器學習。但統計建模相對機器學習而言卻擁有悠久得多的歷史,實際上它早在計算機被發明之前就存在了。
另一方面,機器學習更多地強調優化和性能,而統計學則更注重推導。
關於這一點,我們或許可以從下面這兩段分別來自統計學家和機器學習研究人員針對同一數據模型的描述上得到更深的體會。
● 機器學習研究人員:在給定 a、b 和 c 的前提下,該模型準確預測出結果 Y 的概率達到了 85%。
● 統計學家:在給定 a、b 和 c 的前提下,該模型準確預測出結果 Y 的概率達到了 85%;而且我有九成的把握你也會得到與此相同的結論。
第三,機器學習並不需要對有關變數之間的潛在關係提出先驗假設。研究人員只需要將所有的可用數據導入模型,等待演算法的分析並輸出其中的潛在規律,然後將這一規律應用於新數據進行預測就可以了。對於研究人員來說,機器學習就像一個黑盒子,你只需要會用,但並不清楚其中的具體實現。機器學習通常應用於高維度的數據集,你的可用數據越多,預測通常就越準確。
相比之下,統計學則必須了解數據的收集方式,估計量(包括p值和無偏估計)的統計特徵,被研究人群的潛在分布規律,以及多次試驗的期望參數的類型。研究人員需要非常清楚自己在做什麼,並提出具有預測能力的參數。而且統計建模通常用於較低維度的數據集。
結論總結來說,我們可以認為機器學習和統計建模是預測建模領域的兩個不同分支。這兩者之間的差距在過去的 10 年中正在不斷縮小,而且它們之間存在許多相互學習和借鑒的地方。未來,它們之間的聯繫將會更加緊密。
對開發者而言,充分了解機器學習和統計建模之間的差異和聯繫,將有助於他們擴大自己的知識面,甚至將專業領域之外的分析方法引入研發流程之中。這一點也正是數據科學(data science)本身的核心理念,即彌合機器學習和統計建模之間的區別,讓二者逐漸趨于歸一化。最後需要肯定的是,這兩門以數據驅動的學科之間的協作和交流越頻繁,我們的生活就會變得越好。
來源:kdnuggets,雷鋒網編譯
雷鋒網(公眾號:雷鋒網)相關閱讀:
一張圖看懂數據科學家、數據工程師和軟體工程師之間的區別
數據科學入門難?老司機為你盤點 24 門精品課程
※5G話語權的爭奪,愛立信靠什麼對抗華為?
※獨家 | 港科大工學院院長鄭光廷:21世紀是工程學的世紀,暫時沒有必要設立專門的AI專業
※這位叔叔要教勒索軟體一些做人的道理
※觀致與柯尼塞格聯手打造純電動轎跑,預計4月上海車展亮相
※當阿里、京東潛心研究無人化配送時,矽谷已經有無人車在送外賣了
TAG:雷鋒網 |
※我也想上數理統計課,保證不遲到
※看這些動漫需要一定理解力,數理化不好還真理解不了
※高等數學、線性代數、概率與數理統計、這些知識和能力可以用來幹什麼?
※拖後腿、偏科,為什麼孩子的數理化總也學不好?關鍵是做好這兩個字…
※為什麼大多數理髮師都是男的?原因竟然是……
※三個數理知識的清單,幫助你理解數學物理
※數理化沒學好?不怪你!都怪老師不會「喊麥」
※學好數理化走遍天下都不怕?不不不,學好雜技才是
※乘法表、小數、分數和編程,娃最難理解的數理知識,用這套書秒懂!
※不一樣靈感的刺青,居然夾雜著數理幾何
※運用數學方程打造巧克力茶壺泡茶,果真學好數理化走遍天下都不怕
※學好數理化難道還得有個好爸爸?
※不愛你我有無數理由,愛你只有一個理由,我就是愛你
※學好數理化,不怕李元霸
※一份顏值滿分的聖誕禮物清單 給你剁手無數理由
※易經是中華文化的活水源頭,須客觀地看待它的象數理占!
※細數跑步讓人快樂的無數理由:挑戰自己快樂多
※30多年為無數孩子圓夢的《數理化通俗演義》,愛上數理化,用對方法很重要
※沒學會唄!日宅:為什麼有關數理化的漫畫那麼少?