當前位置:
首頁 > 科技 > 來學習一下概率論基本知識,它能讓防止你的模型過擬合

來學習一下概率論基本知識,它能讓防止你的模型過擬合

曉查 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

線性代數和概率論是機器學習的必備基礎課程。前幾天,量子位已經推薦了一個可以互動的線性代數課程。

最近,有位印度小哥Nimish Mishra在Medium上分享了一篇概率論基礎知識,也是一篇零基礎的入門課程。

這篇文章提到了很多基本概念和重要的變數分布。其中有些概念,比如協方差,可以幫助我們理解機器學習中變數之間的關係。

這位小哥提到的指數分布,則在神經網路調參中有著直接的應用。

下面,就讓我們一起來跟他學習一下吧。

概率論中的基本概念

我們先從擲硬幣開始談起。

隨機變數可以是離散的,也可以是連續的。比如拋硬幣的結果就是一個離散的隨機變數,而降雨量就是一個連續的隨機變數。

為了方便起見,我們可以定義一個變數x,當硬幣出現正面時x=1,當硬幣出現反面時x=0。對於降雨量這個隨機變數而言,我們只能定義x是一個大於0的實數。

隨機變數的結果雖然不可預知,但並不是完全不可捉摸的,它有一定的規律性,這就是概率分布函數

對於離散變數,它是x的概率為p,我們可以定義f(x)=p。在拋硬幣這個問題中,f(0)=1/2,f(1)=1/2。

對於連續變數,x的取值是連續的,我們不能再說x等於某個值的概率是多少,而是用一個概率密度函數來表示它,當x取值在a和b兩個數之間時,它的概率可以用以下積分結果表示:

弄清楚概率分布函數後,接下來我們就可以定義這些量:期望值方差協方差

期望值又叫平均值,一般用μ表示。以離散隨機變數為例,把變數的值和對應的概率相乘,然後把所有乘積相加起來,就是期望值:

方差用來衡量隨機變數偏離平均值的程度,它是變數X減平均值μ的平方——(X-μ)^2——的平均值。

協方差表示不同隨機變數之間關聯的強弱。下面是四個變數ABCD之間的協方差表格:

當兩個變數的協方差是負數時,表示一個變數值增加的同時,另一個變數值在減少。如果協方差是0,表示一個變數的值不會影響另一個變數。

常見的幾種概率分布

我們還是以拋硬幣為例,這個隨機變數只能取正面1、反面0兩個值,是一種伯努利分布

對拋硬幣來說, φ=0.5。

如果我們要預測n次拋硬幣中有k次出現正面的概率是多少,還需要引入二項分布

其中p表示硬幣在單次投擲中出現正面的概率,也就是0.5。

以上是離散變數的情況,對於連續的隨機變數,還有最常見的高斯分布(正態分布)、指數分布等等。

高斯分布在概率論中具有非常重要的地位,在統計學中,很多隨機變數都符合高斯分布。它的定義如下:

其中μ是期望值,σ是標準差(方差的平方根)。高斯分布的函數圖像如下,變數在平均值附近左右一個標準差內的概率是68.2%。

在深度學習中,我們需要調節神經網路的參數以防止過度擬合。這時候會用到指數分布:

λ值越大,變數x的分布越集中。

實際應用

概率不僅僅是掌握機器學習必需的基礎知識,它也有一些直接的應用。

在前文中我們提到過,指數分布可以幫助調節神經網路的參數,防止過擬合。這一點很重要,因為過擬合會導致神經網路的性能不佳。

在Kaggle的一項預測客戶交易的任務中,作者Nimish用概率論的方法找到了內部規律。

Nimish繪製了200個變數對結果分布的影響:

這組圖是不同的兩個參數(以0和1表示)條件下,相同變數的不同概率分布。第一行中的前3個圖分布不完全相同,而第4個圖幾乎完全重疊。所以,第4個參數對隨機變數可能沒有影響。

以上只是對概率論的初步介紹,如果想要了解更多,可以去看一些相關專輯,也可以去看看Nimish的專欄文章。

一份小調查

大噶好,

為了了解大家感興趣的話題,豐富我們的報道內容,帶來更好的閱讀體驗,請大家幫我們填一份調查問卷鴨,掃碼即可進入問卷頁面。

筆芯。( ̄︶ ̄)

喜歡就點「好看」吧 !

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

神經網路P圖新神器:摘墨鏡戴美瞳都能搞定,加首飾換髮型真假難分
對話楊元慶:摺疊屏手機不讓摸是PPT產品,AI+5G最大機會在行業

TAG:量子位 |