當前位置:
首頁 > 最新 > 每個數據科學專家都應該知道的六個概率分布

每個數據科學專家都應該知道的六個概率分布

概率分布在許多領域都很常見,包括保險、物理、工程、計算機科學甚至社會科學,如心理學和醫學。它易於應用,並應用很廣泛。本文重點介紹了日常生活中經常能遇到的六個重要分布,並解釋了它們的應用。

介紹

假設你是一所大學的老師。在對一周的作業進行了檢查之後,你給所有的學生打了分數。你把這些打了分數的論文交給大學的數據錄入人員,並告訴他創建一個包含所有學生成績的電子表格。但這個人卻只存儲了成績,而沒有包含對應的學生。

他又犯了另一個錯誤,在匆忙中跳過了幾項,但我們卻不知道丟了誰的成績。我們來看看如何來解決這個問題吧。

一種方法是將成績可視化,看看是否可以在數據中找到某種趨勢。

上面展示的圖形稱為數據的頻率分布。其中有一個平滑的曲線,但你注意到有一個異常情況了嗎?在某個特定的分數範圍內,數據的頻率異常低。所以,最準確的猜測就是丟失值了,從而導致在分布中出現了凹陷。

這個過程展示了你該如何使用數據分析來嘗試解決現實生活中的問題。對於任何一位數據科學家、學生或從業者來說,分布是必須要知道的概念,它為分析和推理統計提供了基礎。

雖然概率為我們提供了數學上的計算,而分布卻可以幫助我們把內部發生的事情可視化。

在本文中,我將介紹一些重要的概率分布,並會清晰全面地對它們進行解釋。

注意:本文假設你已經具有了概率方面的基本知識。如果沒有,可以參考這篇有關概率基礎的文章。

常見的數據類型

在開始詳細講述分布之前,先來看看我們會遇到哪些種類的數據。數據可以分為離散的和連續的。

離散數據顧名思義,只包含指定的值。例如,當你投骰子的時候,輸出結果只可能是1、2、3、4、5或6,而不可能出現1.5或2.45。

連續數據:可以在給定的範圍內取任何值。範圍可以是有限的,也可以是無限的。例如,女孩的體重或身高、路程的長度。女孩的體重可以是54千克、54.5千克,或54.5436千克。

現在我們開始學習分布的類型。

分布的類型

伯努利分布

我們首先從最簡單的分布伯努利分布開始。

伯努利分布只有兩種可能的結果,1(成功)和0(失敗)。因此,具有伯努利分布的隨機變數X可以取值為1,也就是成功的概率,可以用p來表示,也可以取值為0,即失敗的概率,用q或1-p來表示。

概率質量函數由下式給出:px(1-p)1-x, 其中x € (0, 1)。它也可以寫成:

成功與失敗的概率不一定相等。這裡,成功的概率(p)與失敗的概率不同。所以,下圖顯示了我們之間比賽結果的伯努利分布。

這裡,成功的概率 = 0.15,失敗的概率 = 0.85 。如果我打了你,我可能會期待你向我打回來。任何分布的基本預期值是分布的平均值。來自伯努利分布的隨機變數X的期望值如為:

E(X) = 1*p + 0*(1-p) = p

隨機變數與二項分布的方差為:

V(X) = E(X2) – [E(X)]2 = p – p2 = p(1-p)

伯努利分布的例子有很多,比如說明天是否要下雨,如果下雨則表示成功,如果不下雨,則表示失敗。

均勻分布

對於投骰子來說,結果是1到6。得到任何一個結果的概率是相等的,這就是均勻分布的基礎。與伯努利分布不同,均勻分布的所有可能結果的n個數也是相等的。

如果變數X是均勻分布的,則密度函數可以表示為:

均勻分布的曲線是這樣的:

你可以看到,均勻分布曲線的形狀是一個矩形,這也是均勻分布又稱為矩形分布的原因。其中,a和b是參數。

花店每天銷售的花束數量是均勻分布的,最多為40,最少為10。我們來計算一下日銷售量在15到30之間的概率。

日銷售量在15到30之間的概率為(30-15)*(1/(40-10)) = 0.5

同樣地,日銷售量大於20的概率為 = 0.667

遵循均勻分布的X的平均值和方差為:

平均值 -> E(X) = (a+b)/2

方差 -> V(X) = (b-a)2/12

標準均勻密度的參數 a = 0 和 b = 1,因此標準均勻密度由下式給出:

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機械雞 的精彩文章:

蘋果收購僅6人的Init.ai團隊 併入Siri 開發小組
日本早稻田大學的研究人員,使用AI給黑白照片著色
Google DeepMind顧問預言:五年後AI將在《星際爭霸》中戰勝人類
哥倫比亞大學研發出3D打肌肉,機器人有肱二頭肌了!
這家「奇怪」的日本酒店,服務人員都是機器人

TAG:機械雞 |