機器學習(3)之最大似然估計
微信公眾號
關鍵字全網搜索最新排名
【機器學習演算法】:排名第一
【機器學習】:排名第二
【Python】:排名第三
【演算法】:排名第四
最大似然估計
上一篇(機器學習(2)之過擬合與欠擬合)中,我們詳細的論述了模型容量以及由模型容量匹配問題所產生的過擬合和欠擬合問題。這一次,我們
探討哪些準則可以幫助我們從不同的模型中得到特定函數作為好的估計
。其中,最常用的準則就是極大似然估計(maximum likelihood estimation,MLE)。(1821年首先由德國數學家C. F. Gauss提出,但是這個方法通常被歸功於英國的統計學家R. A. Fisher(羅納德·費希爾)。
)
基本思想
一個隨機試驗如有若干個可能的結果A,B,C,…。若在僅僅作一次試驗中,結果A出現,則一般認為試驗條件對A出現有利,也即A出現的概率很大。一般地,事件A發生的概率與參數theta相關,A發生的概率記為P(A,theta),則theta的估計應該使上述概率達到最大,這樣的theta顧名思義稱為極大似然估計。
求解的一般步驟
(1) 寫出似然函數;
(2) 對似然函數取對數,並整理;
(3) 求導數 ;
(4) 解似然方程 。
假設有一組樣本,樣本數量為m,由未知的數據生成分布Pdata(x)獨立的生成,
設Pmodel(x, theta)是一組由theta確定在相同空間上的概率分布,則theta的最大後驗估計(
在貝葉斯統計學中,最大後驗(Maximum A Posteriori,MAP)估計可以利用經驗數據獲得對未觀測量的點態估計。它與Fisher的最大似然估計方法相近,不同的是它擴充了優化的目標函數,其中融合了預估計量的先驗分布信息,所以最大後驗估計可以看作是正則化(regularized)的最大似然估計。
)被定義為
如上式所示,多個概率(小於1)相乘在計算上會有很多的不便,其次也會發生
數值下溢
的問題。為此,我們將上述優化問題通過log函數
轉化為求和的優化問題,如下所示
進而
其中MLE的一種解釋就是
將其看做為最小化經驗分布與模型真實分布之間的差異
,這種差異可以使用KL散度
來度量(其實就是分布之間的交叉熵
),其中KL散度的定義如下所示
其中第一項只包括數據生成的過程,與我們的模型參數無關。為此,在優化時,我們只需要最小化第二項即可,如下
上式與MLE的定義時一致的。
MLE的性質
MLE最吸引人的地方在於理論上已經證明當樣本數量m趨向於正無窮時,從收斂率而言是最好的漸進估計。在合適的條件下,訓練樣本數量趨向於無窮大時,參數的最大似然估計就會收斂到參數的真實值,其中上述所指的特定條件為
真實分布Pdata必須在模型族中,否則沒有估計可以表示為Pdata;
真實分布Pdata必須對應於一個theta值,否則若存在多個參數theta則不能確定由哪個theta決定數據生成過程。
因為
一致性
和統計效率
的原因,最大似然估計通常是機器學習中的首選估計方法。當訓練樣本數量很少,以至於會產生過擬合時,正則化策略如權重衰減可用於獲得訓練樣本的有限方差較小的最大似然估計(該估計是有偏的)。
參考資料:
machine learning (bengio)
百度詞條(最大後驗估計)
招聘 志願者 投稿
廣告、商業合作
請加QQ:357062955
喜歡,別忘關注~
幫助你在AI領域更好的發展,期待與你相遇!
※CMU通過機器學習讀心術解碼大腦複雜思想
※把機器學習塞進針尖大小的晶元中:微軟開源嵌入式學習庫ELL
※決策矩陣、聚類、回歸?這裡有一篇無人駕駛的機器學習演算法大全!
※Python 語言下的機器學習庫
※邁克爾·喬丹採訪:人類對機器學習期待過高,不奢望、不局限
TAG:機器學習 |
※機器學習和數據科學最常用到的TOP10演算法
※機器學習之於IOT淺見
※雲計算「戀上」機器學習
※數據科學、機器學習和AI的區別
※小菜與老鳥之機器學習08
※機器學習開發者應該收藏的 DIY 計算機視覺和深度學習項目
※最新調查:Python 成數據分析、數據科學與機器學習的第一大語言
※「ICML開杠」機器學習研究的四大危機
※機器學習模型的可視分析
※200種最佳機器學習教程匯總「史上最全」
※谷歌機器學習43條規則:機器學習工程的最佳實踐經驗
※谷歌機器學習43條規則:機器學習工程的最佳實踐經驗
※專註於計算機視覺與機器學習,泛化智能獲千萬級Pre-A輪融資
※最實用的 50 篇文章,教你搭建機器學習 APP
※35本AI 入門、大數據、機器學習免費教程
※美國E級計算項目建立機器學習技術中心
※IBM最新專利:為機器學習模型打上水印
※最全數據科學和機器學習工具清單
※機器學習學習者必備的19張AI速查表!
※機器學習——最小二乘分類