告訴你選的100％正確，結果一定是對的？

最新 03-29

我們每天都面臨著各種選擇，早上鬧鐘響了，我們需要選擇馬上起床還是再睡五分鐘，起床後我們需要選擇在家吃早餐還是出門買早餐，出了門以後我們需要選擇開車上班還是坐地鐵……這些只是日常小事，但是在統計學家的眼中，這些選擇或許藏著更為深奧的學問。

模型選擇，這是統計學中的基本問題。什麼是模型選擇呢？

模型選擇廣泛應用在自然科學和社會科學各個領域。經過合理假設後建立的一些統計模型，我們稱之為比較模型，所有比較模型構成了模型空間。簡單來說，模型選擇就是通過使用模型空間中的各模型對觀測數據進行分析，選擇出與數據匹配度最佳的統計模型的過程。貝葉斯統計是統計學中一種很重要的方法。它通過計算模型的後驗概率來進行模型比較。所謂後驗概率，就是從結果去尋找可能的原因，比如我們喝一口紅棗粥後根據粥的甜度來判斷這碗粥放過糖的概率是多少。在貝葉斯統計中，模型的後驗概率是一個隨機變數，它反映了我們對模型的確信程度。

當真實模型是多個比較模型中的一個時，貝葉斯模型選擇總能收斂到真實模型。隨著數據量的增加，正確模型的後驗概率將趨於100%，也就是對這個模型的確信程度一直在增高。這在統計上叫做一致性。

但是，如果比較模型全是錯的，使用貝葉斯方法會得到怎麼樣的結果呢？？對於這一點，其實科學家們還不是很清楚。

因此，我們研究了貝葉斯模型選擇的漸近行為。我們關注比較模型相同錯誤或者相同正確的情形。例如，假設一個硬幣是均勻的，那麼擲硬幣時正面朝上的概率是50%。如果兩個比較模型分別是正面朝上概率為40%和正面朝上概率為60%，那麼這兩個模型就是相同錯誤的。

模型中可能含有參數，對參數進行優化後，使模型和正確模型最接近，這時的參數稱為最優參數，模型稱為最優模型。例如某地區成年男性的身高服從正態分布N(1.75, 0.04)。如果兩個比較模型是N(μ, 0.04)，μ≤ 1.75和N(μ, 0.04)，μ≥1.75，那麼當身高均值參數μ取到真實值1.75時，模型就是最優模型，此時兩個比較模型的最優模型是相同的且是正確的。如果兩個比較模型是N(μ, 0.06)，μ≤ 1.75和N(μ, 0.06)，μ≥1.75，同樣當身高均值參數μ= 1.75時，達到最優模型，兩個模型的最優模型相同，但都不是正確模型，因為方差較真實方差大。

當比較模型之間沒有優劣之別時，我們期望模型選擇能呈現一種比較「理智」的行為，即k個模型的後驗概率均為1/k。但遺憾的是研究結果並非如此。

我們把貝葉斯模型選擇問題分成了三類，每類分別呈現出了不同的極限行為。第一類問題，是比較兩個本質上相同的模型，這類問題基本沒有研究價值。

第二類問題，是比較兩個相同正確或者相同錯誤、且最優模型相同的情況。在這種情況下，模型的後驗概率收斂到一個非退化分布。從這個分布中抽出的樣本每次都不相同，也就是結果是波動的。

圖1 貝葉斯模型選擇行為的分類

第三類問題，比較兩個相同錯誤且極限模型不同的情況，這種情況是我們最關心的，因為從某種意義上來說，對於真實世界模型總是錯誤的。在這種情況下，貝葉斯模型選擇表現出一種極端「非理智」的行為：在使用隨機產生的數據時，對一些數據以極高後驗概率支持某一模型，而其餘模型後驗概率趨於0；在另一些數據中以極高後驗概率支持另一模型。這種情況與我們預期的「理智」行為相去甚遠。

我們可以看看這麼一個例子：假設真實世界是灰色的，我們去問一個聖人世界是白色的還是黑色的。他經過深思熟慮後回答世界是100%黑色的。但是下次去問同一個問題時，他給出的答案是世界是100%白色的。這樣的行為讓人困擾。

貝葉斯選擇的這種「過度自信」吸引了科學家的興趣。日前，中國科學院數學與系統科學研究院和英國倫敦大學科研人員發布在PANS上的一項研究發現，貝葉斯模型選擇的病態漸近行為，可能是導致使用貝葉斯方法時錯誤進化樹的後驗支持率接近1的主要原因。

這項研究的出發點是分子系統學。分子系統學是使用分子數據（基因組數據）來推斷物種間的譜系關係的學科，這種譜系關係用進化樹來刻畫。在使用貝葉斯方法時，每一種進化樹對應一個比較模型。下圖中樹T是正確模型，T1，T2和T3是三個相同正確或錯誤的比較模型，正確與否取決於枝長參數(t)的最大似然估計值，這個估計值與進化模型相關。

圖

2三個物種的有根樹（A）和四個物種的無根樹（B）

圖3展示了使用的序列長度為103和105的情況下得到的三個二叉樹的後驗密度函數。圖中三角形的三個頂點代表三個模型的後驗概率分別為（1, 0, 0），（0, 1, 0）和（0, 0,1），三角形的中心對應三個模型的後驗概率為（1/3, 1/3, 1/3）。紅色代表高數值，黃色代表低數值，灰色部分數值為0。三角形中心部分也就是科研人員所預期的「理智」行為。

圖3 三種二叉樹的聯合後驗分布

A和A』使用了圖2(A)中的三個物種的有根樹作為比較模型，而真實模型是星狀樹。當三個二叉樹內部枝長t取極大似然估計值0時，三個二叉樹對應了相同正確的模型。

B和B』與A和A』類似，只是模擬和分析時使用的模型不同。此時內部枝長t的極大似然估計值為0，但是t1的極大似然估計值不等於t這種情況下三個二叉樹對應了相同錯誤且極限模型相等的情形。可以看出這兩種情況後驗分布都是非退化的。

C和C』使用了圖2（B）中的三個無根樹作為比較模型，真實模型是四個物種的星狀樹。在三個比較模型中，內部枝長t的極大似然估計值不為0，在這種情況下三個二叉樹對應相同錯誤且最優模型不相等的情形。此時，貝葉斯模型選擇展示出了極端「不理智」行為，後驗密度只集中在三個頂點處。

在此研究之前，有學者認為決定貝葉斯模型選擇行為的可能因素是模型的參數個數、極限模型是否正確等。但這項研究結果表明這些都並非決定因素，決定因素是比較模型的最優模型是否相同（無論極限模型正確與否）。

同時科研人員還發現了貝葉斯模型選擇一個讓人頭疼的特性。當比較模型之間有較小的優劣之別，當數據量趨於無窮時，理論上較為正確模型的後驗概率應當收斂到1。但是即使數據量非常大（但有限），還是有一定可能性出現較錯誤的模型獲得了很大的後驗概率的情況。

之前進化生物學家在研究中曾多次觀察到使用貝葉斯模型選擇的方法估計進化樹時，不管進化樹是否正確，其後驗概率總是100%或0。這項工作的研究成果為這一現象提供了一個解釋。

貝葉斯模型選擇廣泛應用於科學的各個領域。理論上說，由於貝葉斯模型選擇方法具有一致性，是一種性質優良方法。出現這種極端行為是因為用於比較的模型中並不含有正確模型，也就是說這種極端行為是用戶錯誤而非系統錯誤造成的。但無論是貝葉斯方法還是非貝葉斯方法，這類研究成果對評價不同的檢驗模型的應用的哲學意義還有待進一步研究。

來源：中國科學院數學與系統科學研究院

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 中科院之聲 的精彩文章:

※2017網安全局態勢報告
※你有一份來自5.3億年前的「巧克力球」，請注意查收！

TAG:中科院之聲 |