當前位置:
首頁 > 知識 > 貝葉斯異論

貝葉斯異論

從8世紀的早期,威尼斯共和國是地中海一帶的一個主要的強權國家。在其政權鼎盛時期,威尼斯控制了大部分的亞得里亞海岸,以及克里特島和賽浦路斯島,同時還壟斷了東方通往歐洲的商業貿易路線。威尼斯共和國由一群貴族家族所統治,這些家族之間保持著某種民主的程序。整個國家名義上的領袖是總督,從公元697年該共和國成立起,到1797年被奧地利吞併,總共有150餘任總督,有的任期很短,只有1年或不到1年,也有的任期長達34年。在世的總督去世之後,該共和國會遵守一項很複雜的選舉程序,他們先從貴族家族的長者當中,以抽籤的方式選出一小群元老,這些被選出的元老還會再挑選一些人加入到他們之中,之後再從這一擴大的元老群中以抽籤方式選出一小群人。這樣的程序進行幾次之後,會選出一群最後的總督候選人,總督就在這群人當中產生。

在威尼斯共和國歷史的早期,每階段的抽籤都要準備一批大小相同的蠟球,有的蠟球里什麼都沒有,有的蠟球裡面卻有一張小紙條,上面寫著「元老」二字。到了17世紀,最後幾個階段用的道具是大小完全相同的金球與銀球。公元1268年,當多傑·拉伊涅里·澤諾(Doge Rainieri Zeno)總督去世時,在第二階段有30位元老,於是準備了30個蠟球,其中9個蠟球內藏有「元老」紙條。一個小孩被帶過來,他從裝有蠟球的籃子中取出一個蠟球,交給第一位元老候選人,這位元老候選人就打開蠟球,看看自己是否能夠成為下一階段的元老候選人。接著,小孩從籃子中取出第二個蠟球,交給第二位元老候選人,第二位再打開蠟球,以此類推。

在小孩選出第一個蠟球前,候選人群中的每個成員被選為下個階段元老的概率是9/30。如果第一個蠟球是空的,剩下的候選人中每個人有9/29的概率成為下墜估摸元老。但如果第一個蠟球里有紙條,則其餘人被選中的機會就剩下8/29。一旦第二個蠟球被選定且被打開,則下一個人被選中成為元老的概率同樣會減少或增加,是減少還是增加取決於前次的抽球結果。這樣繼續抽下去,直到所有的9個紙條都被抽出為止。而在這時,剩下的候選人下一階段成為元老的概率就降為零。

這是條件概率的一個例子。某一特定候選人被選為下一階段元老的概率,取決於在他的選擇之前被選出的蠟球。J·M·凱恩斯曾指出,所有的概率都是條件概率。用凱恩斯所舉的一個例子:從他的圖書室的書架上隨機地選擇一本書,而選中的書是精裝本的概率,也是一種條件概率,其條件取決於他的圖書室里究竟有多少書,以及他怎樣「隨機」地選取。一個病人患小細胞肺癌的概率,是以該病人的吸煙史為條件的。對一個控制實驗,檢驗沒有處理效果這一零假設所計算出來的P值,是以該實驗的設計為條件的。條件概率的重要方面是,某些已知事件(例如在彩票發行過程中,某一組特定數字能贏)的概率,會隨前提條件的不同而不同。

在18世紀,為處理條件概率而導出的公式都是根據以下的思想做出的,即條件事件要發生在所研究的事件之前。但是到了18世紀後期,R·T·貝葉斯在擺弄條件概率的公式時,忽然有個驚人的發現,這些公式都是內部對稱的!

假設有兩個事件在一段時期內發生,就像先洗牌,再發出5張撲克牌。我們稱這兩個事件分別為「前事件」(the events before)和「後事件」(the events after)。以「前事件」為條件討論「後事件」的概率是有意義的。如果牌沒有洗好,當然會影響玩家得到一對A的概率。貝葉斯發現,我們也可以「後事件」為條件計算「前事件」發生的概率。這是沒有道理的。就像玩家已經拿到一對A之後,再來確定整副牌里有4張A的概率。或是已知一個病人已患了肺癌,再來計算他是吸煙者的概率。或者是已經知道了有個叫C·A·史密斯的人是唯一得到大獎的人,然後再計算州立彩票遊戲公平不公平的概率。

貝葉斯把這些計算結果擱置起來,沒有發表。在他死後,這些論文才被發現,而後才被發表出來。從那裡起,貝葉斯定理就困擾著許多統計分析數學家。絕對不是毫無道理,貝葉斯將條件概率倒轉過來反倒很有意義。當流行病學家試圖想找出某種罕見醫學病狀的可能原因時,例如雷氏症候群(Reye』s syndrome),他們通常是利用病例控制研究方法(case-control study),在這種研究中,他們首先搜集一組患有該病症的病人,然後拿去與控制組的病人做比較,控制組的病人沒有患這種疾病,但在其他方面與患有這種疾病的病人類似。於是,流行病學家在已知控制組病人已患有該疾病的條件下,計算某些先前治療或先前條件導致該病的概率。吸煙對心臟病和肺癌都有影響,就是這樣首次被發現的。鎮靜劑對新生兒畸形的影響,也是從這種病例控制研究中發現的。

直接應用貝葉斯定理,可以把條件概率反轉過來,比這更為重要的,是使用貝葉斯定理估計分布的參數。有一種建議,可以把一項分布的參數本身看作是隨機的,然後計算與這些參數相關的概率。例如,我們可能想要比較兩種癌症治療方法,並希望得到結論說「我們有95%的把握認為使用治療方法A會比使用治療方法B的5年期存活率高」。我們只要應用貝葉斯定理一兩次就可以解決這個問題。

關於「逆概率」的問題

有很多年,以這種方式使用貝葉斯定理被認為是一種不適當的作法。當用於參數時,關於概率代表什麼涵義有很多質疑。畢竟皮爾遜革命(Pearsonian revolution)的整個基礎在於,科學的測量結果本身不再是我們所感興趣的問題,相反,正如K·皮爾遜所指出的那樣,我們所感興趣的是這些測量結果的概率分布,而科學的調查研究的目的就是要估計出控制這些分布的那些參數值(固定的但卻是未知的)。所以,如果這些參數被視為是隨機的(而且以觀測的測量結果為條件),那麼這種方法就不再有這樣清楚的意義了。

在20世紀的早些年,統計學家非常謹慎,避免使用人們所說的「逆概率」。有一次在皇家統計學會上,對費歇爾的一篇早期論文進行討論時,就有人質疑他使用了逆概率,他堅定地為自己辯護,否認這項可怕的指控。在第一篇關於置信區間的論文里,奈曼似乎使用了逆概率的概念,但只是作為一個數學方法,用來得到一個計算結果,而在他的第二篇論文里,他證明不了不用貝葉斯定理也能得到相同的結果。到了20世紀60年代,為種方法的潛在力量與用途已開始吸引越來越多的研究者跟蹤研究,這個貝葉斯異論變得越來越受尊重了。到了20世紀末,它已經達到了如此高的接受水平,如今在一些期刊像《統計年報》(Annals of Statistics)和《生物統計》上,幾乎半數以上的文章現在都使用貝葉斯方法。不過,貝葉斯方法的應用仍然會經常遭到質疑,尤其是在醫學領域。 在解釋貝葉斯異論時碰到的一個困難是,目前有好幾種不同的分析方法,而這些方法的應用又至少有兩種完全不同的哲學基礎。長期以來,看上去好像完全不同的思想卻經常貼著相同的標籤——貝葉斯。後面我將說明貝葉斯異論的兩個種理論:貝葉斯層次模型(Bayesian hierarchal model)和個人概率(personal probability)。

貝葉斯層次模型

20世紀70年代早期,由於弗雷德里克·莫斯特勒(Frederidck Mosteller)和大衛·華萊士(David Wallace)早期的工作和貢獻,原文分析的統計方法有了很大的進展,他們倆人曾運用統計方法來判定《聯邦主義論文集》(Federalist)中一些匿名文章的作者。自1787年,在紐約州帶頭鼓動通過新的美國憲法期間,詹姆士·麥迪遜(James Madison)、亞力山大·漢密爾頓(Alexander Hamilton)和約翰·傑伊(John Jay)寫了大約70篇文章,支持通過憲法。但這些文章都是匿名發表的。19世紀初,漢密爾頓與麥迪遜兩人開始確認這些兩個人都聲稱有著作權的論文,其中有12篇文章他們都認為是自己寫的。

在用統計方法對這些署名有爭議性的文章進行分析時,莫斯特勒與華萊士找出了幾百個無「特定內容」的英文辭彙,如「if」、「when」、「because」、「over」、「whilst」、「as」、「and」等。這些字在句子里只有語法上的意義,本身並沒有什麼特定的含義,這些字的使用主要取決於作者的語言使用習慣。在這上百個沒什麼特定含義的字里,他們發現,大約有30個字在這兩位作者的其他著作中使用頻率不同。

例如,麥迪遜使用「upon」這個字的頻率,是每千字平均0.23次,但漢密爾頓對這個字的使用頻率很高,平均每千字高達3.24次(在12篇署名有爭議的文章里,有11篇根本沒有用「upon」這個字,而在剩下的那一篇文章中,平均每千字就出現1.1次)。這些平均的頻率並不是描述一千字中任何特定組合。這些數值本身並不是整數,這就意味著這些頻率並不是在描述任意一個觀測的文字序列。這些數值其實是兩位不同作者在寫作時用字分布的其中一個參數的估計值。

對於某篇文章著作權的爭議,所要解決的問題是:這些文章中用詞的分布形態,是來自與麥迪遜相聯的概率分布呢?還是來自與漢密爾頓相聯的概率分布?這些分布各有各有參數,其中能夠定義出各自作品的特定參數各不相同。參數值只能根據他們的論文來估計,而且這些估計可能是錯的。因此,要想區分哪個分布可應用在一篇署名有爭議的文章上,充滿了這種不確定性。 估計這種不確定性水平的一種方法是,這兩個人的分布參數的確切值,是來自於描述18世紀晚期所有北美洲有教養的人用英文寫作時用字習慣的參數分布。例如,漢密爾頓每千字中用到「in」這個字24次,麥迪遜則是每千字用23次,而同時代的其他作家,使用「in」這個字的頻率在每千字22至25次之間。

由於受到當時和當地一般用字分布形態的制約,每個人分布的參數是隨機的,並且具有一個概率分布。這樣一來,制約漢密爾頓和玫迪遜使用這些無特定含義的字的參數本身也有參數,我們可以稱之為「超參數」(hyper-parameter)。根據當時和當地其他作者發表的文章來分析,我們就能估計出這些超參數。

英語語言總是隨著時間和地域的變化而變化。例如在20世紀的英語文學裡,使用in的頻率通常是每千字少於20次,這表明從漢密爾頓和麥迪遜的時代到現在的200多年裡,英語的用字型態已經

稍微有所轉變。我們可以把這些定義18世紀北美用字習慣參數分布的越參數,看作是它們本身也有一個相對於所有時間與空間的概率分布。因此,除了用18世紀的北美作品,我們還可以搜集其它地區和其它時期的英語文獻,來估計這些超參數的參數,我們可以稱這些參數為「超-超參數」(hyper-hyperparameter)。

通過重複使用貝葉斯定理,我們就能決定這些參數的分布,然後再決定這些超參數的分布。從原則上來說,我們可以用超-超-超參數求出超-超參數的分布,進而把這種層次分析引向深入,依次類推。但在我們的例子里,顯然沒有必要進一步分析,以免增添更多的不確定性。利用超參數與超-超參數的估計值,莫斯特勒與華萊士就能算出與下面這個陳述有關的概率:是麥迪遜還是漢密爾頓寫了這篇文章。

自20世紀80年代早期以來,貝葉斯層次模型已經成功地解決了許多工程上和生物學上的難題。比如,一些數據看上去似乎是來自於兩個或兩個以上不同的分布,這個問題就屬於這類難題。分析家可以建議,有一個未觀測到的變數存在,而這個變數可以定義已知的一個觀測結果究竟來自於哪個分布。這個差別標識本身是個參數。但它還有一個概率分布(含有超參數),這個概率分布可以納入到似然函數當中來進行分析。萊爾德和韋爾的EM演演算法特別適合於解決這類問題。

統計文獻中對貝葉斯方法的廣泛使用充滿了混淆與爭議。大家可以提出得出不同結果的不同方法,但卻沒有明確的標準來決定哪個是對的。通常,保守肖像統計學家反對使用貝葉斯定理,而貝葉斯學派的人彼此對他們模型的細節看法也不一致。這種混亂的狀況亟需另一個像費歇爾這樣的天才出現,找出一個統一的原則來解決這些爭議。當我們進入21世紀的時候,還沒有這樣的天才出現。因此,相關的問題還是像在200多年前的貝葉斯時代一樣,令人困惑。

個人概率

另外一種貝葉斯方法其基礎看上去要堅實得多。這就是個人概率(personal probability)的概念。個人概率的意思自從17世紀貝努里一開始研究概率時就已經產生了。實際上,概率(probability)這個英文字創造的初衷,就是用來處理主觀不確定性的。

L·J·薩維奇和布魯諾·德費奈蒂在20世紀60年代和70年代,推導出了個人概率背後的許多數學模式。我在20世紀60年代末期曾參加一場在北卡羅來納大學舉辦的統計學會議,會上薩維奇在演講中曾闡述他的一部分想法。薩維奇認為,世界上並沒有「已被證明的科學事實」這樣的事情。有的只是一些陳述,而那些自認為是科學家的人對這些陳述持有很高的贊成概率。他舉例說,在場聽他演講的人對「地球是圓的」這項陳述一定持有很高的認同概率,但若我們有機會對全世界的人做一次普查,則我們很可能發現在中國中部的許多農民對上述陳述持有很低的概率。

講到這裡的時候,薩維奇不得不被迫停下來,因為校園晨一群學生正在會堂外遊行通過。他們還高喊著口號「停止上課!罷課!罷課!停止上課!」這些學生在要求全校的學生罷課,以抗議越南戰爭。等到他們走遠,四周又恢復平靜,薩維奇才看看窗外,然後說:「看來,我們可能是認為地球是圓的人中的最後一代。

個人概率有許多不同的版本。其中一個極端是薩維奇-德費奈蒂的方法,該方法認為每個人都有其自己獨特的一套概率。而另一個極端則是凱恩斯的觀點,他認為概率是一種信仰程度(the degree of belief),這種信仰是一個在特定的文化環境中一個有教養的人可能期望持有的信念。按照凱恩斯的觀點,一個特定文化環境中的所有人(薩維奇所說的科學家或中國中部的農民)對某一特定的陳述,會持有一個一般的概率水平。由於這個概率水平取決於文化和時間,因此從某種絕對的意義上為說,很有可能這個適當的概率水平是錯的。

薩維奇和德費奈蒂則主張每個人都有自己特定的一套個人概率,他們還描述怎樣運用一種叫做「標準賭博」(standard gamble)的技巧把這種人人概率求出來。為了讓整個文化中的人能共享既定的一套概率,凱恩斯不得不弱化相關的數學定義,概率不再是一個精確的數字(例如67%),而是一種將想法排序的方法(例如,明天可能下雨的概率大於可能下雪的概率)。 不管個人概率的概念是如何被準確定義的,貝葉斯定理在個人概率中的應用方式,看上去與大多數的想法相吻合。貝葉斯方法一開始是假設在一個人的頭腦中有一組先驗概率(a prior set of probabilities),接下來這個人經過觀測或實驗產生了數據,然後再拿這組數據來修正先驗概率(prior probability),生成一組後驗概率(a posterior set of probabilities):

先驗概率數據後驗概率

假設這個人想確定是否所有的大烏鴉都是黑的。她首先存有一些關於「這個陳述是真的」概率的先驗知識。例如,起初她可能對大烏鴉一無所知,對「所有大烏鴉都是黑的」這句話半信半疑,相信比例是50:50。數據則包括她對大烏鴉的觀測。假如她看到了一隻大烏鴉,而且這隻大烏鴉是黑色的,她的後驗概率就會增加。因此下一次她再觀測大烏鴉時,她的新的先驗概率(也就是上一次的後驗概率)就會大於50%,如果她繼續觀測大烏鴉而且都是黑的,這個概率還會繼續上升。

另一方面,一個人也有可能在進行觀測之前就已經帶著非常強的事前主見,其程度非常強,需要有很大量的數據才能改變這個事前主見。在20世紀80年代,美國賓夕法尼亞州的三里島核電廠發生了近乎是災難性的事故。反應爐的操作員面對一個很大的操作盤,通過上面的各種儀錶和指示燈來了解反應爐的運轉情況。這些指示燈當中有一些是警告燈,其中有的出過問題,以前曾經發出過假的警告。當時操作員有個事先的成見,當他們看見任何一個新的警告燈亮時,總是認為它是假的信號。結果,即使當警告燈的型態及相關的指示器都一致顯示反應爐的水位過低時,他們仍然置之不理。他們的先驗概率太強了,以至於新的數據也無法使後驗概率產生多大的改變。

假定只有兩種可能性,就像前面署名有爭議的聯邦主義論文的例子:它不是麥迪遜寫的就是漢密爾頓寫的。於是,在應用了貝葉斯定理之後,就會得到了一個先驗勝率(prior odds)與後驗勝率(posterior odds)之間的簡單關係,這裡的數據可以歸納成一種稱為「貝葉斯因子」(Bayes factor)的東西。這是一種根本不用參考先驗勝率來刻畫數據的一種數學計算。有了這個計算工具,分析家就可以告訴讀者,插入任何他想要的先驗勝率,乘以計算出來的貝葉斯因子,再計算後驗勝率。莫斯特勒與華萊士對12篇署名有爭議的文章,每篇都是這樣處理的。

此外,他們對文章里的那些無特定含義的字出現的頻率,還進行了兩種非貝葉斯分析。這樣他們有了四種方法來判斷有爭議文章的作者:層次貝葉斯模型,計算的貝葉斯因子,以及兩個非貝葉斯分析方法。結果如何呢?所有12篇文章都壓倒性地指向麥迪遜。實際上,如果使用計算的貝葉斯因子,那麼對某幾篇文章來說,讀者認為是漢密爾頓寫的先驗勝率可能要大於100000:1才有辦法讓後驗勝率為50:50。

本文節選自《女士品茶》一書。

超模君全球嚴選數學思維好物推薦:

【好物】科學的故事,最受美國學生歡迎的科學史讀本

【好物】數學和數學家的故事,國內數學科普最具影響力

【數學趣事】無言的宇宙:隱藏在24個數學公式背後的故事

【數學趣事】《數學之旅》數學發展史上的100個重大發現

本文由超級數學建模整理編輯

分享、轉發請隨意

轉載請在公眾號中,回復「轉載」

文末提醒:如何成為尊貴的星標用戶

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 超級數學建模 的精彩文章:

用Python分析了20萬場吃雞數據,有不少有趣的發現
數學除了摧殘祖國的花朵外,重點是還可以贏錢

TAG:超級數學建模 |