揭示貝葉斯公式應用中的認識誤區

知識 07-01

假定有一組完備且互斥的事件A1,…,An, 它們發生的概率具有初始的假定值P（Ai）,…,P（An）, 稱為先驗概率。

在正概率隨機事件B發生（被觀察到）的條件下（P(B)>0）, 這些事件出現的條件概率P（Ai| B）,( i = 1,…,n )，稱為驗後概率。

應用條件概率公式和全概率公式，我們得到下面的貝葉斯公式（或貝葉斯定理）：

(i = 1,…, n)

驗後概率P（Ai| B）被認為是獲得新的信息（事件B）後，對先驗概率P(A)的修正。

所謂「修正」的說法，其實是不嚴格的，或者說有條件的。

準確地說，條件概率P（Ai| B）只是從事件B的角度去觀察事件A1，…，An，打個比方，也可能是管窺蠡測，坐井觀天。

為了下面分析的簡明，我們討論兩組完備且互斥的事件A與A￣，及B與B￣，有下面的條件概率公式和全概率公式：

P(A|B）= P(A）P(B|A）/ P(B)

P(A￣|B）= P(A￣）P(B|A￣）/ P(B)

以及

P（B）= P（A）P（B|A）+ P（A￣）P（B|A￣）

用P（B）的公式代入前面兩個公式，就分別得到兩個貝葉斯公式。

現在分析下面的應用背景。它蘊含著A是事件的原因，B是事件的結果，從結果來推測原因這樣一種相互關係。

假定某社區的全部人口為樣本空間，社區出現某種疾病。從社區中隨機抽取一人，得這種病為事件A，未得病為事件A￣，根據統計數據估計，得病的概率為p = P（A），未得病的概率為P（A￣）= 1 - p 記為q。

有一種檢測疾病的試劑，檢測結果呈陽性為事件B，呈陰性為事件B￣。

經過對這種試劑多次檢驗發現，這種試劑對於已得病的人呈陽性的概率（即檢測到得病的準確率）為P（B|A）= α；對於未得病的人，呈陽性的概率（即誤診得病（假陽性）的概率為P（B|A￣）=β。

在上面的基本假定條件下，我們應用貝葉斯公式可以得出哪些合理的結論，又可能得出哪些似是而非、實則錯誤的結論呢？

貝葉斯公式在一些領域的應用近年來成為一個熱門的課題。

然而，就像在概率統計其他領域以及貝葉斯公式發展歷史中，也出現由於混淆（誤用）概念，導致不正確的結論。

本文希望通過分析較廣泛傳播的具體例子（引自近年出版的專業著作，或科普文章），釐清重要的概念，並引起這個領域的學者及愛好者的重視或進一步討論。

第一個例子：「設從某個城市的人口中隨機選取一個人作結核病皮膚試驗(「簡稱為皮試」），而試驗的結果是陽性，問給出皮試陽性結果（記為事件B）這個人正是結核病患者（記為事件A）的概率是多少？」

它假定已從醫療機構得到的信息為：P（A）= 0.01，P(B|A）= 0.98，及P（B|A￣）= 0.05。應用貝葉斯定理計算的結果是P（A|B） = 0.165。

結論是：這個皮試後呈陽性的人確是結核病患者的概率從0.01上升到0.165。

第二個例子：「已知某種疾病的發病率是0.001，即1000人中會有1個人得病。現有一種試劑可以檢驗患者是否得病，它的準確率是0.99，即在患者確實得病的情況下，它有99%的可能呈現陽性。它的誤報率是5%，即在患者沒有得病的情況下，它有5%的可能呈現陽性。現有一個病人的檢驗結果為陽性，請問他確實得病的可能性有多大？」

應用貝葉斯定理計算的結果是P（A|B） = 0.019。結論是：這個檢驗結果為陽性的人得病的概率從0.001上升到0.019。

（本文在引用時對其中關鍵的語句用粗體表示。這兩個例子是同一個類型。）

難道這個令人驚訝的結論是貝葉斯公式的可靠結論嗎？

在應用條件概率時容易出現比較隱蔽的錯誤，即隨機事件A和隨機事件B的界限以及它們之間的關係被混淆。

如果我們的問題是：一個隨機抽取的人在試劑檢驗呈陽性的條件下得病的概率是多少？

那麼，事件A是「在討論的人群總體中隨機抽取的一人得病」，事件B應該是「這個被隨機抽取到的人試劑檢驗呈陽性」，在這樣的語境下，文章中所得結果及解釋方為正確。

可是，文章提出的問題是：「現有一個病人的檢驗結果為陽性，請問他確實得病的可能性有多大？」，情況就完全不一樣了。

事件b是「某甲的檢驗結果為陽性」，這是一次檢驗結果的事件，由於檢驗結果帶有隨機性，所以事件b仍然是隨機事件。

事件a是「某甲得病」。如果這次陽性檢驗結果不正確（假陽性），某甲沒有得病，按題設，這個概率為0.05；否則，陽性檢驗結果正確，某甲得病了，這個概率為1 - 0.05 = 0.95。也就是說，某甲確實得病的概率為0.95。

類似地，我們可以討論兩類「假陰性」問題。

一個是：一個隨機抽取的人在試劑檢驗呈陰性的條件下得病的概率是多少？

另一個是「現有一個病人的檢驗結果為陰性，請問他確實得病的可能性有多大？」

一種檢測試劑如果對於發現疾病的準確性很高，有可能對於未病者的誤診率稍高，出現「假陽性」；一種檢測試劑如果對於發現疾病的準確性略低，但對於未病者的誤診率很低，就會出現「假陰性」。

應用貝葉斯方法應該概念清晰，避免掉入陷阱。

它應用的前提是，對於樣本空間中隨機抽取的樣本，以及這些隨機樣本屬於事件B的條件（子範疇，子空間）下，其他隨機事件A出現的條件概率。

它只是對於局部的子空間整體成立的公式，並不意味著應用到一個具體的或特定的樣本時，一定可以適用同一個公式。

正如我們上面著重指出的，這是兩種不同類型的問題。

目前，在介紹貝葉斯公式應用的例子中常常出現的問題，恰恰是在已經獲得有關個體呈現陽性時的誤診概率的信息後，仍然套用針對樣本空間中隨機樣本成立的貝葉斯公式，得出不恰當的結論。

關於「假陽性」的進一步說明：

「假陽性」現象說明，判別小概率事件出現特有的困難。

在上面的例子中，如果我們記全體人員為W集合，得某種疾病的人員為A集合，檢驗呈陽性的人員為B集合。

儘管對每一個被檢驗的人員，若他呈陽性（屬於B集合），可以以相當大的概率（比如0.95）判斷他得病（屬於A集合）（即不得病的誤判概率為0.05），但是，由於出現A的概率非常小（比如0.001），在全體不得病人員的集合W-A中，有百分之五的人被誤判（即呈陽性但並未得病），其數量以較大比例超過只佔全體人員千分之一的得病人員總數。

這就是說，對全體人員而言，如果每個人都去檢驗，檢驗結果呈陽性的人員中，只有小部分的人真正得了病，換言之，從總體而言，呈陽性的人群真正得病的概率並不高，很多人雖然呈陽性而沒有得病，屬於「假陽性」！

這種對抽樣個體與對總體下的結論相左的情況似乎是一個悖論，然而，這的確是一個合理且經得起檢驗的結果。

本文作者：吳新瞻

應用數學與計算機應用高級工程師，編審；

1957一1963北京大學數學力學係數學專業畢業；

1963一1967中國科學院計算技術研究所概率統計計算專業研究生畢業；

長期從事數學應用研究與計算機應用軟體開發工作；

曾擔任中國大百科全書《電子學與計算機》卷特約編輯與撰稿人，《今日電子》執行主編；

發表論文十餘篇，編著出版《隨機模型與計算機模擬》一書，譯書若干種。

本文系網易新聞·網易號「各有態度」特色內容

本文由超級數學建模社區「靈魂寫手」提供

分享、轉發請隨意

轉載請在公眾號中，回復「轉載」

------這裡是數學思維的聚集地------

「超級數學建模」（微信號supermodeling），每天學一點小知識，輕鬆了解各種思維，做個好玩的理性派。60萬數學精英都在關注！

「徵稿啟事」

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 超級數學建模 的精彩文章:

※從生物神經網路到人工神經網路
※史上最牛詩歌：一個停機問題不可判定的證明

TAG:超級數學建模 |