辛普森悖論:如何用同一數據證明相反的論點
選自Towards Data Science
作者:William Koehrsen
機器之心編譯
參與:乾樹、劉曉坤
辛普森悖論告訴我們,數據不是絕對客觀的。
想像一下,你和你的小夥伴正在努力尋找一個完美的餐廳,以便愉快的享用晚餐。我們清楚這個過程可能會花費數小時去爭論,你會找到現代生活的便利之處:在線評論。通過在線評論,你找到了自己的選擇,推薦 Carlo"s 餐廳的男女用戶的比例都高於你的小夥伴選擇的 Sophia"s 餐廳。然而,正當你準備宣布勝利時,你的小夥伴使用相同的數據得到,由於所有用戶中推薦選擇 Sophia 的百分比較高,因此很明顯要選擇它。
到底是怎麼回事?誰在說謊?是審計網站的計算錯誤嗎?事實上,你和你的小夥伴都是對的,你在不知不覺中進入了辛普森悖論的世界。在辛普森悖論里,餐館可以同時比競爭對手更好和更差,運動可以降低並增加疾病的風險,同樣的數據集可以用來證明兩個相反的論點。也許你和你的伴侶應該在晚上討論這個引人入勝的統計學現象,而不是出去吃飯。
當原本分離的數據被組合起來,之前出現的統計現象會發生逆轉,這時辛普森悖論就發生了。在餐廳推薦示例中,就男女的高推薦率確實可以推薦 Carlo"s 而不是 Sophia"s,且同時所有評價者對 Carlo"s 的推薦率較低。在你說這不可能之前,請看看下錶的證明。
Carlo"s 在男女雙方都獲勝,但總體上輸了!
數據清楚地表明:當數據分離時,Carlo"s 是首選;但當組合數據後,Sophia"s 是首選!
這怎麼可能?這裡的問題是,僅查看單獨數據中的百分比會忽略樣本大小,即回答問題的受訪者數量。每個分數都表示受訪者中推薦餐廳的用戶數量佔比。Carlo"s 餐廳的男性評論者遠遠多於女性,而 Sophia"s 則反過來。由於男性推薦餐館的比例較低,當組合數據時,這導致 Carlo"s 的平均評級較低,因此存在悖論。
要回答我們應該去哪家餐館的問題,我們需要決定數據是組合還是分離查看。我們是否應該組合數據取決於生成數據的過程,即數據的因果模型。在我們看完另一個例子後,我們將解釋這是什麼意思以及如何解決辛普森悖論。
相關性逆轉
分組的數據點各自表現出某一個方向的相關性,在聚集時卻表現出相反方向的相關性,這是辛普森悖論的另一個版本。我們來看一個簡化的例子。假設我們有關於每周運動小時數與兩組患者(50 歲以下和 50 歲以上患者)患病風險的數據。以下是顯示運動時間與患病概率之間關係的分離概率圖。
根據年齡分組的患病概率與每周運動小時數的關係圖。
我們清楚地看到負相關關係,表明每周運動水平的增加與兩組患者發生疾病的風險降低相關。現在,我們將數據組合在一起:
患病概率與運動概率的組合圖。
相關性完全逆轉!如果只看這個數字,我們會得出結論,運動增加了患病的風險,這與我們從分離概率圖中所看到的相反。運動如何做到即減少又增加患病的風險?答案是它沒有,而且要弄清楚如何解決悖論,我們需要透過數據看本質:什麼造成了這個結果。
解決悖論
為了避免辛普森悖論導致我們得出兩個相反的結論,我們需要選擇將數據分組或將它們聚合在一起。這似乎很簡單,但我們如何決定做哪個?答案是學會思考因果關係:數據如何生成,基於此,哪些因素會影響我們未展示的結果?
在運動與患病的例子中,我們直觀地知道運動不是影響患病概率的唯一因素。還有其他因素,如飲食、環境、遺傳等。但是,在上面的圖中,我們只看到患病概率與運動時間的關係。在我們的虛構例子中,我們假設疾病是由運動和年齡引起的。這在以下的患病概率的因果模型中得以表現。
有兩個誘因的患病概率的因果模型。
在數據中,有兩種不同的患病原因,但通過組合數據並僅查看患病概率與運動時間,我們完全忽略了第二個原因即年齡。如果我們繼續繪製患病概率與年齡的關係,我們可以看到患者的年齡與患病概率有強正相關。
按年齡分組的患病概率與年齡的關係圖。
隨著患者年齡的增加,她/他患病的風險增加,這意味著即使運動量一樣,老年患者也比年輕患者更容易患病。因此,為了公正地評估運動對疾病的影響,我們希望保持年齡不變僅改變每周運動量。
將數據分組是實現這一目標的方式之一,通過這樣做,我們可以看到:對於特定年齡組,運動可以降低患病的風險。也就是說,保持患者年齡不變,運動會降低患病風險。考慮到數據生成過程並應用因果模型,我們通過保持數據分組,控制變數來解決辛普森悖論。
思考我們想要回答什麼問題也可以幫助我們解決悖論。在餐廳的例子中,我們想知道哪家餐廳最有可能滿足我們和我們的小夥伴。即使可能有其他因素影響評論而不僅僅是餐廳的質量,如果沒有訪問這些數據,我們希望將評論結合在一起並關注整體平均值。在這種情況下,組合數據最有意義。
在運動與患病風險實例中提出的相關問題是,我們應該參與更多運動,以減少我們個體患病的風險嗎?由於我們是 50 多歲或不滿 50 歲的人(對不起那些正好 50 歲的人),我們需要找出正確的群體,無論我們在哪個群體,我們都認為應該鍛煉的更多。
考慮數據生成過程和我們想要回答的問題不僅僅需要關注數據。這說明了從辛普森悖論中學到的關鍵教訓:僅有數據還不夠。數據絕不是純粹客觀的,特別是當我們只看到最終的圖表時,我們必須考慮是否明白整個事件。
我們可以嘗試通過詢問生成數據的原因以及未能展示的影響數據的因素來獲得更完整的理解。通常,答案表明我們實際上應該得出相反的結論!
現實生活中的辛普森悖論
這種現象並非像某些統計概念那樣在理論上可行但在實踐中從未發生作用。事實上,在現實世界中有許多著名的辛普森悖論的研究案例。
有一個關於兩種腎結石治療療法的有效性的案例。只看獨立療法的數據,療法 A 對小腎結石和大腎結石的效果更好,但組合數據表明療法 B 對兩種病情的總效果更好!下表展示了恢復率:
腎結石的療法恢復率數據。
怎麼會這樣?通過考慮由專業知識提供信息的數據生成過程 - 因果模型,可以解決此悖論。事實證明,小腎結石被認為是不太嚴重的病例,療法 A 比療法 B 更加激進。因此,對於小腎結石,醫生更有可能推薦保守療法 B,因為病情不太嚴重,患者最有可能首先成功恢復。對於嚴重的大腎結石,醫生往往選擇更激進的療法 A。即使療法 A 在這些病例中表現更好,由於它適用於更嚴重的病例,療法 A 的總體恢復率低於療法 B.
在這個現實世界的例子中,腎結石的大小(病例的嚴重性)被稱為混合變數,因為它影響自變數(療法)和因變數(恢復時間)。混合變數也是我們在數據表中看不到的東西,但它們可以通過繪製因果圖來確定:
混合因素的因果圖。
問題中的效果即恢復,是由療法和結石的大小(病例的嚴重性)引起的。此外,取決於結石尺寸選擇療法使得尺寸成為一個混合變數。為了確定哪種治療方法確實更好,我們需要通過對兩組數據進行分離並比較組內的恢復率而不是按組聚合來控制混合變數。這樣我們就得出結論,療法 A 更好。
這裡有另一種思考問題的方式:如果你有一塊小結石,你首選療法 A;如果你有一塊大結石,你也首選療法 A。既然你必然有一塊結石,無論大小,你總是首選療法 A,悖論就解決了。
有時關注組合數據很有用,但在某些情況下,它可能會掩蓋事實。
證明一個論點及其反面
第二個現實生活中的例子展示了辛普森悖論如何被用來證明兩個相反的政治觀點。下表顯示,在傑拉爾德·福特擔任總統期間,他不僅降低了每個群體收入的稅收,同時從 1974 年到 1978 年在全國範圍內提高稅收。看看數據:
所有群體的個人稅率均下降,但整體稅率上升。
我們可以清楚地看到,每個稅級的稅率從 1974 年至 1978 年有所下降,但整體稅率在同一時期內有所增加。我們現在知道如何解決悖論:尋找影響整體稅率的其他因素。總體稅率受各個支柱稅率以及每個稅級中的應納稅收入的影響。由於通貨膨脹(或工資增長),高收入人群的總體收入增加且稅率較高,低收入人群的總體收入減少且稅率較低。因此,整體稅率上升。
除了數據生成過程之外,我們是否應該組合數據取決於我們想要回答的問題(以及我們正在嘗試塑造的政治論點)。在個人層面上,我們只是獨立的人,所以我們只關心自己的稅率。為了確定我們的稅收在 1974 年到 1978 年是否上升,我們必須確定稅級範圍內的稅率變化,以及我們是否轉向了不同的稅級。有兩個原因可以解釋個人所得稅,但在這一部分數據中只獲取了一個原因。
為什麼辛普森悖論很重要
辛普森悖論很重要,因為它提醒我們,我們展示的數據並不是所有數據。我們不能只滿足於數字或圖表,我們必須考慮數據生成過程 - 因果模型,對數據負責。一旦我們理解了數據生成的機制,我們就可以尋找影響結果的其他因素,而圖表不會告訴你這些。學會思考因果關係並不是大多數數據科學家所教授的技能,但是對於防止我們從數字中得出錯誤的結論至關重要。除了數據之外,我們還可以利用我們的經驗和領域知識(或者該領域的專家)來做出更好的決策。
而且,雖然我們的直覺通常很準確,但在沒有立即獲得所有信息的情況下,它們可能會出錯。我們傾向於關注我們面前的事物(所看即所得),而不是深入挖掘並使用我們理性、緩慢的思維模式。特別是當有人要銷售產品或實施議程時,我們必須對這些數字持懷疑態度。數據是一種強大的武器,但是想要幫助我們的人和邪惡的騙子都可以使用它。
辛普森悖論是一個有趣的統計現象,但它也證明了對數據操控的最佳防衛是理性思考和質疑的能力。
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
------------------------------------------------
※智領時代,無限可能——AIIA人工智慧開發者之夜盛況空前
※雙重注意力網路:中科院自動化所提出新的自然場景圖像分割框架
TAG:機器之心 |