一個源於1925年的錯誤,正在給現代科學製造麻煩
P值是研究者們最愛的統計指標之一,許多科學領域中的研究結果的意義均是由P值來判斷的。它們被用來證明或駁回一個「零假設」:通常假定所測試的效果並不存在。當P值越小,該實驗結果是由純粹的偶然所造成的可能性就越小。
然而現在,它在科學界的地位岌岌可危。許多研究者指出,P值遠沒有眾多科學者想像的那麼可靠。
P值為何有了跌下神壇的跡象?這得從P值是如何誕生的說起。
1908年,Guinness brewer William Gosset以筆名」student」發表了一篇在統計領域具有革命性影響的文章《平均數的規律誤差》(「The Probable Error of the Mean」)。
Gosset曾在啤酒廠工作,經常研究諸如啤酒糖含量等因素對啤酒成分的影響,由於樣本採集的有限性,他通常只能以小樣本數來進行統計平均,不過在這研究的過程中,他發現小樣本統計平均結果不滿足他一開始認為的高斯分布。為了明白平均數精度與樣本數的關係,Gosset嘗試著去計算不同樣本尺寸下的平均數精度,而這一問題也正是論文的研究核心。
他計算得到的結果包含在了他的T-table分布表中,而現在一般只要是接觸過統計課程的人都會知道T分布,即用來描述不同樣本數對於統計概率的影響,當樣本數足夠大的時候,就等同於標準正態分布(高斯分布)。
雖然之後Gosset的天才式研究發現並未立刻得到重視,但是少部分的統計學家開始注意到這一研究結果的重要性。其中的一個年輕統計學家R.A. Fisher,相信Gosset的研究結果或許可以用來驗證兩組不同數據間是否具有統計顯著性(即現在統計上的t檢驗),這個年輕人不會想到不久後他將可能成為20世紀統計學界最具影響力的人。
1925年,Fisher發表了著作《研究工作者的統計方法》,他在這本具有開創性意義的的書中解釋了統計顯著性的概念。Fisher帶著一些武斷性的選擇α=0.05的概率值來衡量是否具有統計顯著性,當 p值(統計學術語,原假設成立時得到與樣本相同或者更極端結果的概率,P值越小,拒絕原假設的理由越充分,表明結果越顯著)小於0.05時,我們拒絕原假設。
比如,一位研究人員想要確定一種新的教學方法是否有效,他可以選取一組新教學方案教學的學生和普通教學方案的學生的學習成績做對比。如果接受新方法的學生的分數比那些沒有接受新方法的學生的分數高出5%的機率(p值),那麼Fisher就認為新教學方案是有效的。不過後來證明Fisher武斷的選擇α=0.05的概率值來衡量是否具有統計意義的邏輯是有缺陷的。
一個多世紀後,許多研究者認為Fisher選擇α=0.05誘發了一個科學上的危機。諸如心理學、經濟學和醫學等學科上的實驗結果,如果使用α=0.05作為判定閾值的話,那麼將導致實驗結論錯誤。
發表在《科學》雜誌上的一項大型研究發現,對三個心理學主要期刊發表的結果進行重複,只有不到一半的研究結果能夠被驗證。而另一項對經濟領域的研究發現,當重複經濟學實驗時,大約有40%的實驗結果消失不見了。不過α=0.05的閾值並非完全是這種實驗大比例不可重複現象的原因,歸根結底實驗過程中缺乏透明度才是這一現象的罪魁禍首。
那麼接下來怎麼辦呢?由72位傑出的統計學家、經濟學家、心理學家和醫學研究人員撰寫的一項新提案給出了一個簡單的方案,即使用α=0.005來作為新的閾值。提案的主要作者、南加州大學行為經濟學家Daniel Benjamin說到:「這一種想法的時機已經成熟,有廣泛的潛在支持,希望更改我們在統計意義上使用的語言並收緊標準。」
提案作者們的具體建議是,對於p值在0.05到0.005範圍內的結果可以認為是一種「暗示性」的證據,並且那些達到0.005的結果可以被認為是「顯著的」(拒絕原假設是顯著的)。
Benjamin說:「雖然這樣直接使用α=0.005解決方案並不完美,但已經可以在短期內做很多事。」正如提案的研究所表明的,使用α=0.005解決方案可以減少一半的經濟學和心理學實驗上的錯誤結果。
Benjamin承認選擇α=0.005也帶有一點武斷性質,並同他的同事也討論過其他更低的閾值,但是他認為α=0.005是符合邏輯的。Benjamin補充到,對於0.05閾值的共同解釋——結果(原假設)有95%的可能性是正確的,但使用更先進的統計技術發現,這95%的機率實際上是更接近於p值等於0.005。
這篇提案有兩個目的:第一,作者們希望學術期刊出版商採用新的統計標準;第二,他們更希望研究人員選擇採用這種統計語言。Benjamin指出在遺傳學和高能物理兩個領域中的P值閾值已經被降低, 對應領域的研究者認為改變閾值對於確保結果的可靠性是有必要的。閾值從0.05更改到0.005隻能挽救醫學,心理學和經濟學領域部分的研究結果,Benjamin的團隊更希望醫學研究人員、經濟學家和心理學家能去正視現今他們領域中出現的科研誠信危機。
點擊展開全文
※馬斯克領銜全球百名AI專家致信聯合國《特定常規武器公約》會議
※夏日降溫新方法,洛杉磯用灰色路面代替黑色瀝青路面減輕熱島效應
TAG:DeepTech深科技 |
※走丟14個月的貓再出現時體積膨脹了2倍,只因它找到了一個源源不斷的美食倉庫
※歷史上三個很難對出來的上聯,最後一個源自一個九歲小孩
※兩招打通閉經!一個源於漢代,一個源於明代
※一個源自本土的現代藝術系統
※八大山人全集:一個源自本土的現代藝術系統
※差距大!《阿修羅》與《我不是葯神》,一個脫離實際一個源於生活
※一個源自地下搖滾和禁忌文的發想