當前位置:
首頁 > 知識 > 一個導致眾多研究出錯的原因

一個導致眾多研究出錯的原因

一個導致眾多研究出錯的原因



孟傑 編譯

不確定的假陽性普遍出現,哪怕是在頂級科研雜誌中也是——這是一個科學領域中經常出現的危機。


假陽性是指現實不存在的效應。沒有人知道在目前發表的論文中,這種錯誤的、誇大的結果佔有多少比例,但是種種跡象表明這個比例並不小。


2005年,流行病學家約翰.安尼季斯(John Ioannidis)在一篇著名的文章中對這個現象做了最好的解釋,並將之高調命題為《為什麼大多已發表的研究成果竟是錯的》。安尼季斯指出的導致許多錯誤出現的原因之一現已被稱為「p hacking」,即研究者為做到統計顯著性而執行不合理的實驗步驟,從而發表假陽性的研究成果。


什麼是統計顯著性?

為了從數據中得出結論,研究人員通常依靠統計學手段來驗證。簡單說,就是計算「p值」,也就是我們得到無效結果的可能性。如果p值足夠小,則可稱結果在統計學上是顯著的,也就是說研究成果是可信的。


一般來說,p值是否小於0.5是判定顯著性的標準。如果你報道p值小於0.5,那讀者將會相信你發現的是一個正確的效應。當然,也可能不存在這種效應,你只是報道了一個假陽性結果而已。


許多學術期刊只會發表統計上顯著的研究成果。研究生很快就會明白做到p<0.5才是得到提升、獲得學位和實現在著名期刊中發表成果的關鍵。


這種追求p<0.5的壓力促使研究人員有意或無意地投機取巧,例如利用p hacking。


p hacking的誘惑

我們舉一個例子來闡明p hacking給科研人員帶來的誘惑。


布魯斯最近完成了博士學位,並有幸加入了本領域中的頂尖研究隊伍。他的第一個實驗成果並不理想,但他很快改進了實驗設計並且進行了第二次研究。儘管這次看起來更有希望成功,但是布魯斯仍然沒有得到一個小於0.5的p值。


布魯斯堅信自己會成功,他收集了更多的數據,並決定拋棄一部分看上去錯得離譜的數據。經過不斷調整實驗,布魯斯最終得到了一個令人驚喜的實驗結果,p值小於0.5。他仔細地記錄了他的研究然後投稿給一家優秀的期刊,這家期刊接受並發表了他的文章。


布魯斯知道這個他費盡心思研究的效應存在一定缺陷。然而,只要p<0.5,就可以聲稱數據統計上是顯著的,這驅使布魯斯發表了他的成果。


但是事實只有一個:這種效應是不存在的。不管統計數據顯著性有多出色,布魯斯都是發表了一個假陽性的成果。

隨著開展研究後多組實驗的推進,布魯斯感覺自己正在通過自己的科學洞察力揭示這個未知的效應。他收集了更多數據,放棄了一些看上去差異巨大的數據,並減少了一部分實驗,只著眼於最有希望的部分,同時微調了數據。


但問題是所有的這些舉措都是在看到數據後才做出的。布魯斯可能會不知不覺間做了主觀選擇——篩選並微調數據,直到他得到p<0.5的結果。即使這種效應並不存在,這樣的篩選和微調也可能會輕易在p<0.5的數據中發現點什麼。


統計學家們有一句諺語:如果你拷問數據到一定程度,它自然會坦白的。在看到數據後做出的篩選和微調都是不可信。不管刻意與否,利用這些手段來獲得正確的數據統計結果就是「p hacking」,這就是那些已發表的統計學上顯著的結果出現假陽性的一個重要原因。


研究成果出錯的比率

這是一個一針見血又極其複雜的問題。沒有人知道答案,在不同的研究領域會有不同的回答。


為了解答這個社會和認知心理學的問題,2015年人們投入了巨大的努力。由開放科學中心的布萊恩·諾賽克(Brian Nosek)和他的同事領導的「項目重現:心理學(RP:P)」在全球擁有100個研究團隊,他們每隊選取1個已發表的研究結果進行了精密的重複試驗。總體來說,大約有40個項目重複結果相當完美,然而另外60個項目的重複研究中取得的效果卻微乎其微。


結果表明,這100個RP:P重複試驗取得的效果平均只有原本文章聲稱的效果的一半。這些重複試驗進行的相當精密,可以對p hacking影響實驗結果的可能性給出更加精確的估量,因此我們可以得出結論,那些最初的研究平均對真正的效果高估了兩倍。這個結論是令人震驚的!


如何避免p hacking?


避免p hacking的最好方式就是不要對已知數據進行任何的主觀篩選或調整。也就是說,避免有問題的研究實踐。對大多數案例來說,最好的辦法是用預存審批法。


預存審批要求你預先做一個詳盡的實驗方案,包括提前對數據進行的統計分析,接著在開放科學領域或者其他在線註冊網站提前制定方案,標記日期戳。


然後再進行你的實驗,依照方案分析數據,無論結果如何,如實報道。讀者們可以核查你的預存審批計劃,這樣就會相信分析過程是預先制定的,而不是p hacking。雖然這種預存審批法對於許多研究人員來說是一個具有挑戰性的新想法,但這在未來很有可能會變成一種習慣。


適當使用估計值代替


依靠p值的一大缺點是p hacking的誘惑。另一缺點是p


但這個世界並不止黑白兩種顏色。要承認多種灰色色度,最好的辦法是使用估計值而不是p值。評估值的目的是估計效應的大小程度——可能會是小,大,零,甚至是負值。就估計值而言,假陽性結果是一個比效應的真實值要大甚至大得多的估測。


我們來看一個關於治療的影響的假設研究。例如,這項研究估計,治療平均能夠降低7%的焦慮程度。假設我們從數據計算出的置信區間(我們對於不確定結果的兩極的最適估計)是[4%,10%]。這告訴我們,我們的估算值7%最可能是在焦慮程度的真實效果的3%誤差以內。


換句話說,置信區間表明了我們估算的精確度。知道這種估計值和它的置信區間比知道任何的p值要有用的多。


估計值被稱為「新的統計數據」之一。對於研究者來說,技術本身並不是最新的,但是如何將它們作為分析數據得出結論的主要方式卻是極具創新性的,也是具有跨時代意義的。它也將有助於避免p hacking引起的虛假現象。


科學媒介中心(Science Media Center)秉承著全球視野,時代高度,歷史縱深,科技前沿的理念,致力於傳播科學共同體權威,理性,及時,準確的聲音,並為廣大科技工作者搭建科學傳播的平台。


請您繼續閱讀更多來自 科學媒介中心 的精彩文章:

從哲學視角看化學——探索科學的新體系
科學家如何參與科學決策?
環境記憶和視覺感知之間的神秘耦合
農民科學素質讀本
淺談科學獎勵的發展史

TAG:科學媒介中心 |

您可能感興趣

這幾個未解之謎研究了很多年可是還是沒有研究出來
走向研究的兩個重要因素
科學研究者認為終有一天能研究出這幾個未解之謎
女相研究,從這些可以看出一個人的感情婚姻
研究將了解一些人吸引蚊子的原因
彈道導彈的技術難度有多高?為何多國花大量時間研究卻沒研究出來
研究發現導致惡性皮膚癌的又一個潛在隱患因子!
研究指出 身材好的女性更容易得一種病
我研究了葛優在五十部電影中的髮型,得出一個結論
研究固態硬碟的性能數字時,別忘記提出這3個問題
時間晶體真的存在,研究人員還做出了兩個!
「因為某個統計方法的問題可能會有數萬篇 fMRI 腦科學研究論文出錯」這種說法是否言過其實?
研究表明:判斷一個人有沒有錢看臉就行
幸虧這位科學家研究原子彈時算錯數,不然二戰會多死更多人!
這家投行也是厲害,專門出了一個「喜茶」研究報告
研究稱現代犬的發源地只有一個
這個我還沒研究過
約會第一次就再也沒有下文了,研究發現你需要多點好奇心
移動醫療真的有用嗎:看完這兩個研究我氣泄掉一半