已發表的研究結果大多是錯的？科學就是如此，但我們也可以做得更好

知識 03-23

圖片來源：elifesciences.org

文獻上的條件一板一眼照做，就是做不出來。更有甚者，換個試驗台就做不出來、換個人就做不出來、換個瓶子就做不出來……科學的可重複性就這麼不穩定嗎？

撰文 Dakin Henderson

翻譯李曉琳

審校張士超

自2005年斯坦福大學教授 John Ioannidis 在PLOS Medicine雜誌上發表論文《為什麼已發表的研究結果大多是錯的》（Why Most Published Findings Are False）以來，越來越多錯誤、誤導性或不可重複的科研成果紛紛被曝出。

兩大製藥公司各就具有「里程碑」意義的癌症生物學論文進行取樣，分別只證實了6%、11%的研究結果。還有一項類似的驗證實驗，結果也不盡如人意：在重新驗證藥效時，70種用於治療老鼠肌萎縮（ALS）的潛在藥物靶點全部呈陰性。在心理學領域，研究人員們試圖重複100項同行評議過的研究，僅有39項重複成功……儘管大多數重複實驗集中於生物醫學、健康以及心理學領域，但近期的一份由多領域1500位科學家進行的調查顯示，科研結果可重複性低的問題是廣泛存在的。

起於科學界流言的「可重複性危機」，已搖身一變為舉世矚目的熱點議題。幾乎所諸多主流報紙、TED 主題演講、電視節目都曾熱議這一問題。對於這一問題的解讀分為兩種:

科學就是這樣。科學本身具有不確定性，矛盾屢見不鮮。問題是我們沒有擺正自己對科學的期許。解決方法就是把還沒蓋棺定論的科研成果和已經確定的科研成果區分開來。

科學並非如此。矛盾的研究意味著有瑕疵的科學。相應的解決方法則是改變科學研究的操作方式。

可重複性的證據表明兩者皆對：科學固有不確定性，且其方法有待改進。

已發表的研究結果大多是錯的？科學就是如此，但我們也可以做得更好

科學的方法「科學」嗎？

如果科學的方法是「科學」的，為什麼相同的實驗會產生不同的結果呢？

為了便於理解，我們可以設想一個測試重力理論的簡單實驗。幾個世紀以來，亞里士多德的理論盛行：物體下落的速度與其重量成比例。如果你同時扔一個石頭和羽毛，重點兒的石頭比輕點兒的羽毛下降的快。這證明了亞里士多德的理論嗎？

現在我們來想像一下，亞里士多德理論的質疑者伽利略同時扔下炮彈和步槍彈。這是對於一個相同理論的不同驗證方法。儘管各自的重量是大有不同的，兩個球仍同時落地。這個演示有效地證明了亞里士多德的理論是錯誤的（儘管沒有任何證據顯示伽利略本人做過）。

故事的意義不是亞里士多德徹底地錯了。他的觀察仍然是對的，一片羽毛總是比石頭下落的慢（在地球上）。僅僅是他的結論錯了。

這個思想實驗說明了科學家得出的結論如何超出了實際證據——這一過程就是所謂的歸納法。歸納是科學進程里的本質部分，沒有兩個實驗可以完全相同，這顯而易見的事實可以解釋為什麼許多科學理論會失敗。

細節重於泰山

在17世紀，羅伯特·波義耳（Robert Boyle）的氣泵是研究真空屬性的一個關鍵設備。另一位科學家克里斯蒂安·惠更斯（Christiaan Huygens）打造了他的空氣泵（當時世界上僅有的幾個空氣泵之一），並發現一個現象：在空氣泵中，水懸浮於玻璃罐內。他稱之為水的「異常懸浮」。但是波義耳無法在他的氣泵里重複效果，遂拒絕了惠更斯主張。爭議持續幾個月後，惠更斯前往英格蘭用波義耳的氣泵重複出了水懸浮的效果，於是水的異常懸浮現象被接受。它為何出現、意味著什麼仍然是謎，但是實驗重複成功了。

最近，加州大學伯克利分校的乳腺癌研究員 Mina Bissell 和哈佛大學的合作者 Kornelia Polyak 發生了類似的爭議。這兩個實驗室利用熒光激活細胞分選（FACS）人類乳腺癌細胞，發現無法重複彼此的實驗。最終他們通過共同進行實驗解決了這一問題。他們發現，結果取決于振盪細胞的方式——「大力攪拌」或者「較輕微地搖晃」。排除方法上的差異後，兩個實驗室獲得了一致的流式細胞儀數據，從而得以繼續深入研究。

亞里士多德與伽利略、波義耳與惠更斯以及 Bissell 與 Polyak 的爭議，都源於實驗中的不一致之處。如果所有實驗條件都相同，實驗的現象就會很穩定。實驗結果不一樣，就說明有些條件是有差別的，問題就在於，你能不能發現差別在哪裡。

然而也並非所有的科學研究都會如此。

科學中的一千個哈姆雷特

1978年，陶氏化學研究者 Richard Kociba 進行了關於癌症和二噁英關係的研究。在這項研究中，科學家對老鼠餵食二噁英兩年，隨後對其肺部切片，以檢測腫瘤的生長。在1978年研究中，服用化學物質的50隻老鼠中有20隻長了肺部腫瘤。1980年，環境保護局重新分析了相同的肺部切片。這一次，他們發現有29隻老鼠患了腫瘤。隨後在1990年，造紙行業委託另一個分析報告發現只有9隻老鼠患腫瘤。3個不同的結果均來自相同的切片。（此外，1990年的分析由七位病理學家組成的團隊完成，當團隊無法對腫瘤判斷達成一致時，採取少數服從多數原則。）

Kociba 的切片告訴我們：變化、不確定性和判斷可以使給定的一個觀察實驗指向不同的結果。

同樣的事情也發生在統計分析中。

2015年，Brian Nosek 和開放科學中心做了一項研究，研究問題是足球裁判給深膚色球員的紅牌是否比淺膚色的球員多。Nosek 和他的同事們將相同的數據分別給了29支分析師團隊，諮詢他們的意見（分析師們都知道他們的結果會與他人的對比）。就像 Kociba 的肝臟切片一樣，完全相同的足球數據產生了不同的結果。有幾個團隊報道淺膚色和深膚色之間沒有差別，也有人指出深膚色球員被判紅牌的幾率比淺膚色球員高近3倍，而其他人則認為這個增長值約有20%~40%。

這些研究中的科學問題，本質上與亞里士多德的重力研究、波義的真空問題、Bissell的熒光激活細胞分選完全不一樣。當談論到二噁英、肝癌或者膚色深淺和紅牌數量時，關鍵的可變因素難以測量，結果難以預測。一些未注射二噁英的老鼠也會長腫瘤；深膚色並不代表一定得到紅牌，淺膚色也不會總得到赦免。

最終人們證明二噁英與癌症有關；在足球裁判案例中，膚色確實影響了拿紅牌的概率。對這兩個案例而言，怎樣產生影響、影響到什麼程度仍然很難確定，但不一致並不總是意味著研究毫無意義。

結果不一致，不一定意味著哪裡出錯了，或者哪裡需要調整。相反，實驗常會受到研究體系或測量方法的干擾。當重複含有大量干擾的研究時，說它們「不可重複」可能不太恰當。如果你匯總多個相同的研究（這一過程稱為薈萃分析），最終結論將趨於事實的真相。

如果問題不在科學

在某些情況下，不可重複性確實反映了不確定性。但另一些情況下，它也意味著疏忽、欺騙和不當行為。頂級醫學雜誌《柳葉刀》的主編 Richard Horton，在2015年寫道：「大部分的科學文獻，也許一半，都可能是不真實的。由於研究樣本較小、效果甚微、無效的探索性分析、明顯的利益衝突，再加上痴迷追求若有若無的『重大發現』，科學已轉向黑暗。」而值得注意的是，Horton 的聲明雖然僅指向醫學文獻，但也對科學真理的晴雨表——同行評議提出了質疑。

同行評議期刊已經成為科學可信度的守門人。但隨著從科學期刊撤稿的數量增多，這頭銜也搖搖欲墜。自2001年到2009年，撤稿數增加了十倍，2012年的一項分析發現：生物醫學資料庫（PubMed）上三分之二的撤稿緣於學術不端。

這些問題在醫學學科尤其嚴重。例如，人們發現一乳腺癌細胞系實際上是皮膚癌細胞系，導致超過1000個研究被判無效。另一起案例中，專業數據統計包的軟體缺陷可能導致數以萬計的功能磁共振成像研究失效。當安進生物科技公司（Amgen）證實了53個「里程碑」癌症實驗中僅有6個能夠重複，第一作者格倫貝格利指出，「不可重複的研究有一些共性，包括關鍵試劑的不當使用、缺乏陰性和陽性對照、不當統計和未重複試驗。如果研究人員重複了實驗，數據往往已經過重重『選擇』，維護他們想要的結果。」在這種情況下，首要問題不是重複性，而是實驗設計是否得當。

有些研究對實驗方法和數據分析的介紹不全面，這是個同行評議完全可以修正的缺陷。有些科學家沒有透露如何分析數據，從而說明他們的結果統計顯著——即使它們並不顯著。例如，一個社會心理學家團隊曾證明一個離譜的假設：聽兒歌可以使人減齡。他們公開的研究技術（俗稱「p-hacking」）「證明」，聽兒歌后人確實變年輕了。不僅如此，研究者還用這些技術處理了電腦隨機生成的數據，發現有高達61%的概率得到標準的統計顯著結果（p

故意的 p-hacking 行為構成欺詐，但在研究過程中，當科學家必須做出會影響科研結果的決定時，不當行為與無心之差的界限就變得非常模糊。在足球裁判的研究中，進行足球數據分析的29組團隊，20組發現結果是「統計顯著」而九組沒有。現在想像一下，一個研究人員做了所有29組分析，只能選擇一個報告。如果你想發表成果，你會選擇哪一個?這樣的選擇，也許是已發表論點不可重複或被證偽的最大原因。

假象與真相

重複性危機和可能的解決方式起源於上世紀七十年代。1976年，海盜1號宇宙飛船在火星上干尼亞地區（Cydonia region）拍攝的照片看起來就像一個人的臉。數天後，NASA 發布了這張「臉」的照片，立刻引起了媒體界的轟動，當時甚至有人出書聲稱，火星上有著類人生物的文明，還建了金字塔。

已發表的研究結果大多是錯的？科學就是如此，但我們也可以做得更好