心理學已死？從斯坦福監獄實驗看心理學的未來

最新 07-21

前幾天果殼網用驚嘆號爆料著名的斯坦福監獄實驗徹頭徹尾就是個騙局，大喊心理學藥丸。

而姚腦師覺得經典心理學實驗被質疑，恰恰反映了心理學正在迅猛發展和崛起。

實驗之所以經典，指的是它具有典型性，在很長一段時間內是業內的傑出代表。

經典實驗開啟了一個時代，但不代表是永恆的真理。

它們的退場，也正象徵著新時代的到來。

（實驗）心理學在短短几十年里，從問卷調查到記錄大腦活動，從t-test到mixed models，從閉門造車到開放科學（open science），她的成長速度著實讓人刮目相看。

成長的路上不可避免地要犯錯。在摸石頭過河的過程中，經典實驗被推翻或質疑是再正常不過的了。

那麼，爭議十足的斯坦福監獄實驗到底是怎麼回事？

只有心理學研究是重災之地嗎？

為什麼學者們都不再好好做研究？

心理學研究之殤究竟緣起何處，又將歸向何方？

1 由斯坦福監獄實驗看實驗的重複性問題

1971年菲利普津巴多（Philip Zimbardo）博士在斯坦福的心理學系建了一個假監獄，意從獄警和囚犯的互動中研究人對權威的服從。

津巴多將大學生志願者被隨機地分配到獄警組和囚犯組，自己則扮演獄長的角色。

實驗開始不久，就有兩個「罪犯」要求退出實驗。據說志願者們入戲太深，「獄警」們開始虐待「囚犯」，而「囚犯」則出現各種精神問題，有的要暴動脫獄。雙方衝突不斷升級，導致整個實驗僅持續了6天就不得不終止。這些志願者的行為似乎說明人性是由環境決定的。手握權力的人們會很快進入自己的「社會角色」而對弱者施暴。

斯坦福監獄實驗由於它的獨創性，被幾乎所有的社會心理學的教科書無腦地、毫無批判性地引用。

然而在兩周前，記者Ben Blum在英語世界的博客平台Medium爆料，說當年參與實驗的「獄警」並不是以他們的自由意願參與實驗，而是被研究者引導對「囚犯」們實施精神上的虐待。

這就意味著，「獄警」的虐待行為並不是人們在「監獄」情境下的自然反應，而是津巴多有意影響的結果。因此所謂環境改變人性的說法也就不成立。

事實上，斯坦福監獄實驗受質疑早不是新鮮事了。業內同行早在1975年就開始吐槽津巴多了。該實驗不僅在倫理上不道德（虐待「囚犯」），而且在實驗設計上也很不靠譜。它既沒有對照組（在非監獄環境下），也沒有客觀靠譜的因變數（dependent variable），而主要是靠主觀傳聞作為證據。當時放出來的錄像證據等也陸續被曝為「演戲」。就連這次「獄警被引導施暴」的料早在2005年就已經見報了，並不是這個月才有的事。所以Ben Blum這個記者在6月一註冊Medium就吐槽津巴多，多半是藉機來推廣自己。

Ben Blum有沒有炒作不重要，重要的是我們要意識到斯坦福監獄實驗結果不靠譜並不是個例。學科發展早期學者對實驗設計和統計的理解不深，做出的東西不靠譜很正常。但是很多現代心理學的實驗卻也常受到質疑或是無法重複。2015年《科學》雜誌刊登了一篇文章組團重複了心理學頂級期刊的100個實驗 [1]。他們發現雖然97%的原文報道了顯著的結果，有隻有39%的實驗結果能被其他實驗室重複出來，高達61%的實驗結果無法被重複！

事實上，實驗結果重複不出來在整個科學界都很普遍——不僅僅是心理學。2016年《自然》雜誌做過一個1500人的調查，發現各個學科實驗結果重複不出來大多是家常便飯（見下圖）[2]。

如87%的化學家有重複不出前人結果的經歷，64%的化學家自己的實驗都重複不出來。在物理與工程學科，69%的人重複不出別人的結果，51%重複不出自己的結果。

只不過，相比其他學科，心理學跟我們日常生活更相關，因此心理學實驗重複性不好會更容易受大眾關注。

那科學實驗為什麼重複性很差呢？

姚腦師覺得有兩大原因：一是學術文化急功近利；二是學者缺乏嚴謹的統計訓練。

2 學術文化急功近利

在老百姓的想像中，科學家們每天廢寢忘食泡在實驗室里暢遊知識的海洋，過著與世隔絕自娛自嗨的生活。

而現實並非如此。

很多科學家們被迫每天忙著申課題、趕著發文章，根本沒有功夫靜下心來嚴謹地探究基礎的科學問題。

而且更糟糕的是，越是世界排名靠前的大學，它們對老師給學校掙錢發文的能力要求越高，並跟終身教職和職稱掛鉤——甚至因此逼死了教授。

2014年英國帝國理工學院的Stefan Grimm教授就因為其課題收入沒有達到每年20萬英鎊的水平要被學校開除，萬般絕望之下走上了自殺的道路，震驚了學界。

姚腦師所在的英國曼徹斯特大學（QS2019全球排名29；清華名列17,、北大名列30、復旦名列44）已經（慘無人道地）把學者們都簡化成了一個號碼，按照課題經費收入來排名。在每年考核的時候還會下派課題申請的任務。比如姚腦師今年就要申請三個課題，壓力真的蠻大的。本應當天天思考「這是為什麼？這是怎麼回事？」的大腦，在重壓下天天想的是「哪裡可以申點錢？」

相比之下咱們中國的學校則對發文的數量比較看重，對老師和學生的發文數量都有硬性要求。這逼著他們「短平快」地在PLoS ONE，Scientific Reports等「神刊」上發文，而不是耐住性子做長期的研究。這樣的體制完完全全與學科的長遠發展需求和學術素養的沉澱背道而馳。

正是由於學校對錢和文章的執著，學者們被逼得越來越急功近利：

一、他們更願意開展有貓膩的研究以獲得快速的回報（用於申請課題或者評職稱）；

二、他們不願意花時間和金錢重複自己的實驗（反正也經常重複不出來，不能自己打臉啊）；

三、他們傾向於誇大自己研究的結果（以便名利雙收）。

在這種環境下也就不難理解為什麼像Diederik Stapel這種已經做到教授級別的學者，也要寧願冒著身敗名裂的風險去背叛科學、鋌而走險，在數年內偽造了至少55篇期刊文章，導致很多博士生把青春浪費在了由謊言堆砌起來的研究上。。。

但客觀而理性地講，真正故意學術造假的學者畢竟是少數。

大部分人只是在實驗中有各種傾向，帶著有色眼鏡看數據。

最讓人無奈的是很多學者們對科學其實是一腔熱血，但卻因為對統計的無知，無法正確地解讀數據，做出了錯誤的實驗結論。

3 缺乏統計訓練

姚腦師入行心理學後陸續見識過很多教授令人大跌眼鏡的統計水平。

幾年前，我在肯特大學做博後期間聽一位教授講過他的研究——精神病人受腦刺激後的康復情況。他把治療後病人的認知測驗結果按時間順序來表示，然後解釋：「康復第一天的時候病人認知比較不行，是在這個水平。但是第二天有顯著提高哦（指圖）。然而不曉得怎麼回事，第三天又降下來了，可能病人需要點時間。。。」我坐在下面那個急，心想：哥哥，能不能把療程前後的測量值求個平均，t-test比較一下？數據每天一上一下跟股票似的，八成只是隨機的測量誤差啊！

近幾年，心理學業內逐漸意識到了自己在統計上的硬傷，逐漸推廣使用R給固定效應（fixed effects）和隨機效應（random effects）同時建混合效應模型（generalised linear mixed models /linear mixed models）來做統計上的判斷，並拋棄了ANOVA等對隨機效應建模能力有限的方法 [3]。

新的方法大大減少了假陽性的結果，也就意味著一些本可以發表的顯著結果變得不顯著，所以很多人對新方法有抵觸情緒。在加上很多人走出校園後就不再學習，時至今日很多學者仍然堅持使用陳舊的統計方法。

比如很多心理學領域在做統計的時候是不考慮隨機效應（尤其是實驗材料by item的隨機效應）的。比如做面部感知的需要隨機選取一系列的臉給被試觀看。由於樣本大小有限，選取的臉很可能會左右實驗的結果。如果隨機再選另一組臉，可能結果就會不一樣。如果不考慮實驗材料的隨機效應，得出的結論就只適用於該樣本，而不能泛化到所有的人臉上。

由於很多學者在統計上的技能停滯不前，導致當今大學本科的統計教育還停留在「SPSS點菜單」的水平。在英國，只有少數幾個學校（如格拉斯哥大學，姚腦師的博士就讀學校）的心理系走在行業前列，在本科階段就教學生用R做linear mixed models。大部分學校的畢業生，從他們的畢業論文中就可以看出來，對統計是「很傻很天真」。當他們開始學術生涯的時候，如果跟的老師不對，就很可能會像他們的前輩一樣重蹈覆轍。

4 心理學的未來？學術界的未來？

就實驗重複性來看，心理學學科其實不斷在進步。

通過業內前輩的不斷摸索和努力，心理學的統計方法是越來越嚴謹。

比如早年腦成像技術剛用在心理學的時候，常被同行吐槽多重比較（multiple comparison）的問題。腦成像技術將大腦分割成無數的立方體（比如約4.4萬個3 x 3x 3 mm的立方體），然後對每一個立方體內在不同實驗條件下的腦活動水平進行比較。如果每一次比較都允許5%一型錯誤率（Type 1 error；即假陽性錯誤），那進行全腦比較出現假陽性的幾率是5%× 4.4萬 = 220000%。

如今腦成像在統計上已經比較成熟，發展出了各種理論和方法（如random field theory，多重比較糾正等）大大地減少了假陽性的幾率。在期刊審稿的時候對樣本大小和顯著性程度的要求也越來越嚴。

從大的趨勢看，心理學人也會越來越接受開放科學和實驗預註冊等好的做法。比如英國各大研究學會要求他們資助的學者必須在發表文章的時候公開他們的數據，以供同行和大眾檢驗和二次分析。而那些學術水平突出的實驗室也都自髮帶頭對實驗進行預註冊以減少主觀上對結果的影響。

相比之下，制度造成的急功近利的學術文化則是一個泛學術界的問題，可能需要好幾代人的努力才會有好轉。

一方面，高等教育高歌猛進造成人才過剩，再加上經濟發展不佳，政府對科研支持不力，使學術界內競爭過於激烈，出現僧多粥少的情況。在巨大的生存壓力下，學校想出了各種學術指標（如課題經費，文章數等）來評估學術表現，但它們的評估周期都過短，不可避免地催生學術上的急功近利。

另一方面，現代高校的管理層大多是管理出身，缺乏教育理念。在他們眼裡，大學就是一個賺錢機器，而不是一個科研平台和教育學府。管理層做的決定，多是從最大化短期經濟利潤來考慮，而不在乎這些決定對科研教育長期的影響。

比如去年夏天英國羅素集團高校炒了一批教授的魷魚，理由竟然是他們太貴了，簡直不可思議！管理層完全不在乎炒魷魚對在職員工士氣的影響，也不考慮有經驗的教授們對年輕老師的引導和支持。

到了今年春季，英國高校又因為要縮減老師的養老金導致老師們在全國範圍內廣泛罷工，讓今年在英國讀書的小夥伴深受其害。

管理層覺得能省則省，天經地義。但即使從經濟角度去考慮，這些也是目光短淺的行為，因為教職工的不滿會潛移默化地影響學生的學習動力和學習滿意度，導致教育質量下降，從而影響學校的生源，從長遠看會減少學校的收入。

要想扭轉這種局面，我們要齊心協力，勇於承擔責任，把自己的教育理念帶到學校的管理層，甚至是組團遊說政府，從上至下來改變學術界的管理制度。

好消息是，一些改變已經正在發生。

比如近幾年英國上下對學術產出的評估正慢慢地從量向質的方向改變。英國政府每6-7年對全國高校學術產出做一個評估（Research Excellence Framework）來決定科研的撥款。在2021年評估時提交的文章從每人4篇下調到了平均2.5篇/人。這就允許學者在6-7年內專心打造2-3篇高質量的文章，體現出了英國政府對「質」的高度重視。由於制度的改變，英國高校普遍對文章數量沒有什麼硬性要求，而對文章質量則有非常高的期望。

除了對文章質量的評估，英國政府還很重視科研對經濟，社會，文化，公共政策和服務方面的影響，在學術產出評估里專門設有「影響力」這一個維度。由於政府的導向，英國國內各大科學院在評審課題的時候特別關注申請人如何能通過科研造福大眾，給納稅人的錢一個交代。制度改變了，學校也不得不做出適應和調整。比如曼徹斯特大學除了研究和教學外，還專門把社會責任感（Social Responsibility）作為考核學者的一個重要指標。

既然有了前車之鑒，我想只要我們能同心協力，鼓勵政府出台合理的政策，是可以慢慢改善學術界的體制和文化的。

萬里長征，始於足下。

參考文獻

1 Open Science Collaboration. (2015). Estimating the reproducibility of psychological science.Science,349(6251), aac4716.

2Baker, M. (2016). 1,500 scientists lift the lid on reproducibility.Nature News,533(7604), 452.

3Barr, D. J., Levy, R., Scheepers, C., & Tily,H. J. (2013). Random effects structure for confirmatory hypothesis testing: Keep it maximal.Journal of memory and language,68(3),255-278.

作者系網易新聞·網易號「各有態度」簽約作者

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自實驗的精彩文章:

※語言是有力量的！宜家做了個實驗，當你欺負一盆植物，30天後竟發生了……
※航空業首次科學實驗揭開「生為旅人」的基因奧秘

TAG:實驗 |