快樂讓你微笑,但微笑還能讓你快樂嗎?
太長不看版:
心理學家們爭論如何複核關於「社會啟動」的科學文獻,懷疑論者們希望進行重複實驗,但進展並不順利。
這時心理學家斯特拉克勇敢地站出來表示:來吧,用我的研究來進行重複實驗吧。
斯特拉克的研究說的是,一個人嘴巴擺出微笑或因嘟嘴而皺眉時心情也會跟著改變。他做研究時的實驗方法背後還有個有趣的故事。
在大家都覺得斯特拉克的實驗重複起來也不會出現問題的情況下,重複實驗失敗了。
這個結果也許會很嚴重:如果斯特拉克的研究結果錯了,那麼其他相關的研究是否也錯了?那麼其他領域的研究呢?心理學陷入危機了嗎?
不管現在正在發生什麼,重複研究的失敗都是一次災難性的揭秘。科學發展壯大的過程就是新想法不斷從過去發現的舊漩渦中湧現,現在我們知道水體被污染了,但卻沒有處理污水的有效辦法。
2013年春天,德國維爾茨堡(Wurzburg)一位63歲的社會心理學家在私人的郵件通訊中提出了一個大膽的觀點。好幾個月來,他的許多同事都在爭論如何複核關於「社會啟動」(social priming)的科學文獻。社會啟動是指即使是非常細微的暗示——比如椅子有多高,咖啡有多燙,一個印在紙上的詞語是什麼顏色——也能影響一個人的行為或判斷。
那會兒,這個專家討論組中的懷疑論者想要招募志願者:研究啟動效應的專家和這一效應的信徒中,有誰會幫助他們進行一項大規模的重複實驗,一次性地在多個實驗室測試同一個重大的心理學發現呢?倘若真有這樣的志願者,誰又會同意將自己的研究成果置於這令人卻步的測試之中呢?
專家們不情不願,踟躕不前。近幾個月,他們的學術領域陷入了醜聞和不確定性中:一個有影響力的學者被揭露為騙子;一些基礎性研究——甚至是那些所謂的「經典」——細看之下似乎都站不住腳。但是,重複實驗的過程也簡直嚴苛到了過分的程度。畢竟,專家們對社會啟動效應的研究本身就基於細節:進行這些研究要依靠經過精確校準的實驗室操作來引發行為上細微的變化。就算是實驗布置上的些微調整,或是經驗不足的實驗者犯的小錯,都可能能將數據攪亂。假設另一個實驗室,或好幾個實驗室,嘗試重複但不能重現某一實驗的成果,這能說明什麼呢?這能讓人改變對該科學發現的看法嗎?
這個專家組陷入了進退兩難的境地。根據《自然》新聞對這些電子郵件對話的敘述,諾貝爾獎得主、心理學家丹尼爾·卡尼曼(Daniel Kahneman)那時試著「煽動」啟動效應的專家們加入進來。然而,他們對參與重複實驗的不情願「讓人覺得社會啟動效應的信徒害怕重複實驗的結果。」丹尼爾在當年二月對專家們的群發郵件中寫道。
接著,在3月21日,弗里茨·斯特拉克(Fritz Strack)——也就是那個維爾茨堡的心理學家——向專家們發了個郵件。「別誤會我,」他寫道,「我不是個太虔誠的人。我對把人們分為『信徒』和『非信徒』的做法很不安。」他補充道,在科學界,「論述的質量和他們的實證檢驗應該是論證的基礎。」所以,如果懷疑論者想要檢驗點什麼——一個代表所有社會心理學研究的例子——那就讓他們試試斯特拉克的研究吧。
讓他們看看他簡歷上最著名的研究,該領域一個真正教科書式的發現。讓他們去調查斯特拉克的展示:如果一個人的嘴巴擺出微笑或因嘟嘴而皺眉,他的心情會隨之改變,哪怕這個動作不是故意的。在1988年,斯特拉克展示,面部表情的變動也會導致心理層面上的變動。他證明,情緒不僅可以像馬爾科姆·格拉德維爾(Malcolm Gladwell)曾描述的那樣由內而外地表現出來,而且也可以產生由外而內的改變。
讓他們來重複這個實驗的結果吧。
成就經典的靈感
八月,在里約熱內盧,攝像機捕捉到了奧運游泳選手邁克爾·菲爾普斯(Michael Phelps)為比賽做準備的場景。他套著大衣,戴著耳機,而臉上擺出一種卡通式的怒容——眉頭緊蹙,嘴角向下。當#菲爾普斯臉#(#PhelpsFace)這個標籤在網上瘋傳的時候,很多人也在試著解釋這個表情。菲爾普斯是不是在通過調動與任務相關的神經網路來進入狀態呢?
或者,他是在利用「臉部表情反饋」(facial feedback)而故意做出這副生氣的表情。一個神經科學家向《戶外》(Outside)雜誌解釋道,面部肌肉的扭曲會激活他的杏仁核(amygdala),進而幫助他的身體為接下來的比賽做準備。多年來,這個概念已經成為了自助的標杆:信以為真,直到你弄假成真。想像你已經進入了你渴望的狀態,並以這種狀態作為行動的標準,你渴望的狀態會隨之而來。怒容會讓你加速運轉,而微笑會使你快樂或為你減壓。
對於面部表情那未被發掘的「魔力」,大部分解釋都可以追溯到查爾斯·達爾文(Charles Darwin)的學說。他在1872年提出,展現出一種情緒的外在特徵可以加強對這種情緒的感受。「控制不住大幅度手部動作的人會感受到更大的怒氣。」達爾文在《人類與動物的情感表達》(The Expression of Emotionsin Man and Animals)中寫道。他在備註中引用了法國的大腦解剖家路易·皮埃爾·格拉提奧萊(Louis Pierre Gratiolet)的論述。在早於達爾文前幾年發表的理論中,格拉提奧萊顯得更加激進:「僅僅是偶然間活動了某些身體部位,也會激發這些部位對應的感覺。」格拉提奧萊在1865年宣稱。根據他的解釋,手勢和表情不僅為情緒增色,還可能助力情緒的產生。
到了19世紀80年代,威廉·詹姆士(William James)把這個關於情緒的見解推向了極致:他說,無論怎麼看,身體上的表達即是情緒。當一個人生氣時,她身上的動作扮演了引路的角色。如果她的怒火沒有得以體現——如果她的臉沒有漲得通紅,鼻孔沒有張大,牙關沒有緊咬,或是呼吸沒有急促起來——那麼她看起來就如同完全沒有發怒一般。如果情緒沒有表現出來,它就不存在。沒有了菲爾普斯臉,菲爾普斯的內心就沒有什麼波動。
從20世紀60年代開始,心理學家們嘗試了另一種解釋。他們提出,我們的情緒可能是事後建構,用以解釋我們自身行為的。如果我發現自己汗流浹背、皮膚髮熱,我會開始留心環境中其他的線索——我在哪兒,我在做什麼,誰剛好站在我跟前——然後,我的大腦會利用現有的信息決定我目前的情緒。就像試圖揣測其他人的心理狀態一樣,我也能猜到我自己的。
從那以後,臉部表情反饋理論就出現了若干微妙的變種。像達爾文一樣,許多研究者認為,一個人的不同表情能放大或縮小他原有的情緒,就如同在音響上調節音量。其他研究者則認為,表情可能影響的是情緒的質量——它們的「音調」或「音色」,甚至是描述。
在實驗室研究中,臉部表情反饋似乎真的產生了作用。但這套反饋系統的運作機制尚不明晰。人們是否只是通過大腦有意識或無意識的活動,來猜測他們的表情是何用意?或者,微笑是否可能不經更高級的認知功能監管,直接作用於大腦來產生情緒?在1985年,一個名叫羅伯特·扎喬克(Robert Zajonc)的社會心理學家「新瓶裝舊酒」,提出了一個過時觀點的嶄新版本:他認為,也許面部動作會影響抵達大腦的血流。可能為了產生微笑而收縮的特定面部肌肉會壓迫附近的靜脈血管,繼而使溫度較低的靜脈血被迫流向大腦皮層,導致愉悅感的產生。也許皺眉這一動作帶來的效果與之相反。
扎喬克試圖在實驗室中證明他這個古怪的理論。在一項研究中,他在被試發出不同母音——ee和ü——時測量了他們前額的溫度。在發這兩個母音時,被試的嘴唇會擺出不同的形狀。他報告說,ü音使被試的臉變得更熱,還弄糟了他們的心情。在另一項研究中,扎喬克往 20個大學生的鼻孔里插入了管子,然後通過氣泵送入不同溫度的空氣。學生們報告,涼爽的空氣讓他們感覺最好。
幾乎在扎喬克探索這個假說的同時,斯特拉克來到了伊利諾伊大學開展他的博士後研究。他沒有探究臉部表情反饋理論的計劃,但有閑暇時間稍加涉獵。在1985年春天的一次研究會議中,他和另一名博士後萊昂納德·馬丁(Leonard Martin)聽到了這個課題的一個報告。許多研究發現,如果你叫某個人微笑,她會說她感覺更開心或更愉快,而她的身體也會相應地做出回應。這似乎是個細微而可靠的效應。但是,斯特拉克意識到前人的研究都有一個通病:被試要麼知道實驗的目的,要麼可以猜到。當一個心理學家讓你微笑時,你在一定程度上會知道你「應該」有什麼情緒吧。
翌日,馬丁和他的女朋友與斯特拉克伉儷坐上同一輛車,自駕從香檳-厄巴納出發,開往新奧爾良參加懺悔節狂歡。馬丁回憶道,他們花了很長時間討論可能的實驗方案。如果他們能夠更隱蔽地測量微笑造成的效果呢?如果被試根本就不知道自己在微笑呢?
其他研究者已經嘗試去實施這種「欺騙」。在20世紀60年代,當時還是羅徹斯特大學研究生的詹姆士·萊爾德(James Laird)曾經精心編製過這樣一個「謊言」:他告訴一組學生,他想記錄他們的面部肌肉在不同情況下的活動。然後,他將杯狀銀電極放置到學生們的嘴角、下巴邊緣和兩眉之間。電極的接線通向一個看似專業、實則無用的裝置。
接著,萊爾德讓學生們繃緊和放鬆特定的肌肉。他會碰碰一個被試的眉毛,說道:「現在我需要你收縮這些肌肉。將這些肌肉集中起來、向下用力,試著收縮它們。」然後,他會觸摸同一個被試的下頜一側:「現在,試著收縮這些肌肉。咬咬牙試試看。」他一步一步地「騙」被試擺出他想要的表情——怒目而視、露齒而笑等等。在這個實驗的一個新版本中,萊爾德給32個大學生戴上了假電極。他先「騙」他們擺出微笑或皺眉的表情,然後給他們看了幾則漫畫,並讓他們給漫畫評分——從1(「一點都不好笑」)到9(「我看過的最滑稽的漫畫」)選擇中一個數字代表漫畫 的滑稽程度。所有分數統計完畢後,結果似乎顯示臉部表情反饋是有效果的:那些擺出皺眉表情的被試給出了4.4 的平均評分,而那些擺出微笑表情的人則認為同樣的漫畫更滑稽——他們給出的平均分是5.5。
然而,萊爾德的花招並非十全十美。雖然他小心地做著樣子,學生們也不難看穿他想要做的是什麼。近五分之一的被試說,他們已經猜出對他們面部肌肉活動的操縱與他們的情緒相關。
斯特拉克和馬丁認識到,他們必須做得更巧妙。在駛向懺悔節的路上,斯特拉克來了靈感——也許他們可以試試體溫計。說著,他把手伸進嘴裡做了個演示。正在開車的馬丁從後視鏡中看到,斯特拉克的嘟嘴讓他皺眉了。這就是實驗中第一種條件的雛形了。馬丁則對第二種情況有了主意:他們可以讓被試用牙咬著溫度計,或是咬著更為理想的東西:筆。
這一「神來之筆」書寫了心理學界的一個經典發現。斯特拉克和馬丁意識到,當被試用牙咬著筆時,他們的嘴巴被迫模擬出微笑。而當被試用嘴唇含著筆時,嘴巴的動作又會使他們被迫皺起眉頭。這樣一來,被試就不會知道他們在模仿不同的面部表情了。
回到伊利諾伊後,斯特拉克和馬丁嘗試了和萊爾德一樣的實驗。不過,他們用的不是假電極,而是筆。他們給92個大學生髮放了氈頭馬克筆,並教他們如何用嘴銜住筆。他們聲稱這個實驗旨在測試學生們的「精神運動協調性」(psychomotoric coordination),以及殘疾人可能如何學會寫字或打電話。在大學生們完成一些練習任務——用筆連點成線,和在一頁印有隨機排列字母的紙上標出所有母音字母——之後,實驗者向他們展示了一組四張摘自《在遠處》(The Far Side)系列漫畫的單幅漫畫,並要求他們為漫畫的有趣程度打分。
這個實驗的結果與萊爾德的發現相符。那些用雙唇含著筆而皺起眉頭的學生給漫畫打出了4.3的平均分,而那些用牙齒咬著筆而微笑起來的學生則給出了5.1的平均分。而且,沒有一位被試發現自己的表情受到了操控。如果皺眉或者微笑改變了被試對漫畫的判斷,他們也完全不會知道。
「這在理論上平平無奇。」斯特拉克說。但是,他的方法既巧妙又具啟發性。而且它似乎一舉表明了臉部表情反饋直接作用於大腦,而不需要顯意識的干預。不久後,他在回答記者們關於「咬筆」那一套能否用來治好抑鬱症的問題時一笑而過。他告訴記者們,想要讓人開心,有比這強得多的方法。
接下來的二十年里,許多實驗室改編並擴充了他的想法。其中一個實驗團隊將一對高爾夫球座分別貼在被試的左右眉上,並要求他們使球座的尖端相碰,以隱蔽地讓他們皺眉(這似乎讓被試產生了傷心的情緒)。另一個團隊則教會了被試五種用嘴巴夾筆的方法,以此來分辨不同表情——比如禮貌、虛偽的微笑和更加自然、雙眼眯起的微笑——產生的效果。(更真誠的微笑似乎讓被試更高興。)
斯特拉克和馬丁的方法最終出現在了一系列令人困惑的情形中,並被推向了實用領域。如果面部表情能影響一個人的心理狀態,那麼微笑可以讓人境況更好,甚至消除社會問題嗎?那時看起來似乎是的。在2006年,芝加哥大學的研究者展示,在人們看黑人照片時,用指導人們咬筆的方式誘導他們微笑,可以減少他們的種族歧視傾向。在2013年,一個西班牙團隊發現用咬筆引導出的微笑可以讓人們在一個繪畫任務中更有創造力。斯特拉克本人還發現,在聽從引導皺眉後,他所在的大學裡的學生會對名人們產生偏見,並認為那些名人並非那麼出名。
確實,斯特拉克研究的基本發現——面部表情可以改變你的心理感受,就算你不知道自己擺出了它們——至少在概念上已經被重現了很多很多次。(馬丁喜歡用他「心理學導論」課上的學生來重現這一實驗。)近年來,這一基本發現甚至成為了治療心理疾病的理論基礎。斯特拉克自己曾在20世紀80年代嘲笑過的想法,現在被認真地對待了:近來,一些隨機臨床試驗發現,在抑鬱症患者的臉上注射肉毒桿菌毒素(Botox)不但能使他們的眉間紋消失,而且還能幫助他們從抑鬱症中康復。據臉部表情反饋理論的支持者說,這些研究表明,僅僅是失去噘嘴的能力就能「強行」改善人們的心情。
回首多年來的後續研究,包括臉部表情反饋理論在臨床試驗上的成功,斯特拉克對這個領域的研究成果深信不疑。「面部表情對判斷的影響已經被證實了很多很多次。」他告訴我,「我完全相信這個理論。」
這就是他三年前為什麼主動要求幫助郵件討論組中的懷疑論者。「他們想要複製一些研究,所以我就推薦了我的面部表情反饋研究。」他說,「我有信心他們會得到結果,所以不太確定這樣做會有什麼意義。但如果他們想複製我的研究,我也很樂意。」
失敗的重複實驗
重複面部反饋研究的項目總負責人、心理學家E。 J。 沃根梅克斯(E。 J。 Wagenmakers)來自阿姆斯特丹大學。他對情緒和表情的研究沒有特殊興趣。「我的興趣點主要是方法論。」他告訴我。我認為,這話的言下之意是他以批判自己領域中所使用的實驗方法為生。「科學是靠人類進行的。」他說,「而人類容易受各種各樣的偏見影響。我覺得懷疑論的存在總是有很好的理由的。」
儘管如此,當斯特拉克主動將他1988年的論文置於詳細審查之下時,沃根梅克斯還是認為成功重複的概率很高。他列了一長串理由:這個發現背後有很長的研究歷史,可以追溯到詹姆士和達爾文的學說;表面看來,這個發現合情合理;其他研究似乎也為它提供了支持。「我個人感覺這個研究其實有很高几率能被重複出來。」他說道。
成功率有多高呢?
「我猜有30%吧。」
某種程度上,他有些樂觀。重複項目有「車禍」的前科。自2008年起,研究者們試著去重現100個心理學實驗,只認為其中的39個項目被重複成功了。在過去的幾年裡,《心理科學展望》(Perspectives onPsychological Science)期刊發布了「重複實驗報告計劃」(Registered Replication Reports)。在這個重複工作的標杆項目中,許多不同的研究者試圖再現某個實驗,從而使不同實驗室的數據能夠合并起來,集中分析。在最先完成的四個重現研究中,三個以失敗告終。
2016年3月,我曾在文章中提到最近一篇關於「自我損耗」(ego depletion)的重複實驗報告。自我損耗指的是自制力(self-control)的運作像肌肉一樣,運作過久也會疲憊不堪。有諸多因素讓人對重現研究的結果感到樂觀——比如這種效應已經被以不同的方式證實過數百次。但它也同樣存在問題。許多發現似乎稀奇古怪:比如,有的研究聲稱,你可以通過喝杯檸檬汁來「補充」意志力。在這次重複實驗開始之前,兩組科學家曾試圖分析該領域所有的研究,但卻得出了截然相反的言論:其中一組發現了顯著的效應,而另一組卻幾乎沒有檢測到任何效應。所以,最近這次重複研究的實驗者公布實驗結果後,人們也沒有那麼大跌眼鏡——結果是,沒有效應。啥,都,沒,有。
然而,臉部表情反饋理論從未成為過懷疑論者的目標——從來沒人想要將它拽下神壇。還記得嗎,斯特拉克最初的實驗證實(然後擴充了)一個由來已久的想法。他的「夾筆步驟」在其他實驗室也奏效了。但是,這也不是說他在郵件討論中主動要求重複他的實驗時毫無顧慮。事實上,他還提出了幾個注意事項:其一,臉部表情反饋理論與社會啟動效應並不相關,而社會啟動效應一直是當時郵件討論的焦點所在;其二,他聲明,原論文中的證據並不是壓倒性的——他得到的效應並不是非常大。儘管如此,原研究的主要觀點已經經受了四分之一個世紀的研究考驗,而且沒有受過主流、公開的質疑。「我相信一些認知科學領域的同事能設法拿出幾個重複失敗的例子。」他預測道。但是,他認為主要結果能經受住考驗。
在主動請願的一個月內,斯特拉克把1980年代的實驗材料全部寄給了沃根梅克斯,這其中包括了當時使用的漫畫。將這個重複項目準備好又再耗費了兩年時間。在蒂蒂亞·碧可(Titia Beek)和勞拉·黛珂霍芙(Laura Dijkhoff)兩位助手的幫助下,沃根梅克斯必須弄清楚這個研究里里外外的每個細節,然後發布到一個公共論壇上。他們確定了介紹實驗時用什麼措辭(「你正在參與一個關於精神運動協調性的研究……」),要用什麼樣的筆(美國夏皮記號筆或是型號為68s的德國天鵝筆),要給被試展示什麼漫畫(《在遠處》系列一組新的單幅漫畫),以及計劃用什麼方法分析數據。
2015年4月,重複實驗開始了。沃根梅克斯的小組與來自8個國家、17個實驗室的科學家簽了約——每個實驗室都要試圖重現斯特拉克的原實驗步驟。這個研究團隊總共測試了近兩千名被試。實驗方法有數個改進之處:其一,在這個重複實驗中,被試通過事先錄好的視頻來接受指示,因為與研究者交談可能會讓被試以不易察覺的方式產生偏見。其二,被試完成實驗的過程會以視頻的方式記錄下來,以讓研究者有機會檢查他們有沒有正確地把筆放好。
這個研究團隊又花了16個月的業餘時間來收集數據、進行分析、寫成報告並完成編輯。
2016年8月18日,結果公布。結果並不樂觀。
約一半參與實驗的實驗室(準確地說,是17個中的9個)的數據顯示,那些「微笑」的被試向漫畫給出了稍高的平均評分——在滿分為10分的評定量表上,他們被逗樂的程度高了0.1至0.2分。而在斯特拉克原來的研究中,「微笑者」和「皺眉者」之間的分數差距更大,達到了0.82分。在其他實驗室的數據中,效應似乎正好相反:「微笑者」給漫畫的逗樂程度評分低了0.1至0.2分。在沃根梅克斯將所有所得數據綜合起來之後,效應互相抵掉並消失了。「微笑者」與「皺眉者」間的差距已縮減至0.03分——不過是一個隨機波動,雜訊中的遙遠迴音罷了。
「我真心希望過這個研究能成功。」沃根梅克斯說,「不幸的是,事與願違了。」
誰出了問題?
斯特拉克並沒有對參與重複實驗項目一事感到後悔。不過,他也沒有太認真地對待重複研究的發現。「我不知道我們從中認識到了什麼。」他說。
三年前,當重複斯特拉克研究的項目正在進行的時候,他與社會心理學家沃爾夫岡·斯特羅畢(Wolfgang Stroebe)合著了一篇文章來抨擊懷疑論者這一項目。此文題為《所謂的重現危機和準確重複的幻覺》。文章稱,像重複實驗報告計劃那樣的工作反映了一種「認識論上的誤解」(epistemological misunderstanding),因為完美地複製舊實驗是不可能的事。作者們認為,人在變,時代在變,文化也在變。沒有一個社會心理學家會「踏進同一條河流兩次」(註:語出古希臘哲學家赫拉克利特:「人不能踏進同一條河流兩次,因為新的水流不斷地流過。」)。他們補充道,即使一個研究能被重現併產生了陰性結果,那這個結果也沒什麼意義,因為它不能解釋為何結果沒重複出來。
所以,面對最新的實驗數據,斯特拉克看到的不是一次徹頭徹尾的失敗,而是一組參差不齊的結果。九個實驗室發現「夾筆」產生了與原研究一致的效應,而其餘八個實驗室發現了相反的效應。為什麼要把這些發現平均起來,得出零效應,而不是弄清兩邊結果的差別從何而來呢?也許近一半的實驗室沒有引發效應是有原因的。
「雖有這八個重複不成功的案例,我的想法仍未動搖。我沒有理由改變主意。」斯特拉克告訴我。現在有一部分實驗室的結果與他的相悖了,但以前那麼多年來,還有那麼多研究在為他辯護。他怎能對那些證據視而不見呢?
在與重複實驗報告一同發表的評論中,斯特拉克指明了他在此研究中發現的問題。第一,有超過600名被試的數據沒有被分析,這佔到了被試總人數的近四分之一。據重複項目稱,被試會因為夾筆的方式不正確,或是向不同的漫畫給出差距過大的評分而被排除在資料庫外。而斯特拉克認為,其餘的被試有可能已經猜到了研究的目的——他們中的很多人都是心理系的學生。畢竟,研究者們在重現心理學領域的一項經典研究。
他還質疑「具有典型1980年代時代風貌」的《在遠處》漫畫是否能在2015年左右的本科生中「構建相似的心理情境」。漫畫的作者蓋瑞·拉爾森(GaryLarson)1995年就不再創作這個系列了。斯特拉克說,他在重複項目一開始就向沃根梅克斯提出了這一問題,但遭到了忽略。其實,重複項目用阿姆斯特丹大學的120名學生提前測試了一組《在遠處》漫畫,確保它們和斯特拉克原來用的漫畫能得到學生們相近的滑稽評分,結果也的確如此。
此外,斯特拉克提出,攝像機的設置可能讓被試感到難為情,以致於最終壓抑了自己的情緒。最後,他想知道在17個實驗室的結果差異是否意味著它們存在偏見。他說,那些樣本量更大的實驗室似乎有更加積極的結果。這似乎說明重複實驗的人壓制了「夾筆效應」。然而,來自賓夕法尼亞大學的元分析(meta-analysis)專家喬·希爾加德(Joe Hilgard)用數據檢驗了這個想法,發現它並不令人信服。
萊昂納多·馬丁對斯特拉克的擔心表示同意,並認為重複者沒有完全遵照他們的實驗程序行事。他通過電子郵件提出,重複工作非常鬆散,以至於「結果也許無關夾筆效應的可重複性或心理學研究的總體重複性,而只能反映當今檢測研究可重複性使用的方法」。考慮到這些重複工作可能會改寫心理學界已站穩腳跟的發現,還會損壞人們的名譽,他說「重複項目」應當格外小心:「如果當今學界不夠嚴謹的作風延續下去,心理學可能會迎來自己的麥卡錫時代。」(譯者註:麥卡錫主義泛指在沒有足夠證據的情況下指控他人罪行的行為。)
斯特拉克還有一個顧慮:「我覺得非常難以接受的一件事是,這整個重複研究沒有自己的研究問題。」它「沒有一個具體的假說,所以很難得出任何結論。」他告訴我,「他們說效應是不真實的,但我不知道這意味著什麼。也許我們認識到(夾筆步驟)不是個效應很強的干預步驟,但我也從來沒聲稱它的效應很強。」
他說,過去數十年間開展的一系列研究支持他最初的結論,而重複項目沒有針對這些研究提供一致的反對證據。「你總不能說這些(早期的)研究都操縱了p值(p-hacked)。」斯特拉克指的是一系列微調統計數據的方法,科學家可能用以獲得數據支持。「你必須要看看統計方法,才能提出為什麼它們不對。」
於是,我帶著斯特拉克的建議回顧了他1988年的論文,來看看能否找出它哪裡出了差錯。論文包括了兩個相關實驗的結果:第一個實驗中,斯特拉克和馬丁讓學生們用牙齒或嘴唇夾著筆,並給漫畫的滑稽程度評分。在這個實驗中,他們發現了「微笑者」和「皺眉者」間有著0.82分的差異。
但是這兩位心理學家還沒有確信他們真的得到了結果,並對他們的老闆,社會心理學家羅伯特·懷爾(Robert Wyer)隱瞞了數據。「我們沒敢告訴他,因為他準會說『你們瘋了』。」斯特拉克回憶道。於是,他們一直等到斯特拉克有機會嘗試同一實驗的另一個版本。他們的論文稱這一版本旨在「鞏固實驗結果之實證基礎並證實實驗方法之效度」。換句話說,斯特勞特嘗試過去重複自己的實驗。
在第二個實驗中,斯特拉克加了一個小花招。在這次實驗里,學生們要回答兩個問題,而不是一個:其一,漫畫有多滑稽?其二,你覺得漫畫有多好笑?這個是為了幫助學生們區分他們對漫畫幽默度的客觀評價和自己的情緒反應。學生們回答第一個問題「漫畫有多滑稽?」,即上一個實驗版本所用的問題時,效應似乎消失了。「皺眉者」的評分反而比「微笑者」高0.17分。如果臉部表情反饋起了作用,它只會作用於第二個問題:「你覺得漫畫有多好笑?」結果,「微笑者」比「皺眉者」評高了整整1分。(在重複項目中,沃根梅克斯和其他實驗者把第二個問題和第一個實驗的步驟組合了起來。也就是說,他們只問了第二個問題。)
事實上,斯特拉克發現了與先前結果完全相反的證據:使用了同樣的夾筆程序,向學生們提出了同樣的問題,卻得到了相反的結果。這難道不是一次重複失敗嗎?
斯特拉克不這樣認為。他和馬丁合著的論文認為這是一次成功:「第一個實驗的發現……在第二個實驗中重複成功了。」斯特拉克告訴我,其實,正是在第二個實驗之後他們才有足夠的自信與懷爾分享他們的發現。他說他就猜第二個問題——「你覺得漫畫有多好笑?」——會改變學生們對第一個問題的回答,結果確實如此。在第一個實驗中,學生們的客觀判斷和情緒反應被歸進同一個回應中。在第二個實驗里,他們分別給出了答案,而臉部表情反饋的真正效果只出現在了對第二個問題的回答中。「這正是我們所預測的。」他說道。
這倒也算有些道理。但是事後諸葛亮一下,或者說是犯一下「後見之明偏誤」(hindsightbias)地說,第二個實驗似乎向人們亮起了警示燈。這個心理學界的奠基性研究至少有幾個瑕疵。它暗示了自己的不穩定性。為何沒人留意呢?
重複失敗意味著什麼
最近這次重複失敗有多糟糕?這取決於你的狀態。如果你讀到這篇研究時心情正好——比如,你的牙間正咬著一隻熒光筆,而你的嘴角咧向耳根的時候——你可能傾向於認為這只是個局部的問題。也許《在遠處》漫畫有些過時,或者攝影機的存在讓被試覺得有些彆扭,或者樣本出了問題。不管怎樣,你會覺得這個重複研究的失敗能且只能說明一件事:出於某種原因,一個1985年在去往懺悔節狂歡路上設計出來的實驗,結果沒能被重複成功。
或者,你可能傾向於從稍微陰暗一點的角度看待這個研究:原論文可能出錯了。也許「夾筆」流程存在一個致命的錯誤,哪怕是一個在每項用到它的研究中都可能出現的錯誤。現在你的額頭可能泛起了憂慮的褶子:萬一那是個更嚴重的錯誤呢?研究者們僅僅對這一項研究做了重複,還是出於它的名望和影響而選了它。如果連這經典的臉部表情反饋理論研究都不能被成功重複,誰能說其他沒有這麼貼近這個理論的研究能被重複呢?也許,面部表情會直接影響情緒這整個想法都有問題。也許,達爾文弄錯了!
萬一所有與臉部表情反饋理論相關的文獻都受到了「抽屜問題」(the file-drawer effect)的影響怎麼辦?如果科學家們獲得與斯特拉克的結果相符的數據就繼續工作並將其發表,否則就把數據打入冷宮。如果真是這樣,斯特拉克引用的所有後續研究結果都有可能是偽造的。就算是隨機化的臨床試驗——那些發現肉毒桿菌毒素能治療抑鬱症的研究——也可能是誤入歧途:注射肉毒桿菌毒素讓人更開心,可能是因為它能讓抑鬱症患者開始對自己的外貌感覺良好。或者,也可能是患者不再時刻愁容滿面,別人因而待他們更好了。
現在,用你的雙唇含著熒光筆,然後告訴我你看到了什麼:五個重複項目中的四個沒有發現任何效應。這與它們研究課題的選擇無關——幾乎所有主流的重複項目都以失敗告終。如果臉部表情反饋理論都有些可疑,那具身認知(embodied cognition)領域的其他理論,比如「高權力姿勢」(powerpose)和「麥克白夫人效應」(the Lady MacBeth effect)呢?(劇透:這兩個研究也重複失敗了。)心理學完全陷入危機了嗎?認知神經科學呢?其他領域的科學研究呢?
這就是「可重複性危機」的難關所在。沒人知道如何準確衡量它們有多令人不安。
我在報道這些爭議時,常常會問這樣一個問題:對最近這個「零效應」結果,我們應該感到多憂心?或用個更簡單的類比:大夫,說實話,這病嚴重嗎?
科學家們是寬慰人心的典型。他們不喜歡把自己搞得情緒激動。「我認為以偏概全是危險的。」丹尼爾·西蒙斯(Daniel Simons)說道。他是一位來自伊利諾伊大學的心理學家,也是重複項目的編輯之一。確實,如果你從斯特拉克原研究的結果中推導出了籠統的結論,那你就錯了。同樣地,如果你從一次重複實驗的失敗中推導出了過於寬泛的結論,那你也一樣錯。西蒙斯說,如果這次嘗試真的能帶來什麼改變的話,它應該讓我們變成懷疑論者,而非末日論者。
問題在於,成為一個持懷疑態度的心理學家並沒有什麼回報。倘若你想從媒體和同儕那兒獲得關注,那你最好想辦法挖掘出一些引人注目、出乎意料的數據。「這也等於是在說,你的發現不太合理,或者不太可能是真的。」沃根梅克斯說道。他把部分責任歸咎於科學期刊的編輯們,因為他們給紮實可靠、遞進式的研究設置了過高的標準。但他也暗示了記者所負的責任。是我們強調了劣質的研究。我們被荒唐的發現(比如,有女子名的人更容易在颶風中喪生)或容易被包裝成自助建議的成果所吸引,而這在心理學界製造了錯誤的研究動機。它告訴研究者,他們最弱的研究,卻最有「價值」。
記者們也被衝突吸引。我知道,如果每個新發布的、失敗了的重複研究都披露著心理學即將陷落的先兆,就會更引人注目、更讓人驚奇,也會給我的讀者帶來更精彩的故事。我承認,把最近這個重複研究項目報告描繪成一個由輝煌走向幻滅的故事,一場新舊心理學鬥士間的戰爭,或是一波洗刷科學界的懷疑浪潮,對我來說是一種誘惑。我知道,如果我提出,「臉部表情反饋理論已然崩壞」,或是「你對情緒的一切認知都錯了」的觀點,我會獲得更高的點擊量。我知道,如果我主張心理學將毀於一旦,這篇文章會更具娛樂效果。
但如果是錯誤的動機製造了這一場危機,錯誤的動機也可以誇大這場危機的規模。
著火的魚缸
重複研究所使用的其中一張《在遠處》單幅漫畫於1988年10月第一次發表在報紙上——那時距離斯特拉克發表他的夾筆實驗不過區區數月。漫畫里,三條金魚待在一個不知怎麼著起火來的魚缸旁邊。其中一條金魚對另外兩條說:「謝天謝地我們逃出來了……不過現在,我們也一樣完蛋了。」
當我和沃根梅克斯交談時,我的腦海里浮現了這些金魚。考慮到最近的新聞,我覺得感到有些恐慌和遺憾也是合情合理的。
他說:「我同意你的看法。這令人難過,但它已經過去了。我們必須看,而且我認為未來有很多進步的空間。」他在電子郵件中展開談道:期刊正在改變政策;研究的透明度正在上升;研究基金資助機構已經開始贊助重複研究了。有些有所覺醒的心理學家甚至已經開始審查自己的研究,以確定研究正在變得更加可靠。「心理學領域正在經歷一場蛻變,」沃根梅克斯寫道,「或是一次變革。」
即使在重複失敗次數不斷增加的情況下,近年心理學界也發生了很多改變。我們有充足的理由感到樂觀。去年三月份,在自我損耗的複製研究似乎一敗塗地的時候,該領域的一名研究者邁克爾·因茲利奇(Michael Inzlicht)告訴我,可能是時候重新出發了:「到了某個時間點,我們必須重新開始,告訴自己,這是咱們大展拳腳的第一年。」他說。某種程度上,他聽起來挺樂觀的。
因茲利奇點破了我的憂慮——他已經考慮到了這些問題。可我還是忍不住擔心我們到了像那些金魚一樣剛剛逃離著火的魚缸的地步。它們逃過一劫,並正在考慮未來。
但過去怎麼辦?可重複性危機帶來的潛在危害是雙向的。即使我們解決了未來可能發生的問題,即使我們終結了 p值操控、出版偏見和社會科學界的「類學術欺詐」問題(pseudo-fraud),我們回眸時還是會看到一沓含糊不清的文獻。這些重複工作不僅教會我們如何認真地對待科研,但也告訴我們,科研的歷史中滿是有毒的廢料。僅僅指明這些廢料所在的方向並不能將它們清理掉。不管現在正在發生什麼,重複研究的失敗都是一次災難性的揭秘。過去的發現為科學事業奠定了基礎——新想法不斷從清澈的舊漩渦中湧現,這正是科學不斷發展壯大的過程。現在我們知道水體被污染了,但卻沒有處理污水的有效辦法。
在我看來,心理學家能發現他們的問題是件好事。他們能直面問題也是件好事。他們發現可疑的結果讓他們後院起火了是件好事,他們逃得及時也是件好事。
但你認真想想,他們是不是也一樣完蛋了呢?
※微笑抑鬱:原來,你不是真正的快樂!
※快樂!在於微笑的面對!
※親愛的,你也微笑,好嗎?
※它是在對你微笑嗎?喜歡微笑的流浪鬥牛犬
※沒有蝦仁微笑你敢說自己笑得好看?
※把微笑帶給你
※看看他們的微笑,你想想你有多久沒這樣微笑了啊
※早安心語正能量,願你微笑今天,快樂永遠
※為什麼你的微笑不夠美?
※你發的「微笑」為何讓人不高興?
※你媽又雙叒逼你結婚?轉給她,微笑說好的
※鄧肯:你是否還會想起我「吃T」的微笑
※烤瓷牙能讓你微笑 看了這些你就笑不出來了
※雖然它時刻保持 「微笑」,但不是誰都懂……
※愛微笑的包子臉喵喵,你喜歡嗎?
※海豚在對你微笑?你想多了
※再苦,都要微笑!
※說到笑,誰能比得上本哈?微笑大笑傻笑嘲笑苦笑
※愛微笑還能抑鬱?微笑抑鬱症是個什麼病?