你被騙過嗎?7種操縱數據的方式,第7種讓無數人中招
圖片來源:Shutterstock
數據統計和分析是每個科研人員都應具備的技能,希望本文能幫助初學者避免無意中犯錯,並讓你在看到故意扭曲的統計結果時,第一時間識破作假者的伎倆。
撰文 Winnifred Louis & Cassandra Chapman
翻譯 楊晚鈺
審校 夏燁
統計能夠有效地呈現數據,便於我們理解周圍世界中的模式。但如果憑直覺解釋這些模式,結果通常會令人失望。以下是統計、概率和風險分析中常見的幾種錯誤,以及避免這些錯誤的方法。
01
無意義的差異
股市的很多日常波動都只是偶然現象,並沒有任何意義;在民意調查中,某黨領先的一兩個百分點通常也只是數據雜訊而已(在給定的數據樣本或公式中,出現的難以解釋的變化或隨機性)。
為避免對這種數據波動的原因作出錯誤的推論,可以查看它們的「誤差幅度」。差異如果在誤差幅度內,則很可能無意義,這種變化很可能只是隨機波動。
02
來自現實印象的誤會
我們常會聽到對兩個群體差異的籠統概括,比方說女性更樂於撫育後代,而男性體格更強壯。這些結論通常受到刻板印象和民間說法的影響,卻忽視了兩個群體的相似之處,以及同一群體內部的差異。
如果隨機挑選兩個男性,他們的體能可能相差很大;如果隨機挑選一男一女,他們撫育後代的表現也可能非常相近,男性的表現甚至會更明顯。
要避免這樣的錯誤,你可以查看兩組的「效應量」(effect size)。它可以反映兩組間平均數的差異。如果效應量小,說明兩組相似度高。但即便效應量大,也可能是較大的組內差異導致的,因此不能斷定兩組間的所有個體都存在差異。
03
忽略極值
考察對象服從正態分布(也稱「鐘形曲線」)時,效應量的兩端是有重要意義的。在正態分布下,大多數個體接近平均值,只有一小部分個體遠高於或遠低於平均水平。
這種情況出現時,組內的微小變化都會導致差異。這種差異對平均值幾乎沒有影響,但可能會完全改變極值的特徵(見第二點)。
要避免這個錯誤,需要仔細考慮是否要研究極值。若是針對平均水平進行研究,通常不用在意組內的細微差異。但若非常關注極值,這些細微差異將會影響巨大。
當研究對象服從正態分布時(在鐘形曲線上),極值處的差異比平均值附近更為明顯(表現在分布曲線上為:極值處的重疊區域較少,而平均值附近有大部分重疊)
04
相信巧合
美國每年淹死在游泳池裡的人數和尼古拉斯·凱奇(Nicolas Cage)出演的電影數存在相關性,你知道嗎?
圖片來源:tylervigen.com
如果你觀察夠仔細,就會發現這種有趣的模式和相關性,但這也僅僅是巧合而已。僅僅因為兩件事同時發生變化,或者具有相似的變化趨勢,並不能說明它們有關。
要避免這一錯誤,需要思考觀察到的相關性在多大程度上是可靠的。這種相關性是一次性的,還是多次出現的?未來的相關性又能否預測?如果這種相關性只出現了一次,那它很有可能是隨機的結果。
05
因果倒置
舉例來說,假如失業和心理問題存在相關性,你很容易注意到其中「明顯」的因果關係——心理問題會導致失業。但有時因果關係恰恰相反,比方說是失業誘發了心理問題。
要避免這一錯誤,可以在發現相關性時提醒自己思考反向因果關係。這種影響從相反方向推測可以成立嗎?還是說兩者相互作用,形成了一個環形反饋?
06
第三種因素
人們常常會忘記對可能的「第三因素」(也稱外部因素)進行評估。某些情況下,兩件事情的相關性是由第三因素引起的,它們實際上都是第三因素的結果。
舉例來說,假設下飯店和更健康的心血管系統間存在相關性,這會讓我們相信兩者間存在某種因果關係。然而結果可能是,能經常下飯店的人社會地位更高,負擔得起更好的醫療保健服務,而這種醫療保健服務才是他們心血管系統更健康的原因。
要避免這一錯誤,別忘了在發現相關性時考慮第三因素。找到事件 A 的可能的原因 B 時,反過來想一想,會不會是外部因素 C 導致了 B?C 會導致 A 和 B 同時發生嗎?
07
修改坐標軸
在對圖表的縱坐標進行縮放和標註時,會出現很多迷惑人的地方。縱坐標刻度應當將統計對象有意義的數據範圍完整地呈現出來。但有時,製圖者為了誇大細微差異和微弱的相關性,會縮小縱坐標的刻度範圍。
從下圖可以看出,當縱坐標刻度範圍為0~100時,兩個柱圖看起來差不多高。但若將刻度範圍設置為52.5~56.5,它們看起來就截然不同了。
要避免這一錯誤,可以注意觀察坐標軸刻度。對於那些沒有刻度的圖表,更要持懷疑態度。
※長期記憶和短期記憶竟在同時形成
※上海交通大學醫學院附屬仁濟醫院臨床幹細胞研究中心招聘博士後及助理研究員
※如何培養科研統計思維
※上海科技大學信息科學與技術學院宋富研究組招聘博士後
※那些石破天驚的神致謝
TAG:科研圈 |