當前位置:
首頁 > 知識 > 震驚!使用線性回歸分析竟然出了這樣的事

震驚!使用線性回歸分析竟然出了這樣的事

研究方法

震驚!使用線性回歸分析竟然出了這樣的事

引用

原文

Christopher H. Achen. Let s Put Garbage-Can Regressions and Garbage-Can Probits Where They Belong [J]. Conflict Management& Peace Science, 2005, 22(4):327-339.。

作者簡介

ChristopherH. Achen,美國藝術與科學院院士、美國政治學會方法分部首任主席、普林斯頓大學政治學系羅傑威廉姆斯講席教授、政治學定量研究方法重要奠基人。他的研究方向包括實證民主理論、美國政治、比較政治和政治學方法論。

編者按:

近期,《耶魯大學比較政治學書單》得到了讀者朋友們的喜愛與好評。細心的讀者可能已經發現,位列這份書單榜首的既不是經典教材,也不是前沿成果,而是一篇殺氣騰騰的「檄文」。在這篇文章中,作者將那種常見的、把一大堆變數放入模型「跑」回歸的研究方法痛斥為「垃圾桶回歸」,聲稱這些研究結果本身也將被掃進統計學的垃圾桶。那麼,作者何以得出如此驚世駭俗的結論,他大聲疾呼的目的又在何處呢?小編(政文觀止公眾號)特將這篇文章編譯出來,與讀者分享作者的才華、豪情與憂思。

一、 被濫用的回歸分析

作者指出,在當今的國際政治研究中,民主和平論等重要理論的檢驗與發展都離不開統計數據,甚至許多科學理論是直接從數據中發現的。對於不同的數據類型的計算目標,統計學已經發展出最小二乘法、最大似然估計、貝葉斯估計、廣義矩估計、穩健標準差等紛繁複雜的統計工具。然而,在作者看來,許多實證研究中的統計分析是非常「無腦」的:研究者將所有的疑似變數都「扔」進回歸模型,通過回歸係數和顯著性來判斷自變數是否有效,再加入控制變數來排除其他因素的影響。最終,研究者自認為構建起一個足夠複雜的模型,並用一堆有顯著性的變數來證明自己的假設。作者認為,這種方法不僅不符合學術規範,而且明顯地違背科學。

既有的研究充分說明,這種粗暴的回歸分析無法解決間接關係和三角因果結構(triangular causalstructure)。作者則進一步強調,這種回歸分析不僅不能完整地揭示變數間的真實關係,甚至會得出完全錯誤的因果效應。在進行實例演算前,作者強調,定量研究者幾乎把如下兩個誤解當成了定理:首先,他們認為,把控制變數放入回歸模型就能真的控制它們的影響,從而得到自變數的合理係數。其次,他們認為,把一系列的自變數放入回歸模型就能得出它們各自對因變數的效應,而從回歸係數和標準差的數值上則可以判斷出各個自變數的重要性,進而比較自變數所代表的不同假設的適用性。對此,作者聲稱,他可以讓回歸分析的係數與真實情況恰好相反,從而讓這兩個誤解不攻自破。

二、 不可能的實例?

為了證明自己所言非虛,作者構建了如下這個數據集:

其中,x1和x2是真正的解釋因素。直觀可見,x1對因變數y的效應有著輕微的非線性特點。z是有關x1的某種函數,即z = f (x1),函數圖像如下:

不難發現,y = z + 0.1x2,可見因變數可以完美地被自變數解釋,而且呈現一種非常簡單的線性關係。顯然,這種情況下R2=1。

根據統計學原理,我們可以將等式改寫成回歸方程:y= α + β1z + β2x2 + u。無疑,此時的回歸結果為:?α = 0,?β1= 1,?β2 = 0.1,R2=1。然而,真正的解釋因素是x1和x2 ,因此,完整的回歸方程是:y = α + β1f(x1)+β2x2 + u 。根據此前的兩個「偽定理」,所有的自變數和控制變數都已經放入模型,回歸分析的結果應當是準確而理想的。事實真的如此嗎?作者分別對x1、x2以及兩者同時進行了回歸,結果如下(括弧內為標準差):

從參數來看,這三個模型的R2和顯著性(t檢驗)都尚可,然而對比原方程y = z + 0.1x2 ,作者有了驚人的發現!最終模型中,x2的影響效應被放大了28倍,而且係數由正變負!

作者強調,這種錯誤並不是由樣本數量和隨機誤差造成的,假如對錶1進行反覆抽樣並生成新的大數據集,其運算結果最終也是如此。由此可見,這種「垃圾桶回歸」不僅「無腦」,而且非常危險,有可能會嚴重誤導社會科學的發展。

三、 很絕望,能怎麼辦?

社會科學中的許多變數之間都有著或多或少的非線性關係,在不廢除線性回歸分析的前提下,我們該如何避免上文中的嚴重謬誤呢?作者認為首先應當訴諸規範的理論模型。研究者如果熟悉既有的相關理論,那麼他對於何處可能出現非線性關係應該瞭然於胸,因此就不該將所有的疑似變數都「扔」進回歸模型。在此基礎上,研究者應當在回歸分析前仔細的檢查和判斷數據的真實趨勢。

以上文的數據集為例,作者畫出了因變數之於兩個自變數的散點圖:

顯然,這兩個自變數對於因變數而言都有輕微的非線性效應,因此肯定不能直接將它們放入回歸模型。作者接著對這三個變數進行了交叉列表分析:

結果表明,當x1取值固定時,x2的變化會導致y發生同等比例的變化。然而當x2取值固定時,x1對y的影響卻較為混亂。因此,非線性的關鍵問題在x1 。在這種情況下,作者嘗試了許多非線性的模型(對數、指數、二次),擬合效果仍然不好。最終,作者將x1取值的中間三類設定為啞變數,才最終解決了問題。

作者指出,z = f (x1)貌似幫助我們更好地理解了自變數,但由於我們沒有深究f的具體含義,這個等式事實上就已經為此後的謬誤埋下了伏筆。對於兩個自變數的回歸分析已經如此大費周章,那麼將一堆變數「扔」進回歸模型無異於對研究者時間的謀殺。由於二分變數的信息噪音更多而有效信息更少,Probit和Logit模型將比常規線性回歸更為難解。因此,作者斷言,真正謹慎的政治科學研究不能多於三個自變數。

四、回歸分析的正確打開方式

作者指出,統計工具對於社會科學研究確實是必不可少而又至關重要的。然而,研究者在使用統計工具時往往會本末倒置:他們只關注運算結果中的係數與顯著性,卻忽視了模型設定本身的正當性。在回歸分析之前,研究者必須回顧既有的規範理論,並仔細查驗數據的真實趨勢。

作者強調,當研究者發現自己不得不將一堆數據都「扔」進回歸模型以「控制變數」時,那麼很可能是數據本身的同質性出了問題:研究者極有可能把不同類別的觀測值混在了一起。對此,研究者必須把觀測值進行有意義的再分類。龐大而繁雜的回歸列表雖然漂亮,但在同質性基礎上的小而精的統計分析才是科學進步的真正基石。

這篇文章對於定量研究的初學者而言無異於一記警鐘,相信很多童鞋和小編一樣都曾是「扔」變數、「跑」回歸的擁躉,讀完之後是不是出了一身冷汗呢?然而,小編認為,「發現可能的關係」是「準確測量效應」的基礎,因此實驗性地「跑」回歸併非完全不可取,但最終呈現的模型則一定要經得起考驗。對於這個話題,讀者朋友們是不是也有很多想法不吐不快呢,歡迎大家踴躍拍磚。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 翻譯教學與研究 的精彩文章:

寫給想做翻譯的同學們,怎樣找活兒
雙語發展的跨語言影響
組塊:認知與語言理解
澳大利亞英語的特點
李零:國粹多是國渣

TAG:翻譯教學與研究 |

您可能感興趣

這些線性人物看著乾淨,其實畫起來真的難!
關於線性素描的各種疑問,看完你就懂了!
為何蘋果手機的觸控反饋這麼好!線性馬達綜合對比一看你就知道!
線性代數被高數感染,也開始變…了
哪個才是解決回歸問題的最佳演算法?線性回歸、神經網路還是隨機森林?
單色線性,差別的拼接組分解不一樣的圖案元素
多種因素可引發光線性皮膚病,了解下,這小招可以解決
三部非線性敘事的好電影,每一部都是良心劇,送給「片荒」的你
魅族16手機怎麼樣?採用橫向線性馬達,震感反饋非常不錯
這一次,我們來深入聊聊線性馬達和智能手機的觸覺反饋
該如何理解非線性波動的開放系統,這個概念
你的線性代數魔法書,極度易吸收:想讓圖像怎麼動,它就怎麼動
BP不用算梯度,這樣的線性反向傳播也能Work!
平行宇宙是否存在,時間是否只是一維線性的?
深度解析線性速寫應該怎麼用線?
手機線性馬達有什麼特點?為什麼大家對它的稱讚都是連聲叫好!
在數據手冊中也不會發現的線性穩壓器的五個設計細節!
既優雅又個性的女孩,都有一對金屬線性耳環
高等數學、線性代數、概率論、幾何這些知識可以用來幹什麼?
堆數量,不如拼質量?延續的雙線性揚聲器?