內生性處理方法與進展,可以用叱吒風雲來讚歎
這篇文章是主要是講述計量回歸中的內生性問題以及處理方法和最新進展。
回歸模型的本意是給定x值,然後預測(或估計)y的條件均值。在給定的x值下,y值可能忽高忽低(即y是隨機變數),其變化程度也可大可小(即y有方差),但其條件均值是可以通過回歸方法來估計的。
至於y的條件方差,在只有一個固定的x值下是無法估計的(在重複測量樣本下也許可以做到,因為這時有多個固定相同的x值),所以只好簡單地假設對於任何給定的x,y的條件方差都是一樣的(即同方差假設),此時才可以通過多個樣本點來估計一個相同的方差,然後進行各種t檢驗、f檢驗。
通俗一點說,回歸的思想就是先抓住x,然後觀察y將如何變化。比如說居民收入r與消費c,先抓住1000元收入水平的消費群體,然後看他們將如何消費,c|1000是條件隨機變數(當然,實際數據中1000元水平的觀測可能只有一個);然後再抓住1500元收入水平的群體,再看他們將如何消費,依次類推。一般來說,隨著收入增長,消費的條件均值將同步增長,此時回歸關係成立。
但是,令我們苦惱的是,實際中很有可能是「無法抓住x」的,因為x在變,y也在變,然後y的變化又影響到了x,所以我們觀測到的結果,很有可能是x與y相互影響的結果;通俗一點說,就是x已經與y糾纏到了一起,你哪裡還能辨清哪是x,哪是y?
比如說收入與消費,可以說賺得多,花得也多,但錢花完了,又得想辦法去多賺點,這時收入與消費是相互影響的,你是無法"按住x"的。因為等你"按住x"了,去觀察y,y的變動回過頭來又造成了x的變化,你轉身一看,壞了,x已經不是原來那個x了,它已經變了!這個相互影響的過程,你是觀測不到的,你觀測到的只是結果。
所以在你觀測到實際數據的時候,x已經不是本來的x,x中混雜了y的信息。既然x已經不是本來意義上的x,你又如何去估計它對Y的真實影響?這就是我們通常所說的聯立性偏誤(simultaneity bias),即x與y是同時變動的。
這種情況下,x與回歸模型的誤差項表現為相關,違背了經典ols的假設。此時,你應該可以知道,你很難估計x對y的真實影響,即在經典回歸假設下,估計出的回歸係數是有偏的。這是造成內生性的情況之一。
還有可能是x在變,其他影響y的因素也在變(因為除了x影響y外,也有其他因素在影響y),但這些因素你沒有納入模型的解釋變數中,此時x與回歸模型的誤差項也表現為相關(因為遺漏因素的影響歸入了誤差項)。
此時,你如何能辨清y的變化,有多少是x造成的,又有多少是「其他因素」造成的?於是估計再次陷入僵局。這種情況的產生,需要兩個條件:一是x變化,其他因素也同時變化(x與其他因素相關),二是其他因素要能影響y(即其他因素要與y相關),這是造成內生性的情況之二。
註:這裡的部分材料來自連玉君在Stata大會上的Presentation。
《END》
※計量經濟學教科書,多門類多級別的一個都不能少
※尋數據背後的經濟思想,就03年諾獎一事的採訪
※似然比、沃爾德、拉格朗日三大檢驗,加格蘭傑因果推斷
※時間序列中的協整檢驗和VECM,以及回歸後的系列估計操作
※Chi-plot圖方法研究Contagion效應
TAG:計量經濟學圈 |