政策效應評估的四種方法

最新 07-04

利用非實驗數據進行微觀政策效應評估

1．工具變數法

標準的計量經濟學提供了一種處理內生性問題的方法———IV 法。

Ehrlich( 1975，1977 ) 運用時間序列數據和截面數據就美國執行死刑對降低謀殺率的影響進行的研究具有典型性。Ehrlich認識到謀殺率與死刑執行率之間的雙向因果關係，並試圖應用IV來解決其內生解釋變數和遺漏解釋變數的問題。他選擇了此項政策支出的滯後量、總的政府支出、人口、非白人比例等變數作為IV，但並沒有解釋為什麼這些變數是好的 IV，所選出的這些 IV 與內生的解釋變數之間又具有怎樣的關聯。直至 Ehrlich( 1987，1996) 的研究出版，其選擇 IV 的考慮及相關的因果識別問題才得到詳細的闡述。Angrist ( 1990) 和 Angrist 等( 1991 ) 分別用 IV 研究了參加越戰對老兵收入的影響和教育背景對收入的影響，從而充分顯現了運用 IV 進行因果推斷的價值。 Card 等( 1992a，1992b) 將學生的出生州與出生隊列作為 IV，研究了教育投入對教育質量的影響，從而使得教育產出、教育質量領域的研究出現了重大轉折。Bound 等( 1995) 指出了 Angrist 等． ( 1991) 研究中存在的弱工具變數的問題，從而將 IV 的效率問題以及 IV 的選取準則引入研究。此後，有關 IV 研究的理論問題都主要集中在如何尋找最優的工具變數上。

工具變數法是一個相對簡單的估計方法，但是有兩個重要的缺陷:

( 1 ) 工具變數的選擇問題。在政策評估問題中，要找出滿足條件的工具變數並不容易。在實踐中，尤其是當縱向數據和政策實施前的數據可以獲得時，研究者多使用因變數的滯後變量作為工具變數。但是，這同樣會引發相關性，並不能從根本上解決問題。

( 2 ) 如果個體對於政策的反應不同，只有當個體對政策反應的異質性並不影響參與決策時，工具變數才能識別 ATT、ATE。但這是一個很強的假定，有時研究者不得不假定非理性，或者忽略研究對象的異質性 ( Heckman， 1997) 。

2．斷點回歸

RD是一種類似於隨機受控實驗的准實驗法。

它的主要思想是: 當個體的某一關鍵變數的值大於臨界值時，個體接受政策干預; 反之，則不接受政策干預。一般而言，個體在接受干預的情況下，無法觀測到其沒有接受干預的情況。而在 RD中，小於臨界值的個體可以作為一個很好的控制組來反映個體沒有接受干預時的情況，尤其是在變數連續的情況下，臨界值附近樣本的差別可以很好地反映干預和結果變數之間的因果聯繫，進而計算出 ATE、ATT 等政策效應變數。

RD 最早是由美國西北大學的心理學家 Campbell 於 1958 年首先發展設計出來的，但一直沒有得到廣泛的應用。Hahn 等( 2001) 為斷點回歸的模型識別和模型估計進行了嚴格意義上的理論證明，並提出了相應的估計方法。自此之後，RD 在經濟學上的應用才開始盛行。到目前為止，對這一方法的研究成果還主要集中在勞動經濟學領域。國內學者運用 RD 進行分析的研究還比較少見，余靜文等( 2010a) 研究了城市圈所產生的集聚效應、輻射效應，考察了其對地區收入差距的影響; 余靜文等( 2010b) 還使用該方法考察了城市圈對區域經濟績效的影響，發現城市圈產生的輻射效應和政府治理結構轉變所帶來的效應會促進城市圈區域的經濟發展。

RD是一種類似於隨機實驗的方法，也是准實驗方法中最具有可信性的方法。Lee( 2008 ) 認為在隨機實驗不可得的情況下，斷點回歸能夠避免參數估計的內生性問題，從而真實反映出變數之間的因果關係。RD 方法應用的關鍵假設是要求在斷點附近的個體的特徵相同，這一假設可以通過統計分析得到檢驗。由此可見，RD 的吸引力不僅在於它的實驗性，還在於它的因果推斷可以方便地得到檢驗。

3．雙重差分

近年來，DID在政策評估研究得到了廣泛應用。 DID 處理選擇偏差的基本思想是: 允許存在不可觀測因素的影響，但假定它們是不隨時間變化的。

假定不可觀測因素 Uit 可分解為 Uit = φi + θt + μit ，其中 φi 是個體固定效應，不隨時間變化; θt 是個體所處的共同的環境帶來的效應，對於所有個體而言都相同; μit 是個體時點效應。DID 假定實驗組和控制組在研究的區間內具有相同的個體時點效應，也就是說 μit 相同，因此通過對截面單位在項目實施前後的結果取差值，就能排除 φi 、θt 的影響。反之，若在政策實施條件下，個體時點效應 μit 不相同，則 DID 就不再是一致估計量。

應用 DID 評估政策效應的基本步驟是利用面板數據建立雙固定效應模型並估計參數:

Yit = β0 + β1Tit + β2Ait + β3Tit Ait + εit

其中，Tit = 1 表示實驗組對象，反之則表示控制組對象; Ait = 1 表示政策實施後的區段，反之亦然; Tit Ait 是交叉項，其係數 β3 表示實驗組對象在接受政策後結果變數的變動程度，反映了政策變動的效應，是目標變數。參數 β1 表示沒有政策干預時，實驗組與控制組的經濟行為如何隨時間變動，而參數 β2 則反映實驗組和控制組中任何不隨時間變動的差異。應用 DID 評估政策效應的一個關鍵假設是: 當不存在政策干預時，β3 = 0 ，這一假設只有在實驗組與控制組性質非常接近時才是合理的。表 1 概括了 DID 方法的基本原理。

Heckman等( 1985，1986) 最早提出使用 DID 方法對社會公共政策的實施效應進行評估，此後對 DID 方法的研究和應用成果層出不窮，典型的有: Card 等( 1990，1994 ) 對移民政策、最低工資制度對工資和就業的影響進行了研究; Puhani( 2000 ) 對波蘭 1991 年實施的失業救濟政策改革對失業持續期的影響進行了評估; Stewart ( 2004 ) 對英國 1999— 2001 年引入的最低工資制度對就業的影響進行了評估;

Donohue 等( 2005 ) 發現美國與加拿大的謀殺率之間具有相同的變化趨勢，從而以取消死刑的加拿大作為控制組，評估了美國恢復死刑制度對降低謀殺率的影響，結果表明美國執行的死刑政策並未對社會謀殺發生率起到遏製作用; Chen 等( 2008) 使用中國 2000 個家庭的數據對世界銀行發展項目的效應進行了評估。

國內學者近年來也開始運用 DID 方法對政策效應進行評估，主要的研究有: 周黎安等( 2005 ) 就農村稅費改革對農民收入增長所產生的影響進行了評估; 朱寧寧等( 2008 ) 對我國建築節能政策的實施效應進行了評估; 黃清( 2009 ) 對 2002—2005 年電力行業放鬆規制的政策效應進行了實證檢驗和研究; 劉生龍等( 2009) 評估了西部大開發對於西部地區經濟增長及中國區域經濟收斂的作用; 聶輝華等 ( 2009 ) 使用全國層面的企業數據，胥佚萱等 ( 2011) 使用上市公司數據分別對 2004 年開始在東北地區實行的增值稅轉型政策的影響進行了研究; 俞紅海等( 2010) 基於上市公司數據，對股權分置改革的有效性進行了實證分析; 李楠等( 2010 ) 利用中國工業行業數據，對國有企業改革的績效進行了評估。

DID 方法允許不可觀測因素的存在，而且允許不可觀測因素對個體是否接受干預的決策產生影響，從而放鬆了政策評估的條件，使得政策評估的應用更接近於經濟現實，因而應用更廣。但是，研究者在應用中也應該充分認識到 DID 方法的局限性:

( 1) 數據要求更加苛刻。DID 方法以面板數據模型為基礎，不僅需要橫截面單位的數據，還需要研究個體的時間序列數據，特別是政策實施前的數據。因此，相比於 Matching，DID 方法要求更多的數據。

( 2) 個體時點效應 μit 未得到控制。DID 要求很強的識別假設，它要求在政策未實施時，實驗組和控制組的結果變數隨時間變化的路徑平行，這一假設並沒有考慮個體時點效應 μit 的影響。由於 μit 的影響，在項目實施前後，實驗組和和控制組個體行為的結果變數並不平行，此時應用傳統的 DID 方法就會出現系統性誤差。

( 3) 未考慮個體所處的環境對個體的不同影響。

DID 方法假定環境因素的衝擊對處於相同環境中的個體會產生相同的影響，即 θt 對所有個體都相同。但實際中，實驗組和控制組個體可能因為某些不可觀測因素的影響，使得其在面臨相同的環境因素的衝擊時做出不同的反應，此時 DID 的應用就會出現問題。

針對以上問題，國外學者在使用DID的過程中，逐步對其進行了擴展，擴展的方向主要有兩個: 一是考慮 DID 中未控制的因素，從而進一步放鬆其應用條件; 二是將 DID 與 Matching 等其他政策評估方法結合起來，提出新的估計量。比如: Bell 等 ( 1999) 考慮了個體所處的環境對個體的不同影響，提出了經趨勢調整的估計量; Heckman 等( 1997 ) 提出了「條件 DID」這一新的估計量 ( conditional DID estimator) ，將 Matching 與 DID 方法結合起來應用，不僅能大大降低選擇偏差，且結果更為可信。但不容忽視的是，條件 DID 仍要滿足「共同支撐域」假定。

4．傾向匹配方法

匹配是一種非實驗方法，是對於一些沒有采用或不方便採用實驗方法區分實驗組和控制組的數據采用的一種近似實驗的方法。匹配方法假定，控制協變數之後，具有相同特徵的個體對政策具有相同的反應。換句話說，不可觀測因素不影響個體是否接受政策干預的決策，選擇僅僅發生在可觀測變數上。因此，對每一個實驗組個體而言，可以根據可觀測特徵為其選擇一個控制組個體構成反事實。

在實證分析中，根據選擇控制組時匹配方法的不同，Matching 又可分為協變量匹配 ( covariant Matching，CVM) 和傾向得分匹配 ( propensity score matching，PSM) 等。其中，CVM 涉及多個協變數，會導致「維度災難」、計算過於複雜等問題。Rosenbuam 等( 1983) 指出，如果協變數能使得條件獨立假設 ( conditional independence assumption，CIA) 成立，那么傾向得分( propensity score，PS) 作為協變數的一個函數，當然也能使得 CIA 成立。通過將協變數中蘊含的信息轉移至 PS 中，PSM 可以克服 CVM 的劣勢，成功降維，從而在實踐中應用更多。

Rusenbaum 等( 1983 ) 提出的利用 PSM 來消除混雜因素所引起的偏差，在提出之初並沒有受到很大關注，但是近些年被廣泛應用於醫藥、經濟、政策評估等領域，成為政策效應評價中最常用的方法。 Perkins 等( 2000) 討論了此方法在流行病藥效學上的應用，Gilligan 等( 2007 ) 對在衣索比亞農村實施的應急食品救援政策的效應進行了評估，Sandra 等( 2009) 對法國的一項再就業培訓項目的效應進行了評估。國內學者近年來也開始運用 PSM 方法對社會公共政策的效應進行評估。陳玉萍等 ( 2010) 運用 PSM 方法研究了滇西南山區改良陸稻技術的採用對農戶收入的影響，解決了應用傳統方法分析農業技術效應時，因農戶技術採用存在的自我選擇而帶來的因果乾涉問題; 李佳路( 2010 ) 運用 PSM 方法，采用 S 省 30 個國家開發重點縣2009 年的農村貧困監測數據，對扶貧項目的減貧效應進行了評估。

PSM 作為非參數方法，不需要對可觀測因素的條件均值函數和不可觀測因素的概率分布進行假設，因而相比參數方法具有優勢。但是，PSM 也有局限性，主要表現為以下幾點:

( 1) 極強的前提假設。PSM 的應用必須滿足 CIA 和共同支撐域假定，這兩個假定合起來稱為「強可忽略性」假設。一旦違背這一假定，ATE 和 ATT 就會出現偏誤。Heckman 等( 1997 ) 通過假設檢驗表明當「強可忽略性」假定不滿足時，不宜應用 PSM 的方法對政策效應進行評估; Heckman( 2008 ) 通過理論分析認為當存在未觀測到的混雜因素時，PSM 方法不僅不能消除系統誤差，反而會帶來新的偏差; 劉鳳芹等( 2009) 運用蒙特卡羅模擬實驗的結果也表明 PSM 對強可忽略性假設非常敏感，即使是輕度的違背，PSM 的估計結果偏差也超過 50% ; Kannika 等( 2010) 運用實際數據，對比參數方法與 PSM 方法的結果，進一步驗證了 PSM 的應用需要滿足「強可忽略性」假定。

( 2) 不能為所有的實驗組個體找到控制組個體。匹配方法僅能為處在共同支撐域上的個體找到合適的對照個體。如果對於不同個體而言，處置效應是同質的，那麼共同支撐域的假定不會對政策效應的大小造成影響; 反之，如果處置效應是不同質的，共同支撐域的假定使得某些實驗組個體很難找到「反事實」，處置效應無法識別。換句話說，如果匹配過程損失了大量的觀察值，處置效應的估計量就僅在共同支撐域上具有一致性特征。在異質性響應中，如果實驗組個體的處置效應差別很大，估計出的 ATT 就不能代表政策的平均回報。

( 3) 數據量要求極大。Matching 方法往往應用於截面數據，為了保證條件獨立假設成立，需要盡可能多地搜集協變數信息，將混雜因素分離出來。同時，為了保證能找到與實驗組個體特徵最為接近的控制組，研究者也需要收集大量的個體數據，以保證結果的精度。

( 4) 結果的穩健性受到多種挑戰。PSM 方法計算得到的 ATE 或 ATT 的穩健性受到多種因素的影響，如干預分配機制方程的設定、匹配演算法的選擇等。劉鳳芹等( 2009 ) 運用蒙特卡羅模擬實驗的結果表明，PSM 對誤差項分布不敏感，對隱指標方程的誤設極為敏感; 在共同支撐域較小時，PSM 對具體匹配方法的選擇極其敏感。

綜上所述，Matching 的應用必須滿足很強的假設前提，並且要具有相當的數據量。如果研究者認為無法驗證強可忽略性假定，手頭的數據樣本又不夠大，就必須選用其他的政策評估方法，如 DID 和樣本選擇模型等，它們都明確允許有未被觀測到的混雜因素的存在。

參考文獻：

【1】.」Mostly Harmless Econometrics: An Empiricist.s Companion「Joshua D. Angrist

【2】HECKMANJJ．2008．Econometriccausality［J］．InternationalStatisticalReview，52:1-27．

【3】HECKANJ J，H I． 1997． Matching as an EconometricEvaluation Estimator: Evidence from Evaluating a JobTrainingProgramme［J］．TheReview of EconomicStudies，70:605-654．

【4】HECKMANJJ，ROBBR．1985．AlternativeMethodsfor EvaluatingtheImpactofInterventions//JAMESJHECKMAN，SingerB．LongitudinalAnalysisofLaborMarket Data．New York:Cambridge University Press:352．

@計量經濟學圈

記錄一個我們生活在其中的時代社會，一個非常具有潛力的深度與客觀兼具的大號，囊括的主題如下：經濟、社會、歷史、新聞、世界、計量工具。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 計量經濟學圈 的精彩文章:

TAG:計量經濟學圈 |

您可能感興趣

※評估水純度的四種測量方法
※生物分析方法中殘留效應和污染的評估與消除策略
※藝術品評估：評估目的比評估方法更重要
※緬甸琥珀的價格評估方法
※肝硬化出血的預防方法與評估
※困難氣道評估方法
※微生物法測定維生素的方法學評估
※評估供應商風險管理解決方案需要考慮這7個關鍵點
※免疫相關腫瘤反應評估標準
※自動化拆屏方案評估
※美歐「聯合」的真偽與效應評估
※態度：應對工作評估的6個策略
※重新評估傳播學研究方法的必要性
※劉強東性侵案移交檢方，評估時間難確定，警方稱無法確定是否起訴
※共同應對美國遏制？西方學者評估中俄進一步聯手可能性
※股指跨品種套利策略系列之後期策略及評估模型
※評估社會科學研究影響力的方法亟待更新
※評估RNA完整性和質量的新方法
※商務部：中方正在對美方可能採取的技術出口管制措施進行評估
※法軍方聘請科幻作家評估未來威脅中情局也這麼干過