當前位置:
首頁 > 最新 > 傾向匹配分析深度

傾向匹配分析深度

有很多現象和關聯似乎顯而易見,然而證明這些「簡單」的現象和關聯的過程,可能極其消耗人力和物力。在20世紀30年代之前,匹配法(也稱控制法)在因果研究中佔據了壓倒性的地位,科學家認為只有將實驗組和對照組的所有情況都儘可能接近,才能兩組間的差異是否歸於處理因素。但是,在要讓實驗組和對照組之前的特徵(混雜)儘可能匹配,不僅難以操作,而且會消耗大量資源,尤其在很多情況下,很多因素是試驗者難以去控制的。

隨機化概念的起源

在伊利諾伊大學的莫柔地塊(University of Illinois , Morrow Plots),Fisher通過「分割地塊實驗」(( Split-Plot Experiment ),成功證明了一個在今天看來可能極其簡單,但卻耗費了幾代科學家上百年努力的結論:土壤的質量是農業生產率最關鍵的決定因素(Soil quality is a vital component of agricultural productivity)。並開拓了如今廣為人知的方差分析(ANOVA),將隨機實驗法納入了因果分析的殿堂,成為因果分析的金標準。

為什麼要做傾向值分析

在衛生領域,隨機臨床試驗(RCT)是應用隨機實驗法最典型的例子。為了證明某種處理(或因素)的作用,將研究對象隨機分組並進行前瞻性的研究,可以最大程度上確保已知和未知的混雜因素對各組的影響均衡,闡明處理因素的真實效應。但RCT對研究對象嚴格的納入和排除標準,無疑會影響研究結果的外推,同時費用和組織困難問題很多時候都是讓人難以承受的。此外,很多研究問題無法做到隨機,甚至有些情況下的隨機是違反倫理道德的。

而非隨機對照研究(如觀察性研究和非隨機干預研究)能夠較好地耐受RCT中存在的問題,在實際應用中更為廣泛。如何利用非隨機化研究的資料探究因果,一直是流行病學和統計學研究中非常關注的問題。傳統的控制混雜的方法如分層、匹配等控制的混雜因素有限,多因素分析的方法在概念上「控制了其他因素,探究某一因素的影響」,依然無法控制混雜因素所導致的偏性。在這種情況下,傾向值分析(Propensity score analysis)的理論和實踐不斷豐富,並在流行病學、經濟學、社會科學等領域得到廣泛應用。

舉一個簡單的例子。我們常認為重點學校的對於學生學習能力的提升是優於一般學校的。如果把學校類型視為處理因素,而結局指標為入學後成績的改變數。那麼不同學校間學生成績改變數的差異,究竟是因為學校不同(處理因素,簡單理解為師資、設施等條件的綜合),還是因為考入重點學校的學生,本身就比一般學校的學生更聰明,更勤奮,家長的受教育水平更高,對教育的投資更大(混雜因素)?如果控制這些混雜因素以後,學校對成績的影響,是否就會發生很大變化?學生進入何種學校學習(接受不同處理)的概率是不同的,受到了很多因素的影響,而這些因素同時可能也會影響結局,導致分析處理效應時的偏性。

傾向值就是研究的個體在一定可觀測到的協變數(混雜)存在的情況下,接受某種干預的可能性。而傾向評分析,就是利用傾向值從對照組中為處理組中的每個個體尋找一個或多個背景特徵相同或相似的個體作為對照,使兩組的混雜因素的分布也趨於均衡,實現類似於隨機化設計中的隨機分配干預的目的。

傾向值分析的步驟

經典的傾向值分析主要包括以下3步(上圖來自推薦書目1,P85)

1. 尋找最佳的協變數,構建估計傾向值的模型。

模型的因變數為是否接受處理,自變數通常是同時影響處理因素和結局的變數(混雜),或是在干預組和對照組之間分布不均衡的變數。傾向值的模型以logistic回歸模型最為常見,構建理想的傾向值模型和以是否接受處理為因變數,找到最恰當的自變數組合的logistic回歸其實在原理上幾乎是完全一致的。模型係數的假設檢驗、擬合度、逐步法篩選變數等,此外,一種較新的自動選擇的演算法一般加速建模(GBM)法也可用於選擇變數和構建模型。

通過構建的模型,可以計算出每個研究對象的傾向值評分,它代表了研究對象接受處理的可能性。因此,具有相同傾向值的研究對象,在模型中的協變數是均衡可比的(而並非取值上完全一致)。

2. 匹配

根據傾向值的結果,從對照組中選擇1:M個傾向值接近的個體與處理組匹配。如果處理組和對照組在協變數的分布上差別較大,則傾向值的分布也會差別較大,所以有了共同支持域(common support)的概念(下圖,推薦書目1,P97)。共同支持域可以理解為處理組和對照組傾向值得分相同的範圍,在共同支持域內的進行匹配,可能兩組間協變數的分布更均衡(涉及到演算法的選擇和設置等問題)。匹配的演算法有有Nearest Neighbor Matching(最鄰近匹配)、Full matching(完全匹配)、精確匹配(Exact Match)、Optimal matching(最優匹配)等。其中Nearest Neighbor Matching 和Optimal matching較為常用。不同演算法各有優劣,實際應用中一般選擇可以使匹配後的處理組和對照組協變數均衡,且研究對象丟失不多的演算法。

3. 匹配後分析

包括分層分析和多元分析等,不同研究採用的方法差別較大,可參照和自己方向類似的文獻。

傾向得分匹配的命令

研究某項治療、政策、或者其他事件的影響因素上很常見。對於經濟、金融學領域來說,比如需要研究某個勞動者接受某種高等教育對其收入的影響,或者比如研究某個企業運用了某項管理層激勵措施以後對企業業績的影響。如果我們簡單地將是否執行了某項時間作為虛擬變數,而對總體進行回歸的話,參數估計就會產生偏誤,因為在這樣的情況下,我們只觀察到了某一個對象他因為發生了某一事件後產生的表現,並且拿這種表現去和另一些沒有發生這件事情的其他對象去做比較。這樣的比較顯然是不科學的,因為比較的基礎並不同。

通俗地說,我們真正要做的是考慮,如果拿小明來說,小明讀了研究生和小明沒有讀研究生,他的收入會差多少?可是小明已經讀了研究生,我怎麼才能估計出他要是不讀研究生,他的收入會是多少呢?

於是,我們引入「傾向得分匹配」這樣一種研究方法。英文叫Propensity Score Matching。這種方法能讓我們從一大堆沒有參加培訓的人群中(也就是我們的總體樣本的一個子集),對每個人讀研究生的概率進行估計,然後選出和小明具有非常相似的去讀研究生的概率,可是沒有去讀的同學小剛——作為小明的對照,然後再來看他們的區別。當樣本中的每個研究生」小明「都找到了匹配的非研究生」小剛「,我們便能對這兩組樣本進行比較研究了。

1. 所以第一步,我們要對總體樣本執行probit或者logit模型,然後估計出每一個觀測對象讀研究生的概率是多少。以probit模型為例,在stata中,執行以下命令:

probit [dependent var] [independent var]

其中,[dependent var]是一個0或1的二進位變數,1代表該對象讀了研究生,否則是0。

2. 對每一個觀測值,我們根據估計出來的probit模型,算出他讀研究生的概率是多少。Stata中,執行如下命令:

predict pscore, p

其中,pscore是定義的記錄每個觀測對象概率的變數名稱。

3. 使用psmatch2命令,讓Stata幫你對於每個讀了研究生的觀測對象,找出一個與之具有最接近的概率值的,可是沒有讀研究生的觀測對象:

psmatch2 [dependent var], pscore(pscore) noreplacement

其中,(pscore)是在第二步中生成的那個記錄對象概率的變數,noreplacement是一個選項,使得任何讀了研究生的觀察對象的對照對象都具有唯一性,換言之,只能1對1匹配。

4. Stata會在你的數據中自動添加幾個變數,其中_id是自動生成的每一個觀測對象唯一的ID;_treated表示某個對象是否讀了研究生,如果讀了,_n表示的是他被匹配到的對照對象的_id;_pdif表示一組匹配了的觀察對象他們概率值的差。

做好了這些,你就完成了一個最簡單的1對1的傾向得分匹配。psmatch2還提供多種匹配方法,比如在一定的半徑範圍內的臨近匹配、在一定概率閥值內的全部匹配等等。具體的可以在Stata中輸入help psmatch2查看所有可用的選項。

傾向得分匹配的理論

傾向得分匹配的理論框架是「反事實推斷模型」。「反事實推斷模型」假定任何因果分析的研究對象都有兩種條件下的結果:觀測到的和未被觀測到的結果。如果我們說「A是導致B的原因」,用的就是一種「事實陳述法」。而「反事實」的推斷法則是:如果沒有A,那麼B的結果將怎樣(此時,其實A已經發生了)?因此,對於處在干預狀態(treatment condition)的成員而言,反事實就是處在控制狀態(condition of control)下的潛在結果(potential outcome);相反,對於處在控制狀態的成員而言,反事實就是處在干預狀態下的潛在結果。顯然,這些潛在結果是我們無法觀測到的,也就是說,它們是缺失的。

PSM介紹

傾向得分匹配的理論框架是「反事實推斷模型」。「反事實推斷模型」假定任何因果分析的研究對象都有兩種條件下的結果:觀測到的和未被觀測到的結果。如果我們說「A是導致B的原因」,用的就是一種「事實陳述法」。而「反事實」的推斷法則是:如果沒有A,那麼B的結果將怎樣(此時,其實A已經發生了)?因此,對於處在干預狀態(treatment condition)的成員而言,反事實就是處在控制狀態(condition of control)下的潛在結果(potential outcome);相反,對於處在控制狀態的成員而言,反事實就是處在干預狀態下的潛在結果。顯然,這些潛在結果是我們無法觀測到的,也就是說,它們是缺失的。

我們假定有N個個體,每一個處在干預中的個體i(i=1,2,,N)都將有兩種潛在結果(),分別對應著未被干預狀態和干預狀態中的潛在結果。那麼對一個個體進行干預的效應標記為,表示干預狀態的潛在結果與未乾預狀態的潛在結果之間的差,即:

令表示接受干預,表示未接受干預,同時表示所測試的結果變數。那麼反事實框架可以表示為以下模型:

該模型也可以表示為:

這個模型表明,兩種結果中的哪一種將在現實中被觀測到,取決於干預狀態,即D的狀態。用ATT(Average treatmenteffect for the treated)來測度個體在干預狀態下的平均干預效應,即表示個體i在干預狀態下的觀測結果與其反事實的差,稱為平均干預效應的標準估計量,

很明顯,反事實是我們觀測不到的,所以我們只有使用個體i在未乾預狀態下的觀測結果作為替代來估計個體在干預狀態下的潛在結果——反事實。所以,給公式可以進一步表示為:

顯然,這裡需要到數據的隨機性了。在實驗數據中,個體是隨機分配(random assignment)的,所以個體的所有特徵在干預組和控制組之間是相等,也就無需考慮用作為替代對反事實進行估計時存在的偏差了,這裡稱為選擇偏倚,換句話說,實驗數據能夠確保數據的選擇偏倚為0,所以實驗設計中,隨機性能保證干預組和控制組之間的數據平衡。而對於觀測數據,往往由於缺乏隨機性,而導致干預組和控制組不僅僅在干預統計量上存在不同,還在第三方變數X(這個變數是可觀測的)上存在區別。這時,我們必須要考慮到這些區別以防止出現潛在偏倚。

這時就要採用匹配的方式進行干預效應分析。匹配的目的在於確保干預效應估計是建立在可比個體之間的不同結果的基礎上。最簡單的匹配方式是將干預組和控制組中第三方變數X的值相同的兩個個體進行配對分析。但是,如果X並不是某一個變數,而是一組變數時,最終簡單的匹配方式也就不再適用,而是採用傾向得分匹配方式進行匹配。

最簡單匹配方法的幾個假設:

條件獨立假設(conditionalindependence assumption or CIA):給定X後干預狀態的潛在結果是獨立的,換句話說,控制住X之後,干預分配就相當於隨機分配。

共同支撐條件(common support condition):

對於X的每一個值,存在於干預組或控制組的可能性均為正,即

同時,第二個要求稱為覆蓋條件,即匹配組變數X需要在干預組和控制組上有足夠的覆蓋,即處理組每一個個體在控制組中都能找到與之匹配的X。

若X只有一個變數,則對於給定的X=x,ATT(x)的表達式為:

顯然,X只有一個變數時,干預組和控制組針對X的匹配標準是清晰的:對於干預組個體和控制組個體,他們的X變數的值越近,這兩個個體的特徵也就越相似。

但,如果X不再只是一個變數,而是一組變數時,所謂「近」的判斷標準也就變得模糊起來。針對這個問題,Rosenbaum and Rubin (1983)解決了維度問題,並證明了如果基於X相關變數的匹配是有效的,那麼基於X變數組的傾向得分的匹配也將同樣有效,從而奠定了PSM的理論基礎。

這裡,傾向得分是通過logist回歸獲得的,從而將X由多維降到了一維的水平。所以傾向得分中包含了X中所有變數的信息,綜合反映了每個個體X變數組的水平。顯然,傾向得分匹配的優勢很明顯——降維,它由單個變數(傾向得分)對個體進行匹配來代替了X所有變數為基礎對個體進行匹配。

同樣的,PSM的主要定理總結為以下幾點:

定理一,傾向得分p(X)是一個平衡得分。有著相同傾向得分的兩組個體之間的特徵顯然是平衡的。

定理二,如果條件獨立假設依舊成立,那麼潛在結果在傾向得分的條件下也將獨立於干預狀態。也就是說,只要向量X包含滿足CIA的所有相關信息,那麼傾向得分的條件作用也就等價於向量X中所有變數的條件作用。

所以,PSM的ATT(x)的表達式為:

為了估計ATT,需對p(X)在干預上的條件作用的分布取平均:

PSM的步驟

計算傾向值(採用logistic回歸)

進行得分匹配

得分匹配的幾種方法:

(1)最鄰近匹配(Nearest neighbor matching, NNM)(是否使用卡尺 with or without caliper)

以傾向得分為依據,在控制組樣本中向前或向後尋找最接近干預組樣本得分的對象,並形成配對。

(2)半徑匹配(Radius matching)

設定一個常數r(可理解為區間或範圍,一般設定為小於傾向得分標準差的四分之一),將實驗組中得分值與控制組得分值的差異在r內的進行配對。

(3)核匹配(Kernel Matching)

將干預組樣本與由控制組所有樣本計算出的一個估計效果進行配對,其中估計效果由實驗組個體得分值與控制組所有樣本得分值加權平均獲得,而權數則由核函數計算得出。

評定匹配後的平衡性

計算平均干預效果(ATT)

進行敏感性分析

推薦書籍與文獻

傾向值分析方法相對較新,近年來很多方法也發展迅速,本文只對起源和主要步驟進行介紹。在模型和演算法選擇,匹配後處理等方面有諸多細節,有需要的可以參照下列書目。

1.《傾向值分析:統計方法與應用》

對傾向值分析的起源、原理、應用和示例做了詳細的介紹,並提供了數據和軟體代碼(Stata)。該書為譯文,英文著作已在2014年推出第版《Propensity Score Analysis: Statistical Methods and Applications 2nd Edition》,對新的方法進行了更新,內容也更豐富,應該是目前關於傾向值分析最詳細的教材。第二版的數據和代碼見:http://ssw.unc.edu/psa/home

2. Randolph J J, Falbe K, Manuel A K, et al. A Step-by-StepGuide to Propensity Score Matching in R.[J]. Practical Assessment Research & Evaluation, 2014, 19.

R軟體MatchIt包的簡易教程,對結果的講解較詳細,可實現常用傾向值分析的功能。

3. MatchIt: Nonparametric Preprocessing for Parametric Causal Inference

R軟體MatchIt包教程的詳細版,對參數設置和原理進行了解釋,並提供操作的語法示例。

4. 黃福強,杜春霖,孫夢輝,等. 傾向評分配比在SPSS軟體上的實現[J]. 南方醫科大學學報,2015,(11):1597-1601.

@計量經濟學圈

記錄一個我們生活在其中的時代社會,一個非常具有潛力的深度與客觀兼具的大號,囊括的主題如下:經濟、社會、歷史、新聞、世界、計量工具。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 計量經濟學圈 的精彩文章:

政策效應評估的四種方法

TAG:計量經濟學圈 |

您可能感興趣

關於抑鬱症的深度分析
深度分析VR頭顯解析度:渲染、失真與校正
泡茶好水深度分析
白羊座的深度分析
人像攝影深度攻略!7個方面深度解析關鍵要素
深度解析——數據分析是什麼!
深度分析:刀塔傳奇80級以後競技場陣容搭配
全球刻蝕設備市場深度分析與解讀!
深度分析:南紅未來的價值高度
深度解度投影顯示技術
冠軍作品,深度分析
深度理解景深
度量(深度好文)
分散式深度學習新進展:讓「分散式」和「深度學習」真正深度融合
深度分析隱居的諸葛亮為什麼深解大局
關於藏南問題最有深度的分析
一周深度好文分享
《分寸》深度好文
人說話音量與修養關係—深度分析
緣分的秘密(深度好文)