SPSS操作:輕鬆實現1:1傾向性評分匹配
談起臨床研究,如何設立一個靠譜的對照,有時候成為整個研究成敗的關鍵。對照設立的一個非常重要的原則就是可比性,簡單說就是對照組除了研究因素外,其他的因素應該儘可能和試驗組保持一致,這裡就不得不提隨機對照試驗。眾所周知,隨機對照試驗中研究對象是否接受干預是隨機的,這就保證了組間其他混雜因素均衡可比。
但是有些時候並不能實現隨機化,比如說觀察性研究。這時候傾向性評分匹配(propensity score matching, PSM)可以有效降低混雜偏倚,並且在整個研究設計階段,得到類似隨機對照研究的效果,想看實例趕快戳:隊列研究常用的傾向評分,到底是個啥?。與常規匹配相比,傾向性評分匹配能考慮更多匹配因素,提高研究效率。
這麼「高大上」的傾向性評分匹配,是不是超級難學?錯矣!今天就帶大家輕鬆搞定1:1傾向性評分匹配。作為「稀罕」大招,並不是在所有版本的SPSS都可以實現傾向性評分匹配,僅在SPSS22及以上自帶簡易版PSM,對於其他版本或者想要體驗完整版功能,就不得不去安裝相應的軟體(R軟體、SPSS R插件、PS matching插件。。。超級難安裝!那是需要運氣和耐心的!感興趣的小夥伴可以私聊~~~)。
本次使用SPSS22為大家演示1:1傾向性評分匹配。
一、問題與數據
某研究小白想搞明白吸煙和高血壓之間的關係,準備利用某項調查的資料進一步隨訪研究吸煙和高血壓的關聯,該項研究包括233名吸煙者,949 名不吸煙者。如果全部隨訪,研究小白感覺鴨梨山大,所以打算從中選取部分可比的個體進行隨訪。
這兩組人群一些主要特徵的分布存在顯著差異(見表1),現準備採用PS最鄰近匹配法選取可比的個體作為隨訪對象。
表1. 兩組基線情況比較(匹配前)
二、SPSS分析方法
1. 數據錄入
(1) 變數視圖
(2) 數據視圖
2. 傾向性評分匹配
選擇DataPropensity Score Matching,就進入傾向性評分匹配的主對話框。
將分組變數Smoke放入Group Indicator中(一般處理組賦值為「1」,對照組賦值為「0」);將需要匹配的變數放入Predictors中;Name for Propensity Variable為傾向性評分設定一個變數名PS;
Match Tolerance用來設置傾向性評分匹配標準(學名「卡鉗值」),這裡設定為0.02,即吸煙組和不吸煙組按照傾向性評分±0.02進行1:1匹配(當然,卡鉗值設置的越小,吸煙組和不吸煙組匹配後可比性越好,但是凡事有個度,太小的卡鉗值也意味著匹配難度會加大,成功匹配的對子數會減少,需要綜合考慮~~~);
Case ID確定觀測對象的ID;Match ID Variable Name設定一個變數,用來明確對照組中匹配成功的Match_ID;Output Dataset Name這裡把匹配的觀測對象單獨輸出一個數據集Match。
3. Options設置
Variable for Number of Eligible Cases設定一個變數,用來明確病例組中某一個觀測對象,在對照組中有多少個觀測對象滿足與其匹配的條件,比如說病例組有一個觀測對象PS=0.611,對照組可能有一個0.610,一個0.612。
Sampling默認為不放回抽樣。
Give priority to exact matches 優先考慮精確匹配,也就說病例組有一個觀測對象PS=0.611,對照組也應該找到一個0.611。
Maximize execution performance 執行最優化操作,即系統會綜合考慮精確匹配和模糊匹配(基於設定的卡鉗值範圍內匹配),系統默認勾選。
Randomize case order when drawing matches整個匹配過程中,如果對照組有多個滿足匹配條件的觀測對象,那麼SPSS會默認隨機將其與病例組觀測對象匹配。但是因為SPSS默認每次操作給對照組的隨機數字不同,所以如果不特殊設定,每次實際匹配成功的對子是不一樣的,也就說這一次對照組A匹配給病例組B,下一次就可能匹配給病例組C。所以需要自行設置,並且在Random Number Seed設定一個隨機數種子,確保匹配過程可以重複。
三、結果解讀
1. 匹配結果
表2以吸煙(1=吸煙;0=不吸煙)為因變數,以需要調整的變數為自變數構建logistic回歸模型(表2),求出每個研究對象的PS值。
表2. logistic回歸模型
表3顯示,精確匹配45對,模糊匹配114對,共計匹配成功159對。
表3. 匹配結果
表4主要是匹配過程。首先是精確匹配(即PS完全一致),匹配33663次,大約1%匹配成功;其次在精確匹配成功的前提下,進行PS的模糊匹配(PS±0.02,即最開始設定的卡鉗值為0.02),匹配33618次,大約3.3%匹配成功。
表4. 匹配容許誤差
2. 匹配後資料庫
輸出的數據集Match中出現之前設定的幾個新變數:E_case表示對照組中有幾個符合匹配條件的觀測對象(如圖,吸煙組ID=2,有2個對照組觀測對象符合匹配條件);PS是基於logistic回歸模型計算出的傾向性評分;match_id表示匹配成功的ID。
3. 資料庫整理
A. 篩選匹配成功的對子:選擇DataSelect CasesIf condition is satisfied:設定match_id≥1,篩選出匹配成功的對子Output中輸出新的數據集Analysis。
B. 確定匹配成功標識:match_id為吸煙組和不吸煙組相互匹配成功的ID,這裡將不吸煙組match_id變數轉換為ID變數,這時候相同的match_id即為匹配成功的對子。具體操作:將Analysis數據集中,不吸煙組match_id替換成ID編號:TransformCompute Variableif smoke=0, match_id=IDOK
C. 選擇DataSort cases按照匹配標識match_id排序(相同的match_id即為匹配成功的對子)OKSave(你的滑鼠手一定要點保存!!!)
傾向性評分匹配就搞定了,再來看看匹配情況。表5顯示,原吸煙組233例,最後共有159例匹配成功(這次我們限定PS≤0.02,但可根據實際情況選擇合適的限定,增加匹配成功數!),各匹配因素在兩組間都均衡可比。
表5. 兩組基線情況比較(匹配後)
四、總結和拓展
PSM一般分為三種類型:
1、PS最鄰近匹配:是PSM最基本的方法,即直接從對照中尋找一個或多個與處理組個體PS值相同或相近的個體作為配比對象。本次我們就採用的是這個方法。
2、分層PSM:PS最鄰近匹配儘管可以使協變數總體趨於平衡,但不能保證每個協變數分布完全一致。可以根據某個重要變數(如性別)分層後,分別對每層人群進行PS最鄰近匹配,然後再將配比人群合并,這樣就可以保證該重要變數在組間分布完全一致。
3、與馬氏配比結合的PSM:PSM與馬氏配比結合後可以增加個別重點變數平衡能力,實現過程比較複雜。
對於1:m PS匹配和與馬氏配比結合的PSM,目前SPSS22及以上版本自帶的PSM並不能實現,後面會介紹基於SAS軟體複雜傾向性評分匹配,敬請期待~~~
參考文獻
李智文, 張樂, 劉建蒙,等. 傾向評分配比在流行病學設計中的應用[J]. 中華流行病學雜誌, 2009, 30(5):514-517.
醫咖會微信:medieco-ykh
關注醫咖會,輕鬆掌握統計學!
有臨床研究設計或統計學方面的難題?快加小咖個人微信(xys2016ykf),加入醫咖會統計討論群,和小夥伴們一起交流學習吧。我們誠邀各位小夥伴加入我們,一起創作有價值的內容,將知識共享給更多人!
TAG:醫咖會 |
※給5.56槍械評分,Min是B級,M4是S級,而它SSS級
※HTC U12+拍照力壓華為P20,DXO評分真能代表一切?
※小米MIX2S震撼發布!DxO評分過百分世,媲美三星S9Plus
※三星S10+拍照評分並列華為拿下第一,P30 Pro:毫無壓力!
※華為P30Pro手機配置猜想,DXO評分或妥妥超110分
※FAMI評分:《二之國2:幽靈國度》評價超PS3前作
※AIS機械取栓患者術前平掃CT-計算機輔助ASPECTS評分
※DxO 評分 109 的華為 P20 Pro,是否真的實力過硬?
※總分82!LG V30 DxOMark評分:色彩優秀 變焦缺失
※三星S10 5G DxOMark評分112分,與華為P30 Pro並列第一
※華為P20 Pro發布:DXO評分114分。小編:呵呵
※當四攝遇上四攝 S105G版DxO評分和華為P30Pro一致
※DxOMark公布三星S10+評分:109分 與華為並列第一
※三星Galaxy S10 5G手機DXOMark評分112分,與P30 Pro並列
※中國鐵塔IPO:評分5分,謹慎申購
※小米MIX 2S拍照評分比iPhone 8P還要高!
※華為P30 Pro跌下神壇 DXO評分被三星S10 5G逼平
※美媒評Mate20 Pro:性能強但軟體糟糕 評分打平蘋果
※DxOMark 公布三星 S10 5G 的相機評分,與華為 P30 Pro 並列第一
※三星S10+的DxOMark評分解禁,與華為Mate 20 Pro基本持平