當前位置:
首頁 > 最新 > SPSS教程:做多重線性回歸,方差不齊怎麼辦?

SPSS教程:做多重線性回歸,方差不齊怎麼辦?

在前期推送的有關多重線性回歸的內容中,我們介紹了構建多重線性回歸模型需要滿足的4個核心條件:線性(Linear)、獨立(Independence)、正態(Normality)、方差齊性(Equal variance),即LINE原則

針對上述適用條件,我們已經介紹了當不滿足線性和正態性條件時,可以通過變數轉換的方法予以糾正(詳見:正態檢驗和正態轉換的內容),今天我們就來繼續討論一下,如果殘差不滿足方差齊性時,應該如何解決?

一、殘差方差齊性判斷

1. 殘差方差齊性

回顧一下前面介紹過的殘差方差齊性,即殘差ei的大小不隨預測值水平的變化而變化。我們在進行殘差分析時,可以通過繪製標準化殘差和標準化預測值的散點圖來進行判斷。若殘差滿足方差齊性,則標準化殘差的散點會在一定區域內,圍繞標準化殘差ei=0這條直線的上下兩側均勻分布,不隨標準化預測值的變化而變化,如圖1所示。

圖1. 標準化殘差散點圖(方差齊性)

2. 殘差方差不齊

但有時殘差不滿足方差齊性的假設,其標準化殘差散點圖顯示,殘差的變異程度隨著變數取值水平的變化而發生變化,如圖2(a)顯示標準化殘差的分布隨變數取值的增大而呈現擴散趨勢,圖2(b)顯示標準化殘差的分布隨變數取值的增大而呈現收斂趨勢,說明殘差不滿足方差齊性的條件。

圖2. 標準化殘差散點圖(方差不齊)

二、加權最小二乘法

在多重線性回歸模型中,我們採用的是普通最小二乘法(Ordinary Least Square,OLS)來對參數進行估計,即要求每個觀測點的實際值與預測值之間的殘差平方和最小,對於模型中的每個觀測點是同等看待的,殘差滿足方差齊性的假設。

但是在有些研究問題中,例如調查某種疾病的發病率,以地區為觀測單位,很顯然地區人數越多,所得到的率就越穩定,變異程度越小,而地區人數越少,所得到的率的變異就越大。在這種情況下,因變數的變異程度會隨著自身數值或其他變數的變化而變化,殘差不滿足方差齊性的條件。此時如果繼續採用OLS方法進行模型估計,則擬合結果就會受到變異程度較大的數據的影響,在這種情況下構建的回歸模型就會發生偏差,預測精度降低,甚至預測功能失效。

為了解決這一問題,我們可以採用加權最小二乘法(Weighted Least Squares,WLS)的方法來進行模型估計,即在模型擬合時,根據數據變異程度的大小賦予不同的權重,對於變異程度較小、測量更精確的數據賦予較大的權重,對於變異程度較大、測量不穩定的數據賦予較小的權重,從而使得加權後回歸直線的殘差平方和最小,保證擬合的模型具有更好的預測價值。

三、SPSS操作

1. 研究問題

某研究人員擬研究PM2.5濃度與癌症發病率之間的關聯性,以地區為觀測單位,收集了40個地區的癌症發病率(/10萬),PM2.5年平均濃度(μg/m3),人口數量(萬),地區來源(0=農村,1=城市)等信息。(註:數據為模擬數據,不代表真實情況)

2. 判斷殘差是否滿足方差齊性

參考多重線性回歸的SPSS操作步驟,結果顯示採用普通最小二乘法方法擬合的線性回歸模型具有統計學意義(P

殘差散點圖顯示,標準化殘差的變異程度會隨著標準化預測值的增大而增大,呈現擴散趨勢,表明殘差不滿足方差齊性的假設。

3. 權重估計

根據專業知識和經驗判斷,人口數量(Population)可能為導致殘差不滿足方差齊性的一個重要因素,下面對人口數量進行權重估計。

(1)選擇Analyze Regression Weight Estimation,在Weight Estimation對話框中,將Cancer選入Dependent,將District和PM2.5選入Independent(s)中。

(2)將擬加權的變數Population選入Weight Variable中,系統將按照1/(權重變數)的power次冪對每條記錄進行加權。

(3)Power range用於定義權重變數的指數,默認為-2~2,步長為0.5,即將擬合指數分為-2、-1.5、-1、-0.5、0、0.5、1、1.5和2一共構建9個方程中,並從中選取效果最佳的一個擬合指數。本例中標準化殘差隨著標準化預測值的增大而增大,因此Power range為正值,此處設定Power range的範圍為0~5,步長為0.5。

(4)點擊Option,選擇Save best weight as new variable,生成一個新的變數用以保存效果最佳的權重。最後點擊Continue回到Weight Estimation主對話框,點擊OK完成操作。

(5)結果匯總

Log-Likelihood Values表中輸出了在給定步長下每個指數值對應的對數似然值,選取對數似然值最大的一項為最優指數,因此本例中最終確定的最優指數值為3,即權重按照1/population3的函數關係來計算權重。同時系統會在確定最優指數的情況下,自動生成一個名為WGT_1的變數用於保存權重係數。

4. 最小二乘法操作

(1)選擇Analyze Regression Linear,在Linear Regression對話框中,將Cancer選入Dependent,將District、PM2.5、Population選入Independent(s)中,將新生成的變數Weight for Cancer from WLS(WGT_1)選入WLS Weight中

(2)點擊Save選項,在Predicted Values和Residuals框下均選擇Unstandardized。最後點擊Continue回到Linear Regression主對話框,點擊OK完成操作。

(3)繪製殘差散點圖

由於在SPSS中使用WLS模型無法直接繪製加權殘差散點圖,SPSS會給出相應的警示(如下圖所示),因此我們需要按照SPSS提示中提供的計算公式,對加權預測值和加權殘差值進行一定的轉換,然後再繪製轉換後的加權殘差散點圖。

選擇Transform Compute Variable,利用前幾步操作生成的權重值(WGT_1)、加權預測值(PRE_1)和加權殘差值(RES_1)來計算生成兩個新變數,即轉換的加權預測值wgtpred = PRE_1 * sqrt(WGT_1)和轉換的加權殘差值wgtresid = RES_1 * sqrt(WGT_1)。

然後選擇Graphs Legacy Dialogs Scatter/Dot Simple Scatter,將wtgpred選入X Axis,將wtgresid選入Y Axis,點擊OK繪製散點圖。

5. 結果匯總

(1)結果顯示,採用加權最小二乘法擬合的線性回歸模型仍具有統計學意義(P

(2)模型結果顯示,PM2.5平均濃度、不同地區來源(District)和不同人口數對癌症發病率的影響有統計學顯著性(P

(3)轉換後的加權殘差散點圖顯示,殘差的散點圍繞ei=0這條直線的上下兩側均勻分布,不隨預測值的變化而變化,說明經過加權校正後,殘差已滿足方差齊性的條件,達到了加權校正的目的。

本文介紹了殘差不滿足方差齊性的處理方法,如果是其他條件不滿足時,該如何處理呢?我們後續還會再做介紹,敬請期待!

關注醫咖會,一起學習統計學!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 醫咖會 的精彩文章:

WHO發布2017基本藥物示範目錄
為了讓論文看起來更有價值,竟玩這些套路!
兩組率的Meta分析,手把手教Stata操作!
一言不合就用t檢驗,小心犯了這些錯!
SPSS操作:輕鬆實現1:1傾向性評分匹配

TAG:醫咖會 |

您可能感興趣

BP不用算梯度,這樣的線性反向傳播也能Work!
NeurIPS 2018|BP不用算梯度,這樣的線性反向傳播也能Work!
vivo NEX 3再次被曝!這樣大的X軸線性馬達你用過嗎?
NeurIPS 2018 | BP不用算梯度,這樣的線性反向傳播也能Work!
線性模型可解釋一定比DNN高?UCSD科學家:大錯特錯!
計算MOSFET非線性電容
量子線性系統演算法:更好,更快,更強大的AI
手機震動如此重要?ColorOS 6深度優化,線性馬達發揮到極致
常程官宣ZUI經典「U-Touch」回歸 線性馬達解鎖新姿勢?
Python 機器學習:多元線性回歸
如何在 FPGA 上實現雙線性插值的計算?
線性馬達配合ColorOS 6深度優化,遊戲一直爽
從零開始學PyTorch:一文學會線性回歸、邏輯回歸及圖像分類
C+OpenCV自定義線性濾波
PyTorch進階之路(二):如何實現線性回歸
vivo NEX 3線性馬達曝光 安卓中體積最大 值得期待
MiniWare再秀實力!推出微型多模塊線性可編程數字電源,功率90W
PS教程-簡單幾步把人物照片轉換成簡單的線性稿
堅果PRO2s:線性馬達來了!魅族偷笑
AI教程/線性幾何圖案