SPSS超詳細操作：分層回歸

最新 09-13

1、問題與數據

最大攜氧能力(maximal aerobic capacity, VO2max)是評價人體健康的關鍵指標，但因測量方法複雜，不易實現。某研究者擬通過一些方便、易得的指標建立受試者最大攜氧能力的預測模型。

目前，該研究者已知受試者的年齡和性別與最大攜氧能力有關，但這種關聯強度並不足以進行回歸模型的預測。因此，該研究者擬逐個增加體重(第3個變數)和心率(第4個變數)兩個變數，並判斷是否可以增強模型的預測能力。

本研究中，研究者共招募100位受試者，分別測量他們的最大攜氧能力(VO2max)，並收集年齡(age)、性別(gender)、體重(weight)和心率(heart_rate)變數信息，部分數據如下：

註：心率（heart_rate）測量的是受試者進行20分鐘低強度步行後的心率。

2、對問題的分析

研究者擬判斷逐個增加自變數(weight和heart_rate)後對因變數(VO2max)預測模型的改變。針對這種情況，我們可以使用分層回歸分析(hierarchical multiple regression)，但需要先滿足以下8項假設：

假設1：因變數是連續變數

假設2：自變數不少於2個（連續變數或分類變數都可以）

假設3：具有相互獨立的觀測值

假設4：自變數和因變數之間存在線性關係

假設5：等方差性

假設6：不存在多重共線性

假設7：不存在顯著的異常值

假設8：殘差近似正態分布

那麼，進行分層回歸分析時，如何考慮和處理這8項假設呢？

3、對假設的判斷

3.1 假設1-2

假設1和假設2分別要求因變數是連續變數、自變數不少於2個。這與研究設計有關，需根據實際情況判斷。

3.2 假設3-8

為了檢驗假設3-8，我們需要在SPSS中運行分層回歸，並對結果進行一一分析。

(1)點擊AnalyzeRegressionLinear

出現下圖：

(2)將因變數（VO2max）放入Dependent欄，再將自變數（age和gender）放入Independent欄：

解釋：因研究者已知性別、年齡與最大攜氧能力的關係，我們先把這兩個變數放入模型。

(3)點擊Next，彈出下圖：

解釋：大家可能會注意到Independent(s)框中的標籤由-Block 1 of 1- 變為-Block 2 of 2-。這說明age和gender變數依舊存在於模型中，在- Block 2 of 2-中，大家可以點擊Previous查看。同時，Method欄應設置為「Enter」，一般是SPSS自動設置的；如果不是，也應人工設置為「Enter」。

(4)將自變數(weight)放入Independent欄

解釋：放入weight變數是為了檢驗加入該變數後對age、gender-VO2max預測模型的影響。

(5)點擊Next，彈出下圖：

解釋：大家可能會注意到Independent(s)框中的標籤由-Block 2 of 2- 變為-Block 3 of 3-。同樣地，age、gender和weight變數依舊存在於模型中，可以點擊Previous查看。Method欄也應設置為「Enter」，如果不是，改為「Enter」。

(6)將自變數(heart_rate)放入Independent欄

解釋：放入heart_rate變數是為了檢驗加入該變數後對age、gender、weight-VO2max預測模型的影響。

(7)點擊Statistics，彈出下圖：

(8)在Regression Coefficient框內點選Confidence intervals，在Residuals框內點選Durbin-Watson和Casewise diagnosis，並在主對話框內點選R squared change、Descriptives、Part and partial correlations和Collinearity diagnosis

(9)點擊Continue，回到主界面。

(10)點擊Plots，彈出下圖：

(11)在Standardized Residual Plots對話框中點選Histogram和Normal probability,並點選Produce all partial plots

(12)點擊Continue回到主對話框

(13)點擊Save

(14)在Predicted Values框內點選Unstandardized，在Distances框內點選Cook』s和Leverage values，在Residuals框內點選Studentized和Studentized deleted

(15)點擊ContinueOK

經過這些操作，Variable View 和Data View對話框中會增加5個變數：

這5個變數分別是未標化預測值(unstandardized predicted values，PRE_1)，學生化殘差(studentized residuals，SRE_1)，學生化刪除殘差(studentized deleted residuals，SDR_1)，Cook距離(Cook s Distance values，COO_1)以及槓桿值(leverage values，LEV_1)。

根據這5個新增變數和其他結果，我們將逐一對假設3-8進行檢驗。

注意：分層回歸對假設3-8的檢驗過程與多重線性回歸基本一致，為避免重複講解，我們在本章節只介紹基本原理，詳細內容請參見多重線性回歸分析。

3.2.1 假設3：具有相互獨立的觀測值

觀測值之間相互獨立是分層回歸的基本假設之一，主要檢驗的是1st-order autocorrelation，即鄰近的觀測值（主要是殘差）之間沒有相關性。我們根據SPSS中的Durbin-Watson檢驗判斷該假設，如果不滿足，則需要運用其他模型，如時間序列模型等。

3.2.2 假設4：自變數和因變數之間存在線性關係

分層回歸不僅要求因變數與所有自變數存在線性關係，還要求因變數與每一個自變數之間存在線性關係。其中，我們主要通過繪製未標化預測值(PRE_1)和學生化殘差(SRE_1)的散點圖檢驗因變數與所有自變數之間的線性關係。

而為檢驗因變數與每一個自變數之間是否存在線性關係，我們則需要分別繪製每個自變數與因變數的散點圖。如果假設4不滿足，我們可以嘗試進行數據轉換或者其他統計方法。

3.2.3 假設5：等方差性

等方差性也可以通過學生化殘差(SRE_1)與未標化預測值(PRE_1)之間的散點圖進行檢驗。如果研究結果提示不滿足等方差性假設，我們也可以通過一些統計手段進行矯正，如對自變數進行轉換或採用加權最小二乘法回歸方程等。

3.2.4 假設6：不存在多重共線性

當回歸中存在2個或多個自變數高度相關時，就會出現多重共線。它不僅可影響自變數對因變數變異的解釋能力，還影響整個分層回歸模型的擬合。

為了檢驗假設6，我們主要關注相關係數(correlation coefficients)和容忍度/方差膨脹因子(Tolerance/VIF)兩類指標。一般來說，如果自變數之間的相關係數大於0.7，或者容忍度小於0.1，方差膨脹因子大於10，我們就會懷疑模型存在多重共線性。

3.2.5 假設7：不存在顯著的異常值

根據作用方式的不同，分層回歸的異常值主要分為離群值(outliers)、強槓桿點(leverage points)和強影響點(influential points)3類。異常的觀測值可以符合其中一類或幾類。但無論是哪一類都對分層回歸的預測能力有著嚴重的負面影響。好在我們可以通過SPSS檢測這些異常值。

其中，(1) 離群值是指實際值與預測值相差較大的數據，可以用Casewise Diagnostics檢驗和學生化刪除殘差(SDR_1)兩種方法進行檢驗。(2) 我們通過數據的槓桿值(LEV_1)檢測強槓桿點。(3) 而強影響點主要通過Cook距離(COO_1)進行檢測。如果存在這些異常值，我們可以根據實際情況判斷是否需要剔除或調整。

3.2.6 假設8：殘差近似正態分布

在分層回歸中，我們可以使用兩種方法判斷回歸殘差是否近似正態分布：(1) 帶正態曲線的柱狀圖或P-P圖；(2) 根據學生化殘差繪製的正態Q-Q圖。詳細內容參見多重線性回歸分析。

4、結果解釋

分層回歸可以得到3個主要結果：

新增自變數解釋因變數變異的比例

根據自變數預測因變數

自變數改變一個單位，因變數的變化情況

為了更好地解釋和報告分層回歸的結果，我們需要統計以下3個方面：

各模型的比較

模型的擬合程度

回歸係數

4.1 各模型的比較

比較不同模型是進行分層回歸的主要目的。SPSS輸出變數納入結果，如下：

從Model欄可以看出，本研究共有3個模型：Model 1、Model 2和Model 3。Variables Entered欄顯示該研究中每個模型較前一個模型增加的變數。

Model 1是第一個模型，沒有前序變數，因此該模型的自變數只有gender和age。Model 2比前一個模型(Model 1)增加了weight變數；Model 3比Model 2增加了heart_rate變數。這3個模型的納入變數與之前的SPSS操作一致，如下：

必須注意的是，Model 2和Model 3中納入的變數都是在上一個模型基礎上的。比如，Model 3是在Model 2的基礎上納入heart_rate變數，即共納入age、gender、weight和heart_rate四個變數，而不是heart_rate一個變數，具體解釋如下：

4.2 判斷分層回歸模型的擬合程度

判斷分層回歸模型擬合程度的指標有很多，我們主要向大家介紹變異的解釋程度、R2值在各模型間的變化和模型的統計學意義3個指標。

4.2.1變異的解釋程度

分層回歸中的每個模型都相當於一個強制納入變數（Enter method）的多重線性回歸模型，具體評價指標也相似：

Measures of model 『fit』 for the three models: 分別評價本研究中3個模型的擬合程度

R2是多層回歸的重要指標，反映自變數解釋因變數變異的程度。從上表可以看出，隨著自變數數量的增加，模型1-3的R2逐漸增加，分別是0.188、0.427和0.710，提示各模型對因變數的預測能力逐漸加強。

但是分層模型主要是檢驗增加自變數是否具有統計學意義，如模型2增加了weight變數後R2的變化是否具有統計學意義呢？我們將在4.2.2節為詳細大家介紹。

4.2.2R2值在各模型間的變化

為了判斷新增變數對回歸的影響，我們需要關注下表的右半部分：

Assessing model change：對比模型變化

R Square Change欄顯示的是該模型與上一個模型R2的差值，Sig. F Change欄顯示的是該差值的統計檢驗的P值。以Model 1為例，如下：

Initial Model（Model 1）：模型1

模型1是初始模型，在空模型的基礎上增加了age和gender兩個變數。該模型的R2差值（R Square Change欄）和R2值（R Square欄）相同，均為0.188。R2差值具有統計學意義，P

模型2在模型1的基礎上增加了weight變數，R2值的變化情況如下：

Change between Model 1 and Model 2: 對比模型1和模型2

模型2的R2差值為0.239，即模型2的R2值(0.427)與模型1的R2值(0.188)的差。Sig. F Change欄提示，P

在本研究中，模型2與模型1的差別僅在於weight變數，提示在回歸中納入weight變數後自變數對因變數變異的解釋能力增加23.9%（P

解釋：如果我們在模型2中增加了不止一個變數，那麼R2值的改變就是所有新增變數共同作用的結果，而不是某一個變數的。

模型3在模型2的基礎上增加了heart_rate變數，R2值的變化情況如下：

Change between Model 2 and Model 3：對比模型2和模型3

模型3的R2差值為0.283，即模型3的R2值（0.710）與模型2的R2值（0.427）的差。Sig. F Change欄提示，P

4.2.3 模型的統計學意義

分層回歸的每一個模型都相當於一個多重線性回歸模型。SPSS輸出ANOVA表格中包括對每一個模型的評價，如下：

一般來說，我們習慣性只彙報最終模型的結果（本研究的模型3），如下：

模型3是全模型，納入gender、age、weight和heart_rate四個變數。結果示，該模型具有統計學意義，F(4,95)=58.078，P

注釋：如果SPSS輸出的結果中「Sig」值為「.000」，代表的是P0.05，我們最好在報告中寫清楚具體數值，如P=0.092，從而為讀者提供更多的信息。

4.3回歸係數

正如前文所述，分層回歸模型主要關注的是最終模型，即本研究中的模型3，在對回歸係數進行解釋時也是如此。

Full model （Model 3）：模型3

我們可以按照多重線性回歸的分析方法對分層回歸係數進行解釋。連續變數(如age變數)的回歸係數表示自變數每改變一個單位，因變數的變化情況。分類變數(如gender變數)的回歸係數表示不同類別之間的差異，詳細內容參見多重線性回歸。

值得注意的是，我們運行分層回歸的主要目的是分析是否有必要增加新的自變數，而不是進行預測，回歸係數不是我們主要關注的結果。但是如果在彙報時需要提供回歸係數，我們也可以把這部分增加在報告中。

5、撰寫結論

5.1 簡潔彙報

本研究採用分層回歸，分析逐步增加體重和心率變數是否可以提高性別、年齡對最大攜氧能力的預測水平。最終模型(模型3)納入性別、年齡、體重和心率4個變數，具有統計學意義R2=0.710，F(4, 95) = 58.078 (P

僅增加體重變數(模型2)後，R2值增加0.239，F(1, 96) = 40.059(P

表1.分層回歸結果

5.2具體彙報

本研究採用分層回歸，分析逐步增加體重和心率變數是否可以提高性別、年齡對最大攜氧能力的預測水平。通過繪製部分回歸散點圖和學生化殘差與預測值的散點圖，判斷自變數和因變數之間存在線性關係。

已驗證研究觀測值之間相互獨立（Durbin-Watson檢驗值為1.910）；並通過繪製學生化殘差與未標化的預測值之間的散點圖，證實數據具有等方差性。

回歸容忍度均大於0.1，不存在多重共線性。異常值檢驗中，不存在學生化刪除殘差大於3倍標準差的觀測值，數據槓桿值均小於0.2，也沒有Cook距離大於1的數值。Q-Q圖提示，研究數據滿足正態假設。

最終模型（模型3）納入性別、年齡、體重和心率4個變數，具有統計學意義R2=0.710，F(4, 95) = 58.078 (P

表1.分層回歸結果

解釋：我們為了儘可能地向大家展示分層回歸結果，在表1里納入了所有可能需要彙報的指標。但在實際工作中，大家可能並不需要彙報這麼多，應視情況而定。

更多閱讀

1.超詳細SPSS操作：多重線性回歸（完整版）

2.SPSS實例教程：自變數多重共線性怎麼辦？

3.【合集】23種統計方法的SPSS詳細操作

醫咖會微信：medieco-ykh

關注醫咖會，輕鬆學習統計學~

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 醫咖會 的精彩文章:

※堅信的膳食觀念可能錯了？柳葉刀PURE研究衝擊膳食指南！
※SPSS：單因素重複測量方差分析
※如何用Stata作漂亮的圖？來看超詳細教程！

TAG:醫咖會 |