行列表卡方檢驗;剝絲抽繭複雜局面是數據分析師的重要技能
基礎準備
前面草堂君推送了卡方檢驗的理論基礎和四格表卡方檢驗的內容,從這兩篇文章,大家應該可以發現,卡方檢驗的原理雖然很簡單,但是其背後需要注意的點有很多。可以點擊下方的文字鏈接進行內容回顧:
前面的文章介紹過,卡方檢驗適用於分類變數的頻數分析。對於包含兩個水平的兩分類變數(例如男女),因為不涉及類別遞增或遞減信息,所以定類型和定序型的變數的卡方檢驗過程基本類似,這也是草堂君將2*2四格表的內容單獨拿出來講的原因。
對於多分類變數的卡方檢驗,區分到底是定類型分類變數還是定序型分類變數是非常必要的,因為定序型分類變數(例如:大一、大二、大三和大四)包含了水平間的遞增或遞減信息,如果依舊按照傳統的卡方檢驗進行,這部分遞進信息就會喪失,對於分析者來說是非常可惜的。因此,多分類變數的卡方檢驗,需要區分的情況是更多更複雜的。
卡方檢驗根據涉及變數的不同,可以分為單個分類變數的擬合優度檢驗和兩個分類變數的卡方檢驗。擬合優度檢驗主要用於分析某個分類變數的頻數分布是否服從某種概率分布形態;兩個分類變數的卡方檢驗,根據分析目的的不同可以分為比率差異檢驗和構成比差異檢驗等等。下面介紹的就是兩個多分類變數的卡方檢驗,稱為行列表卡方檢驗,注意與2*2四格表卡方檢驗區分開來。
行列表卡方檢驗
當兩個分類型變數中的任何一個的水平數多於兩個,草堂君在這裡都把它們歸為行列表卡方檢驗(R*C行列表卡方檢驗),因此行列表卡方檢驗就有以下幾種情況:
R*2行列表
行分類變數為多水平,列分類變數為兩水平,稱為R*2行列表。對於R*2行列表的卡方檢驗,其目的通常是研究不同組之間的比率問題,例如下面的醫學案例:
在案例中,行變數是三分類的定類變數,列變數是兩分類變數,分析的目的是研究不同療法的有效率是否存在差異。這個分析直接使用卡方檢驗的基本公式計算卡方值和p值即可。
如果通過卡方檢驗,p值小於0.05,那麼結論就是三種療法的治療有效率存在顯著性差異,然後再結合三種療法的有效率,說明哪種療法最好就行了。以上結論在三組的有效率差異很大的時候是沒有問題的,但是如果差異不是那麼大,那麼這個結論很可能是謬誤的。這是因為忽視了「一類錯誤」,也就是「棄真」錯誤。
比較嚴謹的雜誌會要求繼續進行不同療法有效率的兩兩比較,看到底是物理療法與內服藥療法之間有差異,還是內服藥療法與外用膏藥療法有差異。可以採用的方法有卡方分割法、Scheffe置信區間法和SNK法進行分析。其中卡方分割法用得最多,原理就是將表格分成多個2*2的四格表進行分析,然後再與校正後的顯著性α進行比較就可以。具體的校正過程本篇不進行介紹,需要的朋友可以聯繫草堂君了解(微信號:possitive2)。
2*C行列表
列變數為多水平,行變數為兩水平,稱為2*C行列表;對於2*C行列表的卡方檢驗,其目的通常是研究兩組之間的構成比差異。例如下面的收入案例:
該案例隨機從不同城市採訪路上行人,詢問收入情況製成表格。該案例卡方檢驗的目的研究大城市和中小城市的人群收入結構,因此直接使用卡方檢驗的基本公式分析即可,如果顯著性小於0.05,那麼說明兩個城市類型的收入人群結構上有顯著性差異。
兩定類變數的R*C行列表
兩個定類型變數,水平數都大於2,那麼對它們進行卡方檢驗的目的往往是兩個分類型變數的相關性分析,以及它們之間的相關強度如何。下面,草堂君用個案例來說明。先科普個常識,大家應該都知道血型可以分成O、A、B、AB等類型,其實這只是血型分類最常見的「ABO血型系統」,除此之外,還有現在比較規範的「RH血型系統」,最後就是「MN血型系統」。現在對某地的5801人進行血型檢驗,結果如下表,看看兩種血型系統之間是否有相關性?
這個案例的分析直接使用卡方檢驗的基本公式進行計算即可,卡方檢驗的p值小於0.05,表明兩種血型系統之間存在相關性。除了得到兩個分類變數是否相關的結果,還能通過計算列聯繫數C知道兩個分類變數之間的相關強度如何,列聯繫數C的計算公式為:
該案例的列聯繫數C等於0.188,比較小,說明雖然兩者有相關性,但是相關性不強。
單個定序變數的R*C行列表
如果兩個分類變數中,只有一個是存在等級次序關係的定序變數,那麼稱這種情況為單個定序型變數的R*C卡方檢驗。這種卡方檢驗根據定序型變數在分析中的作用不同,又可以分成以下兩種情況:
如果定序型變數用作分組變數,那麼卡方檢驗的目的就是分析不同分組之間構成比是否存在顯著性差異,此時直接使用卡方檢驗基本公式即可。例如,下面這個例題,年齡變數是定序變數,用於分組,而疾病類型為定類型變數,是指標變數:
定序型變數為指標變數,而定類型變數用於分組,那麼應該用秩和檢驗更為合適。例如下面這個案例,不同的藥物類型用於分組,而不同的療效等級用作指標。秩和檢驗將在卡方檢驗之後進行介紹。
兩個定序變數的R*C行列表
這個情況的卡方檢驗,根據研究目的不同,兩個定序變數的R*C列聯表數據應該採用不同的分析方法。我們用一個具體的案例來說明,下表是一個眼球晶狀體與年齡相關性調查的人數統計表:
該案例的分析目的可以有以下幾種:
如果研究的是不同年齡段的眼球晶狀體渾濁度是否存在差異,應該採用秩和檢驗。
如果分析的是年齡與渾濁度之間是否有相關性,那麼應該使用皮爾森、肯達爾或斯皮爾曼相關分析,也就是將這些數據作為定距型或定序型數據處理。
如果分析的目的是兩個定序型變數間是否存在線性相關趨勢,那麼應該使用線性趨勢檢驗。這部分內容將在後面推送。
總結一下
本篇文章根據行列表所有數據類型的配對情況,以及不同數據類型配對情況的不同分析目的,詳細闡述了每種情況的數據分析方法。從數據分析方法來說,包括卡方檢驗和秩和檢驗,而這兩種分析方法又會因為分析要求的不同,需要做進一步處理或校正處理。雖然數據情況複雜多樣,但是不應該強行記憶,而應該在理解分析方法理論基礎的前提下去理解為什麼選擇特定的分析方法。這也是草堂君一直希望教會大家的數據分析學習方式。
溫馨提示:
TAG:SPSS生活統計學 |