當前位置:
首頁 > 最新 > 統計方法套路深,細說I類錯誤和II類錯誤!

統計方法套路深,細說I類錯誤和II類錯誤!

一、研究實例

某研究團隊擬研究多種生活方式的干預對於學齡前兒童有氧運動能力和肥胖的影響,設計了一個整群隨機對照試驗(cluster randomised controlled trial),一共納入了40名學齡前兒童作為研究對象,將他們隨機分為干預組和對照組。

對照組兒童僅接受常規的課程學習,包括每周一節45分鐘的體育課。而干預組兒童在對照組的基礎上,接受包括參加體育活動項目,增加營養知識課程等多方位的生活方式干預,干預共持續一年。研究的主要評價結局為有氧運動能力(20分鐘往返跑)和BMI指數。

結果顯示,干預組兒童有氧運動能力高於對照組兒童(平均差異:0.32,95%CI:0.07~0.57,P=0.010.05)。

作者由此得出結論:多種生活方式干預可以提高學齡前兒童的有氧運動能力,但對BMI影響不大。

二、問題

上述研究於2011年發表在BMJ雜誌上,研究結果很容易理解,那麼問題來了,請大家來判斷一下,以下三種說法,哪一項是正確的呢?

1.如果實際上在該人群中,多種生活方式干預對於兒童的有氧運動能力沒有影響,兩組兒童的有氧運動能力並無差異,那麼作者針對有氧運動能力進行假設檢驗,得出的結論就會產生I類錯誤。

2.如果實際上在該人群中,多種生活方式干預可以改善兒童的BMI指數,干預組兒童BMI指數低於對照組兒童,那麼作者針對BMI進行假設檢驗,得出的結論就會產生II類錯誤。

3、如果增加樣本量,則可以降低I類錯誤和II類錯誤的發生概率。

三、假設檢驗

首先,我們來聊一下假設檢驗。假設檢驗就是根據研究目的提出某種假設,然後利用收集的樣本信息,去推斷這一假設是否成立。

建立假設是進行假設檢驗的第一步,通常我們會先建立一個原假設,或者也叫零假設或無效假設(null hypothesis),記為H,例如某兩個(或多個)總體參數相等,或總體參數之差為0。在本例中,原假設為干預組兒童和對照組兒童有氧運動能力相同,BMI均數相等。

與原假設對立的為備擇假設,也稱對立假設(alternative hypothesis),記為H1,例如某兩個(或多個)總體參數不相等,或總體參數之差不為0。在本例中,備擇假設為干預組兒童和對照組兒童有氧運動能力不相同,BMI均數不相等。

通常備擇假設包括大於或者小於兩種情況,故一般為雙側檢驗。若憑藉專業知識有充分把握認為只存在大於或小於兩者中的一種可能,則可採用單側檢驗。

四、P值

進行假設檢驗,就不得不提我們可愛又可恨的P值,它是用來判定假設檢驗結果的一個參數,是基於原假設H和抽樣樣本進行統計推斷的一個工具。通俗點講,就是在原假設H成立的條件下,所得到的與樣本觀察結果相同或更為極端結果的概率。

如果P值很小,說明原假設H的發生概率很小,可認為是小概率事件,當P值小到一定程度時,我們就有理由拒絕原假設H的成立。但需要注意的是,P值的大小並不能代表所檢驗的差異的大小,也就是說P值越小,並不能說明差異越大。這一點很容易引起誤解,因此我們在報告結果的時候,提倡使用「差異有統計學顯著性」的描述,而非「有顯著性差異」。

那麼,P值一般要小到什麼程度才能被認為是小概率事件呢?此時我們就要設立一個檢驗水準,即α,它確定了小概率事件的標準。通常設定α=0.05或0.01,但α的取值並非一成不變,可以根據研究目的的不同給予不同的設置。

當P≤α時,在設定α的檢驗水準下,可認為原假設H為小概率事件,因此拒絕H,接受備擇假設H1,差異有統計學顯著性。

例如在上述研究實例中,兩組兒童有氧運動能力差異性檢驗P=0.01

當P>α時,在設定α的檢驗水準下,不能認為原假設H為小概率事件,因此不拒絕H,差異無統計學顯著性。例如在上述研究實例中,兩組兒童BMI指數的差異性檢驗P=0.31>0.05,在α=0.05的檢驗水準下,尚不能認為兩組兒童的BMI指數不同,說明多種生活方式干預對於BMI無明顯改善作用。

五、I類錯誤和II類錯誤

假設檢驗是基於抽樣樣本來進行結果推斷的,而抽樣樣本只是總體的一小部分,從總體中抽取不同的樣本,可能會得出不同的結果,因此我們通常希望抽樣樣本是一個能夠很好地反映總體特徵的具有代表性的樣本。但由於抽樣誤差的存在,在進行假設檢驗根據P值做出推斷時具有一定的概率性,因此所得的結論就不一定完全正確,這就是我們常見的假設檢驗的陷阱:I類錯誤和II類錯誤

I類錯誤,也稱為假陽性錯誤,就是說實際上總體並無差異,原假設H是成立的,但是通過假設檢驗P≤α,在設定α的檢驗水準下,拒絕了H,認為有差異,出現了假陽性的現象。前面提到的檢驗水準α,就是預先設定允許犯I類錯誤概率的最大值,此時犯I類錯誤的概率即為α

例如在上述研究實例中,如果實際在該人群中,干預措施對兒童的有氧運動能力沒有影響,兩組兒童的有氧運動能力並無差異,那麼作者通過假設檢驗得出多種生活方式干預可提高兒童的有氧運動能力這一結論,就犯了I類錯誤,因此問題1的描述是對的

II類錯誤,也稱為假陰性錯誤,就是說實際上原假設H不成立,但是通過假設檢驗P>α,在設定α的檢驗水準下,不拒絕H,得出了陰性的結論,此時犯II類錯誤的概率為β。例如在上述研究實例中,如果實際在該人群中,干預措施對兒童的BMI有改善作用,那麼作者通過假設檢驗得出干預後兩組兒童的BMI差異無統計學顯著性這一結論,就犯了II類錯誤,因此問題2的描述也是對的

表1. 統計推斷的I類錯誤和II類錯誤

注意:I類錯誤和II類錯誤只是一個統計學上的概念,在進行假設檢驗時無法確定其發生的實際概率。由於兩類錯誤主要受樣本量的影響,因此可以通過增大樣本量的方法,使得我們的抽樣樣本儘可能的接近總體,具有更好的代表性,以達到降低兩類錯誤發生概率的目的,因此問題3的描述也是對的

針對以上三個問題,你都判斷對了么?

最後,再次提醒大家謹防假設檢驗的陷阱,當統計分析出現陽性結果,P0.05時,也不要太灰心,想想是不是有可能II類錯誤在作怪,可以參考前期推送的有關處理陰性結果的系列文章,找找原因看看是否能有新的發現。

醫咖會微信:medieco-ykh

關注醫咖會,一起學習統計學!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 醫咖會 的精彩文章:

SPSS教程:做多重線性回歸,方差不齊怎麼辦?
WHO發布2017基本藥物示範目錄
為了讓論文看起來更有價值,竟玩這些套路!
兩組率的Meta分析,手把手教Stata操作!
一言不合就用t檢驗,小心犯了這些錯!

TAG:醫咖會 |

您可能感興趣

統計顯示安卓用戶換iPhone XR的最多
新報告揭示微軟Windows新形態設備模塊化系統計劃
性別統計專家:性別歧視讓女性更依賴自然資源
豐田用AI幫助傳統計程車預測乘客需求 打車服務失去競爭優勢
傳統出租夾縫求生,網約車真能幹掉傳統計程車行業嗎?
奈良的鹿超討厭中國遊客? 統計發現他們最常被攻擊 「沒禮貌」是主因
外媒統計安卓三大系統版本旗艦更新速度 進步明顯
傳統計程車:我們在網約車面前,都快「窮途末路」了
南京現計程車「墳場」 傳統計程車行業被逼上絕路?
「統計學諾貝爾獎」授予R語言軟體工程師
統計學「明星」獲國際大獎:稱等待的結果是好的
歐洲杯如何抓平局大奶?看看12年數據統計
統計顯示iPhone印度銷量暴跌:同比減幅達1/3
Steam 10月統計數據:90%玩家選擇Win7和Win10
從經濟學和傳播學看,為何網約車比傳統計程車安全
網約車搞死了傳統計程車,南京計程車出現退車潮
傅蔚岡:網約車的安全性比傳統計程車高
2019荷賽獲獎作品器材統計,頂級攝影記者在用哪些相機?
性別統計專家薩拉:新經濟為女性提供新機遇
小孩一摔成肉墊! 統計發現「2成兒童因為搭機車傷亡」 6歲以下該禁止