R語言專題15——完整實例分析
R語言專題15——完整實例分析(行刪除)
R語言專題15—完整實例分析(行刪除)
在完整實例分析中,只有每個變數都包含了有效數據值的觀測才會保留下來做進一步的分析。實際上,這樣會導致包含一個或多個缺失值的任意一行都會被刪除,因此常稱作行刪除法(listwise)、個案刪除(case-wise)或剔除。大部分流行的統計軟體包都默認採用行刪除法來處理缺失值,因此許許多多的分析人員在使用諸如回歸或者方差分析法來分析數據時,都沒有意識到有「缺失值問題」需要處理!函數complete.cases()可以用來存儲沒有缺失值的數據框或者矩陣形式的實例(行):
同樣的結果可以用na.omit函數獲得:
兩行代碼表示的意思都是: mydata中所有包含缺失數據的行都被刪除,然後結果才存儲到newdata中。
現假設你對睡眠研究中變數間的關係很感興趣。計算相關係數前,使用行刪除法可刪除所有含有缺失值的動物:
表中的相關係數僅通過所有變數均為完整數據的42個動物計算得來。(注意代碼cor(sleep,use="complete.obs")可生成同樣的結果。)
若想研究壽命和妊娠期對睡眠中做夢時長的影響,可應用行刪除法的線性回歸:
此處可以看到,動物妊娠期越短,做夢時長越長(控制壽命不變);而控制妊娠期不變時,壽命與做夢時長不相關。整個分析基於有完整數據的42個實例。
在之前的例子中,如果data=na.omit(sleep)被data = sleep替換,將會出現什麼情況呢?和許多R函數一樣, lm()將使用有限的行刪除法定義。只有用函數擬合的、含缺失值的變數(本例是Dream、 Span和Gest)對應的實例才會被刪除,這時數據分析將基於44個實例。行刪除法假定數據是MCAR(即完整的觀測只是全數據集的一個隨機子樣本)。此例中,我們假定42個動物是62個動物的一個隨機子樣本。如果違反了MCAR假設,回歸參數的結果將是有偏的。由於刪除了所有含缺失值的觀測,減少了可用的樣本,這也將導致統計效力的降低。此例中,行刪除法減少了32%的樣本量。接下來,我們將考慮一種能夠利用整個數據集的方法(可以囊括那些含缺失值的觀測)。
喜歡我,關注我
拉到最上方標題下,點擊「臨床科研那些事」關注
搜索公眾帳號:Bridge_the_gap
也請你推薦給你身邊的朋友,感謝你~
※細胞培養專題——常用細胞培養液
※R語言專題11—折線圖
※細胞培養專題——常見細胞的培養方式
TAG:臨床科研那些事 |
※PAT 1035插入與歸併的代碼實現及錯誤分析(C語言)
※C語言實現2048小遊戲
※CVPR 2018 中國論文分享會之「視覺與語言」
※182句經典語言
※28個R語言繪圖的實用程序包!
※2018年7月N2真題解析之語言知識+文法(下)
※Rust語言2018使用情況大調查
※249元!魔芋翻譯機評測:14種語言走遍170國
※CVPR 2019審稿第一滿分論文:機器人也能問路的視覺語言導航方法
※2018年7月N2真題解析之語言知識+文法(上)
※NAACL2018 | 傑出論文:RNN作為識別器,判定加權語言一致性
※65頁PDF論述《2018自然語言處理研究報告》【清華髮布】
※2019 語言分割指南
※2018江蘇語文作文題-語言
※2018最流行的編程語言Top 3
※搜狗錄音翻譯筆發布:支持17國語言 售價398元
※AI嘗試破譯大腦語言信號,轉化準確率為40%至80%
※CVPR 2019審稿排名第一滿分論文:讓機器人也能「問路」的視覺語言導航新方法
※糖果發布首款翻譯手機S20 支持104種語言售價1999元
※搜狗錄音翻譯筆發布:398元/支持17國語言