缺失值處理

一.什么是缺失值,NA與NULL的區(qū)別

(1)NA表示數(shù)據(jù)集中的該數(shù)據(jù)遺失、不存在。在針對具有NA的數(shù)據(jù)集進行函數(shù)操作的時候,該NA不會被直接剔除。如x<-c(1,2,3,NA,4),取mean(x),則結(jié)果為NA,如果想去除NA的影響,需要顯式告知mean方法,如 mean(x,na.rm=T);NA是沒有自己的mode的,在vector中,它會“追隨”其他數(shù)據(jù)的類型,比如剛剛的x,mode(x)為numeric,mode(x[4])亦然

(2) NULL表示未知的狀態(tài)。它不會在計算之中,如x<-c(1,2,3,NULL,4),取mean(x),結(jié)果為2.5。NULL是不算數(shù)的,length(c(NULL))為0,而length(c(NA))為1??梢奛A“占著”位置,它存在著,而NULL沒有“占著”位置,或者說,“不知道”有沒有真正的數(shù)據(jù)。

二.識別缺失值NA

在R語言中缺失值通常以NA表示,判斷是否缺失值的函數(shù)是is.na。

另一個常用到的函數(shù)是complete.cases,它對數(shù)據(jù)框進行分析,判斷某一觀測樣本是否完整。

下面我們讀取VIM包中的sleep數(shù)據(jù)作為例子,它的樣本數(shù)為62,變量數(shù)為10,由complete.cases函數(shù)計算可知完整的樣本個數(shù)為42。

data(sleep, package="VIM")

dim(sleep)

sum(complete.cases(sleep))

sum(is.na(sleep))

#可以使用vim包的aggr函數(shù)以圖形方式描述缺失數(shù)據(jù)

aggr(sleep)

上面的左圖顯示各變量缺失數(shù)據(jù)比例,右圖顯示了各種缺失模式和對應(yīng)的樣本數(shù)目,顯示nond和dream經(jīng)常同時出現(xiàn)缺失值。

三、識別缺失數(shù)據(jù)的模式

存在缺失數(shù)據(jù)情況下,需進一步判斷缺失數(shù)據(jù)的模式是否隨機。在R中是利用mice包中的md.pattern函數(shù)。

library(mice)

md.pattern(sleep)

上表中的1表示沒有缺失數(shù)據(jù),0表示存在缺失數(shù)據(jù)。第一列第一行的42表示有42個樣本是完整的,第一列最后一行的1表示有一個樣本缺少了span、dream、nond三個變量,最后一行表示各個變量缺失的樣本數(shù)合計。

四、處理缺失數(shù)據(jù)

對于缺失數(shù)據(jù)通常有三種應(yīng)付手段:

(1)當(dāng)缺失數(shù)據(jù)較少時直接刪除相應(yīng)樣本

刪除缺失數(shù)據(jù)樣本,其前提是缺失數(shù)據(jù)的比例較少,而且缺失數(shù)據(jù)是隨機出現(xiàn)的,這樣刪除缺失數(shù)據(jù)后對分析結(jié)果影響不大。

(2)對缺失數(shù)據(jù)進行插補

用變量均值或中位數(shù)來代替缺失值,其優(yōu)點在于不會減少樣本信息,處理簡單。但是缺點在于當(dāng)缺失數(shù)據(jù)不是隨機出現(xiàn)時會產(chǎn)成偏誤。

多重插補法(Multiple imputation):多重插補是通過變量間關(guān)系來預(yù)測缺失數(shù)據(jù),利用蒙特卡羅方法生成多個完整數(shù)據(jù)集,再對這些數(shù)據(jù)集分別進行分析,最后對這些分析結(jié)果進行匯總處理??梢杂胢ice包實現(xiàn)。

(3)使用對缺失數(shù)據(jù)不敏感的分析方法,例如決策樹。

基本上缺失數(shù)據(jù)處理的流程是首先判斷其模式是否隨機,然后找出缺失的原因,最后對缺失值進行處理。

exp 1

library(mice)

imp=mice(sleep,seed=1234)

fit=with(imp,lm(Dream~Span+Gest))

pooled=pool(fit)

summary(pooled)

#在R語言中實現(xiàn)方法是使用mice包中的mice函數(shù),生成多個完整數(shù)據(jù)集存在imp中,再對imp進行線性回歸,最后用pool函數(shù)對回歸結(jié)果進行匯總。匯總結(jié)果的前面部分和普通回歸結(jié)果相似,nmis表示了變量中的缺失數(shù)據(jù)個數(shù),fmi表示fraction of missing information,即由缺失數(shù)據(jù)貢獻的變異

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容