Missing Data

數(shù)據(jù)缺失必須被優(yōu)先處理。如果是缺失的很少很少,無傷大雅,那么直接刪了也沒問題。除此之外,應(yīng)該想辦法補(bǔ)上它,i.e. 預(yù)測(cè)。

Little和Ruth(1987)把數(shù)據(jù)缺失的機(jī)制分為三類:

完全隨機(jī)缺失(missing completely at random, MCAR)
所缺失的數(shù)據(jù)是完全隨機(jī)的,缺失發(fā)生的概率既與已觀察到的數(shù)據(jù)無關(guān),也與未觀察到的數(shù)據(jù)無關(guān)。這是一種比較理想的情況。
隨機(jī)缺失(missing at random, MAR)
數(shù)據(jù)的缺失不是完全隨機(jī)的。缺失數(shù)據(jù)發(fā)生的概率與所觀察到的變量是有關(guān)的,而與未觀察到的數(shù)據(jù)的特征是無關(guān)的。這是一個(gè)比較嚴(yán)重的問題,在這種情況下,我們需要進(jìn)一步檢查數(shù)據(jù)收集過程,并嘗試了解數(shù)據(jù)為什么丟失。 例如,如果在一項(xiàng)問卷調(diào)查中,大多數(shù)人沒有回答某個(gè)問題,他們?yōu)槭裁催@么做,是問題不清楚嗎?
不可忽略的缺失(non-ignorable missing ,NIM)
亦稱為非隨機(jī)缺失(not missing at random, NMAR),也有研究者將其稱為MNAR(missing not at random)。 缺失數(shù)據(jù)不僅依賴于其它變量,又依賴于變量本身,這種缺失即為不可忽略的缺失。

一般MAR碰見多一些。在R語言中,非常容易搞定。只需要用mice庫。更多應(yīng)用請(qǐng)參考幫助文檔。http://www.stefvanbuuren.nl/publications/MICE%20V1.0%20Manual%20TNO00038%202000.pdf

mice是鏈?zhǔn)椒匠潭嘣逯档暮?jiǎn)寫(Multivariate Imputation by Chained Equations)。R中有個(gè)同名包提供了多種先進(jìn)的缺失值處理方法。它使用一種頗不常見的方法來進(jìn)行兩步插值:先利用mice函數(shù)建模再用complete函數(shù)生成完整數(shù)據(jù)。效果非常的好,令人驚訝。注意mice庫假設(shè)數(shù)據(jù)缺失為MAR。

下面的程序使用mice庫自帶的數(shù)據(jù)nhanes

library(mice)
nhanes
md.pattern(nhanes)
#  返回?cái)?shù)據(jù)的缺失值的模式

 imp <- mice(nhanes,  imputationMethod = c(' ',  'norm',  'pmm',  'mean'))
# 指定選用的方法,空字符表示這一列沒有缺失值。
imp$imp
#查看生成的數(shù)據(jù),默認(rèn)生成五個(gè)備選組
x <- complete(imp,1)
# 生成完整數(shù)據(jù)

#假設(shè)我們的數(shù)據(jù)有一個(gè)線性回歸:
fit <- lm.mids(chl~age+hyp, imp)
# lm.mids( )將會(huì)對(duì)五個(gè)備選數(shù)據(jù)都做回歸
pool(fit)
 summary(pool(fit))
# 可以篩選下哪一個(gè)數(shù)據(jù)集最好

這篇文章https://datascienceplus.com/imputing-missing-data-with-r-mice-package/討論了更多mice庫的應(yīng)用,但是最基礎(chǔ)的也就是這些了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1.NaN(空值)與None(缺失值) Missing data can take a few different...
    禮記閱讀 394評(píng)論 0 1
  • 君子生非異也,善假于物也。希望這篇會(huì)成為幫助到各位。 這一篇文章總結(jié)了數(shù)據(jù)科學(xué),NLP和機(jī)器學(xué)習(xí)的R教程和包的精選...
    Liam_ml閱讀 1,432評(píng)論 1 14
  • From shirinsplayground,非常好的機(jī)器學(xué)習(xí)的文章,保存下來,慢慢學(xué)習(xí)。 https://shi...
    iColors閱讀 1,333評(píng)論 0 0
  • 抽象類與接口的區(qū)別抽象類的本質(zhì)還是一個(gè)類,所以類的基本功能它都擁有,除了不能實(shí)例化但卻可以有構(gòu)造方法(普通類當(dāng)構(gòu)造...
    Mrr_Yang閱讀 327評(píng)論 0 1
  • 狐貍說:“我的生活很單調(diào)。我追逐雞,人追逐我。所有的雞都一個(gè)模樣。所有的人也是。所以,我感到有點(diǎn)無聊。但是,如果你...
    五里墩頭的瓦尼兔閱讀 289評(píng)論 0 0

友情鏈接更多精彩內(nèi)容