?
spss分析方法-缺失值分析
缺失值可能會(huì)導(dǎo)致嚴(yán)重的問題。如果帶有缺失值的個(gè)案與不帶缺失值的個(gè)案有著根本的不同,則結(jié)果將被誤導(dǎo)。此外,缺失的數(shù)據(jù)還可能降低所計(jì)算的統(tǒng)計(jì)量的精度,因?yàn)橛?jì)算時(shí)的信息比原計(jì)劃的信息要少。
另一個(gè)問題是,很多統(tǒng)計(jì)過程背后的假設(shè)都基于完整的個(gè)案,而缺失值可能使所需的理論復(fù)雜化。
下面我們主要從下面四個(gè)方面來解說:
[if !supportLineBreakNewLine]
[endif]
實(shí)際應(yīng)用
理論思想
建立模型
[if !supportLineBreakNewLine]
[endif]
分析結(jié)果
[if !supportLineBreakNewLine]
[endif]
一、實(shí)際應(yīng)用
[if !supportLineBreakNewLine]
[endif]
眾所周知,在諸如收入、交通事故等問題的研究中,因?yàn)楸徽{(diào)查者拒絕回答或者由于調(diào)查研究中的損耗,會(huì)存在一些未回答的問題。
例如在一次人口調(diào)查中,15%的人沒有回答收入情況,高收入者的回答率比中等收入者要低,或者在嚴(yán)重交通事故報(bào)告中,諸如是否使用安全帶和酒精濃度等關(guān)鍵問題在很多個(gè)案中都沒有記錄,這些缺失的個(gè)案值便是缺失值。缺失值主要表現(xiàn)為以下3種:(1)完全隨機(jī)缺失(Missing Completely At Random,MCAR),表示缺失和變量的取值無關(guān)。例如,假設(shè)在研究年齡和收入的關(guān)系,如果缺失的數(shù)據(jù)和年齡或收入數(shù)值無關(guān),則缺失值方式為MCAR。要評(píng)估MCAR是否為站得住腳的假設(shè),可以通過比較回答者和未回答者的分布來評(píng)估觀察數(shù)據(jù)。也可以使用單變量t-檢驗(yàn)或Little's MCAR多變量檢驗(yàn)來進(jìn)行更正規(guī)的評(píng)估。如果MCAR假設(shè)為真,可以使用列表刪除(listwise deletion)(完整個(gè)案分析),無須擔(dān)心估計(jì)偏差,盡管可能會(huì)喪失一些有效性。如果MCAR不成立,列表刪除、均值置換等逼近方法就可能不是好的選擇。(2)隨機(jī)缺失(Missing At Random,MAR),缺失分布中調(diào)查變量只依賴于數(shù)據(jù)組中有記錄的變量。繼續(xù)上面的例子,考慮年齡全部被觀察,而收入有時(shí)有缺失,如果收入缺失值僅依賴于年齡,缺失值就為MAR。(3)非隨機(jī)缺失。這是研究者最不愿意看到的情形,數(shù)據(jù)的缺失不僅和其他變量的取值有關(guān),也和自身有關(guān)。如果收入缺失值依賴于收入值,則既不是MCAR,也不是MAR。
[if !supportLineBreakNewLine]
[endif]
二、理論思想
SPSS主要對(duì)MCAR和MAR兩種缺失值情況進(jìn)行分析。
區(qū)別MCAR和MAR的含義在于:由于MCAR實(shí)際上很難遇到,應(yīng)該在進(jìn)行調(diào)查之前就考慮哪些重要變量可能會(huì)有非無效的未回答,還要盡量在調(diào)查中包括共變量,以便用這些變量來估算缺失值。
[if !supportLineBreakNewLine]
[endif]
針對(duì)不同情況的缺失值,SPSS操作給出了以下3種處理方法:
(1)刪除缺失值,這種方法適用于缺失值非常少的時(shí)候,它不需要專門的步驟,通常在相應(yīng)的分析對(duì)話框的“選項(xiàng)”子對(duì)話框中進(jìn)行設(shè)置。
(2)替換缺失值,利用“轉(zhuǎn)換”菜單中的“替換缺失值”命令將所有的記錄看成一個(gè)序列,然后采用某種指標(biāo)對(duì)缺失值進(jìn)行填充。
(3)缺失值分析過程,缺失值分析過程是SPSS專門針對(duì)缺失值分析而提供的模塊。
缺失值分析過程有以下3個(gè)主要功能:(1)描述缺失值的模式。通過缺失值分析的診斷報(bào)告,用戶可以明確地知道缺失值所在位置及其出現(xiàn)的比例是多少,還可以推斷缺失值是否為隨機(jī)缺失等。(2)利用列表法、成對(duì)法、回歸法或EM(期望最大化)法等為含缺失值的數(shù)據(jù)估算平均值、標(biāo)準(zhǔn)誤差、協(xié)方差和相關(guān)性,成對(duì)法還可顯示成對(duì)完整個(gè)案的計(jì)數(shù)。(3)使用回歸法或EM法用估算值填充(插補(bǔ))缺失值,以此提高統(tǒng)計(jì)結(jié)果的可信度。缺失數(shù)據(jù)可以是分類數(shù)據(jù)或定量數(shù)據(jù)(刻度或連續(xù)),盡管如此,SPSS只能為定量變量估計(jì)統(tǒng)計(jì)數(shù)據(jù)并插補(bǔ)缺失數(shù)據(jù)。對(duì)于每個(gè)變量,必須將未編碼為系統(tǒng)缺失值的缺失值定義為用戶缺失值。舍爾判別法利用投影的方法使多維問題簡化為一維問題來處理。其通過建立線性判別函數(shù)計(jì)算出各個(gè)觀測量在各典型變量維度上的坐標(biāo)并得出樣本距離各個(gè)類中心的距離,以此作為分類依據(jù)。
[if !supportLineBreakNewLine]
[endif]
[if !supportLineBreakNewLine]
[endif]
三、建立模型
缺失值分析案例:
[if !supportLineBreakNewLine]
[endif]
題目:下表的某些人口統(tǒng)計(jì)數(shù)據(jù)值已被缺失值替換。該假設(shè)數(shù)據(jù)文件涉及某電信公司在減少客戶群中的客戶流失方面的舉措,每個(gè)個(gè)案對(duì)應(yīng)一個(gè)單獨(dú)的客戶,并記錄各類人口統(tǒng)計(jì)和服務(wù)用途信息。下面將結(jié)合本數(shù)據(jù)文件詳細(xì)說明如何得到數(shù)據(jù)文件的缺失值,從而認(rèn)識(shí)SPSS的缺失值分析過程。
一、數(shù)據(jù)輸入
二、操作步驟1、進(jìn)入SPSS,打開相關(guān)數(shù)據(jù)文件,“分析”|“缺失值分析”命令2、選擇“婚姻狀況[marital]”“受教育水平[ed]”“退休[retire]”及“性別[gender]”4個(gè)變量進(jìn)入“分類變量”列表框;選擇“服務(wù)月數(shù)[tenure]”“年齡[age]”“在現(xiàn)住址居住年數(shù)[address]”“家庭收入(千)[income]”“現(xiàn)職位工作年數(shù)[employ]”及“家庭人數(shù)[reside]”6個(gè)變量進(jìn)入“定量變量”列表框。
3、在“缺失值分析”對(duì)話框中單擊“模式”按鈕,彈出“缺失值分析:模式”對(duì)話框,選中“顯示”選項(xiàng)組中的“個(gè)案表(按缺失值模式分組)”復(fù)選框,從“以下對(duì)象的缺失模式”列表框中選中income、ed、retire和gender 4個(gè)變量進(jìn)入“以下對(duì)象的附加信息”列表框中。
其他采用默認(rèn)設(shè)置。設(shè)置完畢后,單擊“繼續(xù)”按鈕,回到“缺失值分析”對(duì)話框。
4、單擊“描述”按鈕,彈出“缺失值分析:描述”對(duì)話框。選中“單變量統(tǒng)計(jì)”復(fù)選框及“指示符變量統(tǒng)計(jì)”選項(xiàng)組中的“使用由指示符變量構(gòu)成的組執(zhí)行t檢驗(yàn)”和“生成分類變量和指示符變量的交叉表”復(fù)選框,其他采用默認(rèn)設(shè)置。
5、勾選EM,其余設(shè)置采用系統(tǒng)默認(rèn)值即可。單擊“確定”按鈕,等待輸出結(jié)果。
[if !supportLineBreakNewLine]
[endif]
四、結(jié)果分析
1、單變量統(tǒng)計(jì)表下表給出了所有分析變量未缺失數(shù)據(jù)的頻數(shù)、平均值和標(biāo)準(zhǔn)差,同時(shí)給出了缺失值的個(gè)數(shù)和百分比以及極值的統(tǒng)計(jì)信息。通過這些信息,我們可以初步了解數(shù)據(jù)的概貌特征,以employ一欄為例,employ變量的有效數(shù)據(jù)有904個(gè),它們的平均值為11,標(biāo)準(zhǔn)差為10.113,缺失數(shù)據(jù)有96個(gè),占數(shù)據(jù)總數(shù)的比例為9.6%,有15個(gè)極大值。
2、估算表下兩個(gè)表使用EM法進(jìn)行缺失值的估算后,總體數(shù)據(jù)的均值和標(biāo)準(zhǔn)差的變化情況,其中“所有值”為原始數(shù)據(jù)的統(tǒng)計(jì)特征,EM為使用EM法后總體數(shù)據(jù)的統(tǒng)計(jì)特征。
3
、獨(dú)立方差t檢驗(yàn)表獨(dú)立方差t測試結(jié)果,用戶可以從中找出影響其他定量變量的變量的缺失值模式,即通過單個(gè)方差t統(tǒng)計(jì)量結(jié)果,檢驗(yàn)缺失值是否為完全隨機(jī)缺失。可以看出,年齡大的人傾向于不報(bào)告收入水平,當(dāng)收入值缺失時(shí),age的均值是49.73,當(dāng)收入值完整時(shí),age的均值為40.01。通過income一欄的t統(tǒng)計(jì)量可以看出,income的缺失將明顯影響其他定量變量,這就說明income的缺失不是完全隨機(jī)缺失。
4、分類變量和定量變量交叉表以marital為例給出了分類變量與其他定量變量間的交叉表。該表給出了在不同婚姻情況下,各分類變量非缺失的個(gè)數(shù)和百分比,以及各種缺失值的個(gè)數(shù)和百分比,圖中標(biāo)識(shí)了系統(tǒng)缺失值的取值,以及各變量在不同婚姻情況中的分布情況。
5、表格模式輸出結(jié)果下表給出了表格模式輸出結(jié)果(缺失值樣式表),它給出了缺失值分布的詳細(xì)信息,X為使用該模式下缺失的變量。由圖可以看出,所有顯示的950個(gè)個(gè)案中,9個(gè)變量值都完整的個(gè)案數(shù)有475個(gè),缺失income值的個(gè)案有109個(gè),同時(shí)缺失address和income值的個(gè)案有16個(gè),其他數(shù)據(jù)的解釋類似。
6、EM估算統(tǒng)計(jì)表下面三個(gè)表給出了EM算法的相關(guān)統(tǒng)計(jì)量,包括EM平均值、協(xié)方差和相關(guān)性。從EM平均值輸出結(jié)果中可知,age變量的平均值為41.91,從EM協(xié)方差輸出結(jié)果中可知,age和tenture間的協(xié)方差值為135.326,從EM相關(guān)性輸出結(jié)果中可知,age與tenture的相關(guān)系數(shù)為0.496。另外,從三個(gè)表格下方的利特爾的MCAR檢驗(yàn)可知,卡方檢驗(yàn)的顯著性值明顯小于0.05,因此,我們拒絕了缺失值為完全隨機(jī)缺失(MCAR)的假設(shè),這也驗(yàn)證了3、獨(dú)立方差t檢驗(yàn)表所得到的結(jié)論。
[if !supportLineBreakNewLine]
[endif]
參考案例數(shù)據(jù):
[if !supportLineBreakNewLine]
[endif]
[if !supportLists]【1】????[endif]spss統(tǒng)計(jì)分析從入門到精通 (第四版)? 楊維忠,陳勝可,劉榮? 清華大學(xué)出版社
(獲取更多知識(shí),前往gz號(hào)程式解說)
原文來自https://mp.weixin.qq.com/s/CsMIoA_vu8HJoPvW16oNFg