K-S檢驗,是不是感覺似曾相識。沒錯,就是之前我們檢驗數(shù)據(jù)正態(tài)性的那個K-S檢驗。它主要的作用就是檢驗數(shù)據(jù)的分布情況,最主要的當然就是正態(tài)分布,但還有其他的如均勻分布、指數(shù)分布和泊松分布(這3種分布我目前還沒有實踐過,以后有機會再說)。
原理:
Kolmogorov-Smirnov?Z?由觀察累積分布函數(shù)和理論累積分布函數(shù)之間的最大差分(取絕對值)計算而得。該擬合優(yōu)度檢驗檢驗了觀察值是否合理來自指定的分布。
數(shù)據(jù):
使用定量變量(定距或者定比測量級別)
對于正態(tài)檢驗來說,最好樣本量>4000,這樣效果較好
基本假設:
H0:樣本數(shù)據(jù)所在總體服從已知分布
H1:樣本數(shù)據(jù)所在總體不服從已知分布
調(diào)整的?K-S?Lilliefors?檢驗:
以正態(tài)性檢驗為例,在多數(shù)分析場景下樣本所在的總體均值和標準差是未知的,此時檢驗正態(tài)性其實是用樣本的均值和標準差代替總體進行檢驗,此時的K-S檢驗就變成了經(jīng)Lilliefors調(diào)整后的K-S檢驗。
如果總體均值和標準差已知,那就直接進行K-S檢驗即可。
案例演示:
打開SPSS自帶的案例數(shù)據(jù)集demo.sav,是一個商場的銷售數(shù)據(jù),樣本量6400。此時我們考察每個顧客的家庭收入(千元)是否服從正態(tài)分布,我們只有樣本數(shù)據(jù),總體是未知的。
實際操作:
新版的SPSS推薦使用1,可視化程度更高;無論新舊都可以使用2,兩者結果無差異。此處我演示新版的操作,之后會與舊版做對比。
從結果來看,拒絕H0,說明數(shù)據(jù)并不滿足正態(tài)分布。按照之前我們學過的,應該再通過圖形法來輔助判斷,新版好就好在它直接就給出了帶正態(tài)曲線的直方圖。
下面那個就是剛剛原理提到過的,累積分布函數(shù)和理論累積分布函數(shù)之間的最大差分,就是通過這個計算得到的P值。(基本不用看)
上圖是舊版做出來的,結果完全一致,只是缺少了可視化的直方圖,得靠我們后面自己輸出,所以干脆直接用新版做簡潔明了。
單樣本K-S檢驗主要是用來檢驗數(shù)據(jù)分布的,可不是單樣本t檢驗的替代品,這一點要得先知道,后面會細說。拜拜。