非參數(shù)檢驗-單樣本K-S檢驗

K-S檢驗,是不是感覺似曾相識。沒錯,就是之前我們檢驗數(shù)據(jù)正態(tài)性的那個K-S檢驗。它主要的作用就是檢驗數(shù)據(jù)的分布情況,最主要的當然就是正態(tài)分布,但還有其他的如均勻分布、指數(shù)分布和泊松分布(這3種分布我目前還沒有實踐過,以后有機會再說)。

原理:

Kolmogorov-Smirnov?Z?由觀察累積分布函數(shù)理論累積分布函數(shù)之間的最大差分(取絕對值)計算而得。該擬合優(yōu)度檢驗檢驗了觀察值是否合理來自指定的分布。

數(shù)據(jù):

使用定量變量(定距或者定比測量級別)

對于正態(tài)檢驗來說,最好樣本量>4000,這樣效果較好

基本假設:

H0:樣本數(shù)據(jù)所在總體服從已知分布

H1:樣本數(shù)據(jù)所在總體不服從已知分布

調(diào)整的?K-S?Lilliefors?檢驗:

以正態(tài)性檢驗為例,在多數(shù)分析場景下樣本所在的總體均值和標準差是未知的,此時檢驗正態(tài)性其實是用樣本的均值和標準差代替總體進行檢驗,此時的K-S檢驗就變成了經(jīng)Lilliefors調(diào)整后的K-S檢驗。

如果總體均值和標準差已知,那就直接進行K-S檢驗即可。

案例演示:

打開SPSS自帶的案例數(shù)據(jù)集demo.sav,是一個商場的銷售數(shù)據(jù),樣本量6400。此時我們考察每個顧客的家庭收入(千元)是否服從正態(tài)分布,我們只有樣本數(shù)據(jù),總體是未知的。

實際操作:

新版的SPSS推薦使用1,可視化程度更高;無論新舊都可以使用2,兩者結果無差異。此處我演示新版的操作,之后會與舊版做對比。

從結果來看,拒絕H0,說明數(shù)據(jù)并不滿足正態(tài)分布。按照之前我們學過的,應該再通過圖形法來輔助判斷,新版好就好在它直接就給出了帶正態(tài)曲線的直方圖。

下面那個就是剛剛原理提到過的,累積分布函數(shù)和理論累積分布函數(shù)之間的最大差分,就是通過這個計算得到的P值。(基本不用看)

上圖是舊版做出來的,結果完全一致,只是缺少了可視化的直方圖,得靠我們后面自己輸出,所以干脆直接用新版做簡潔明了。

單樣本K-S檢驗主要是用來檢驗數(shù)據(jù)分布的,可不是單樣本t檢驗的替代品,這一點要得先知道,后面會細說。拜拜。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容