正態(tài)性檢驗(yàn)-多種檢驗(yàn)方法

?其實(shí)好多細(xì)心的小伙伴都發(fā)現(xiàn)了,我們?cè)谶M(jìn)行部分常規(guī)統(tǒng)計(jì)操作前,很多限制條件都是規(guī)定數(shù)據(jù)必須滿足正態(tài)分布,那今天我將介紹幾種SPSS中檢驗(yàn)數(shù)據(jù)正態(tài)性的方法。

一、S-W(夏皮洛-威爾克)和K-S(柯?tīng)柲缏宸?斯米爾諾夫)正態(tài)性檢驗(yàn)

我們拿之前學(xué)過(guò)的獨(dú)立樣本t檢驗(yàn)的例3-7舉例。

S-W檢驗(yàn)和K-S檢驗(yàn)結(jié)果都是P>0.05,因?yàn)閮蓚€(gè)檢驗(yàn)H0都是:兩組數(shù)據(jù)滿足正態(tài)分布,所以P>0.05是我們所需要的。注:在解讀P值前,一定要先知道零假設(shè)H0和備擇假設(shè)H1代表的是什么,否則會(huì)對(duì)P值的解讀出現(xiàn)偏差。

關(guān)于如何選擇K-S還是S-W檢驗(yàn)?zāi)兀?/b>

主要就是樣本量,大樣本選擇K-S檢驗(yàn);小樣本選擇S-W檢驗(yàn)。

對(duì)于樣本量大小的定義,眾說(shuō)紛紜,甚至對(duì)于某些數(shù)據(jù),K-S和S-W給出截然不同的兩種結(jié)果。我個(gè)人的經(jīng)驗(yàn)是:樣本量>4000在正態(tài)性檢驗(yàn)里算大樣本,只要低于4000,一律選擇S-W檢驗(yàn)。(個(gè)人經(jīng)驗(yàn),僅供參考)

一、圖形法

一、直方圖-正態(tài)曲線

依舊之前的操作,只是在圖形按鈕處有所勾選。

通過(guò)構(gòu)建帶正態(tài)曲線的直方圖,我們可以看出兩組數(shù)據(jù)的大致分布。直方圖顯示,兩組數(shù)據(jù)確實(shí)基本符合正態(tài)曲線的走勢(shì)。

圖形法的最重要的意義就是輔助正態(tài)性檢驗(yàn),共同下達(dá)是否滿足正態(tài)性的結(jié)論。

因?yàn)閷?duì)于一般的統(tǒng)計(jì)分析工作,對(duì)于數(shù)據(jù)的正態(tài)性要求并不是吹毛求疵,一般都會(huì)有一定的耐受性。

如何定義耐受性呢?

正態(tài)性檢驗(yàn)是軟件從公式計(jì)算層面,告訴研究者數(shù)據(jù)的情況,這就讓研究者無(wú)法確定所謂的近似正態(tài)分布的程度是多少,這個(gè)概念很模糊,多近似才是近似呢?這就給初學(xué)者造成了不少困擾。

近似正態(tài)分布就是要讓研究者結(jié)合圖形法,通過(guò)主觀觀測(cè),人為地去定義。

當(dāng)然僅僅通過(guò)直方圖是不夠的,還需要接下來(lái)幾個(gè)圖形共同判定。

二、Q-Q圖和去趨勢(shì)的Q-Q圖

關(guān)于Q-Q圖的解讀也不難,這里我簡(jiǎn)單說(shuō)一下其原理。(其實(shí)也不用懂,不感興趣的小伙伴直接跳過(guò)就行)

(擴(kuò)展)

1、我們將一組數(shù)據(jù)表示為下圖這樣,并提出問(wèn)題:這一序列是否服從正態(tài)分布。

2、先將該序列重新排序

3、再通過(guò)專用公式,計(jì)算Q值,隨之計(jì)算t值查表找到對(duì)應(yīng)的Q‘值

4、將Q-Q’作散點(diǎn)圖,與y=x進(jìn)行比較,如果散點(diǎn)基本在直線上幅度不是很大,我們就認(rèn)為該數(shù)據(jù)滿足正態(tài)分布。

這就是Q-Q'圖的大致計(jì)算過(guò)程,其實(shí)原理也不難,就是將數(shù)據(jù)的某分位數(shù)點(diǎn)Q和理論下的Q共同構(gòu)成散點(diǎn)圖,如果它是一條直線,那就滿足正態(tài)分布。

(接正文)

兩組數(shù)據(jù)的Q-Q圖基本都在一條直線上,上下波動(dòng)幅度也不大,我們就可以認(rèn)定該兩組數(shù)據(jù)具有正態(tài)性。

去趨勢(shì)Q-Q圖:

關(guān)于去趨勢(shì)Q-Q圖的原理,本人的理解并不準(zhǔn)確,在此就不誤導(dǎo)大眾了。因?yàn)榭煽纯刹豢矗吘惯€有其他圖可以參考。對(duì)于其解讀,我個(gè)人的經(jīng)驗(yàn)就是看有沒(méi)有明顯的規(guī)律性,比如典型的U型、喇叭型等,沒(méi)有就證明具有正態(tài)性,大家也可以簡(jiǎn)單這么理解。(僅供參考,如有高見(jiàn),歡迎探討)

二、P-P圖和去趨勢(shì)的P-P圖

P-P圖的圖形和Q-Q圖差不多,解讀起來(lái)也差不多。不一樣的是原理不同,P是指累積概率。如果數(shù)據(jù)正態(tài),那么數(shù)據(jù)的累積比例與正態(tài)分布累積比例基本保持一致。分別計(jì)算出數(shù)據(jù)累積比例,和假定正態(tài)時(shí)的數(shù)據(jù)分布累積比例;并且將實(shí)際數(shù)據(jù)累積比例作為X軸,將對(duì)應(yīng)正態(tài)分布累積比例作為Y軸,作散點(diǎn)圖。

解讀參考Q-Q圖,在此不贅述。

三、偏度和偏度

1、偏度:描述數(shù)據(jù)分布不對(duì)稱的方向和程度。

當(dāng)偏度≈0時(shí),可認(rèn)為分布是對(duì)稱的,服從正態(tài)分布。如圖2

當(dāng)偏度>0時(shí),分布右偏,峰尖在左,拖尾在右,也稱為正偏態(tài)。如圖3

當(dāng)偏度<0時(shí),分布左偏,峰尖在右,拖尾在左,也稱為負(fù)偏態(tài)。如圖1

注:大家應(yīng)該也注意到了,所謂的左偏還是右偏,跟峰尖是相反的,看的是拖尾,表明數(shù)據(jù)在拖尾處更多。

2、峰度:描述數(shù)據(jù)分布的陡緩程度。

當(dāng)峰度≈0時(shí),分布屬于常峰態(tài),服從正態(tài)分布。

當(dāng)峰度>0時(shí),分布屬于尖峰態(tài)。

當(dāng)峰度<0時(shí),分布屬于低峰態(tài)。

由于案例是獨(dú)立樣本t檢驗(yàn),是有分組依據(jù)的,所以在此之前先拆分?jǐn)?shù)據(jù)。

頻率和描述都可以求得偏度和峰度,此處選擇頻率,對(duì)于描述請(qǐng)各位自行練習(xí)。

計(jì)算:

用偏度和峰度來(lái)看數(shù)據(jù)的正態(tài)性需要進(jìn)行后續(xù)的計(jì)算,也就是Z評(píng)分。Z=偏度or峰度/標(biāo)準(zhǔn)誤,在α=0.05的檢驗(yàn)水平下,如果Z在±1.96之間,則可以說(shuō)明數(shù)據(jù)服從正態(tài)分布。

阿卡波糖組:偏度=-0.619,Z=-0.619/0.512≈-1.209;峰度=0.631,Z=0.631/0.992≈0.636。

拜糖平組:偏度=0.036,Z=0.036/0.0.512≈0.070;峰度=-0.586,Z=-0.586/0.992≈0.591。

通過(guò)結(jié)果可以看出,數(shù)據(jù)是服從正態(tài)分布的。并且結(jié)合其他檢驗(yàn)方法,綜合判定這兩組數(shù)據(jù)服從正態(tài)分布,可以進(jìn)行獨(dú)立樣本t檢驗(yàn)。

關(guān)于正態(tài)性檢驗(yàn)?zāi)壳熬蛯W(xué)習(xí)完了,其實(shí)并不是說(shuō)一定要完成這么多步才能確定數(shù)據(jù)的正態(tài)性。一般來(lái)講,通過(guò)S-W檢驗(yàn)或者K-S檢驗(yàn)再配合直方圖和Q-Q圖就基本可以判定了,這里說(shuō)全一點(diǎn)是為了方便大家學(xué)習(xí)。拜拜。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容