3.4 描述性統(tǒng)計(jì)分析 之 探索性分析

探索性分析(Explore)主要用于在數(shù)據(jù)的分布情況未知時(shí),檢驗(yàn)數(shù)據(jù)的奇異值或輸入錯(cuò)誤,并使用圖形、描述統(tǒng)計(jì)量的方法獲得數(shù)據(jù)的基本特征,主要適用于區(qū)間數(shù)據(jù)分析。主要有以下幾種功能:

  • 計(jì)算描述統(tǒng)計(jì)量
  • 進(jìn)行正態(tài)性檢驗(yàn):檢驗(yàn)數(shù)據(jù)是否服從正態(tài)分布
  • 進(jìn)行方差齊性檢驗(yàn):利用Levene檢驗(yàn)不同組數(shù)據(jù)方差是否相等
  • 繪制多種統(tǒng)計(jì)分布圖,觀察其分布特征
  • 探測(cè)數(shù)據(jù)中的極端值(奇異值、離群值)
    示例:對(duì)數(shù)據(jù)中危重病人的APACHEIII評(píng)分及其預(yù)后情況進(jìn)行探索性分析,了解不同預(yù)后情況下的APACHEIII評(píng)分狀況,數(shù)據(jù)如下:


    image.png
  1. 打開 分析—描述統(tǒng)計(jì)—探索分析
    image.png
  2. 參數(shù)說明
    (1) 變量選擇
  • 因變量列表:需要分析的變量,可選擇多個(gè)變量,必須是數(shù)值型變量
  • 因子列表:分組變量,可選擇多個(gè)變量,最好是分類變量
  • 注意:若同時(shí)選入多個(gè)因變量和多個(gè)因子列表,將對(duì)他們之間的兩兩組合分別進(jìn)行分析。
  • 顯示欄:Statistics(統(tǒng)計(jì)量表格)、Plots(圖形)、Both(統(tǒng)計(jì)量表格和圖形)
    (2) 統(tǒng)計(jì)量設(shè)置
  • 描述:輸出描述性統(tǒng)計(jì)量,包括均值、中位數(shù)、眾數(shù)、5%截尾均值、方差等想用統(tǒng)計(jì)量
  • 平均值的置信區(qū)間:默認(rèn)95%置信區(qū)間
  • M-估計(jì)量:M估計(jì)值,描述平均水平;計(jì)算并輸出比均值和中位數(shù)更穩(wěn)定的數(shù)據(jù)中心估計(jì)值,包括:Hubers/Andrews/Hampels/Tukeys
  • 離群值:列出極端值,即最大和最小各5個(gè)數(shù)據(jù)
  • 百分位數(shù):輸出5%、10%、25%、50%、75%、90%、95%的百分位數(shù)
    image.png

    (3) 圖設(shè)置
    a.箱式圖:

因子級(jí)別并置:對(duì)于每個(gè)因素變量,每圖只顯示一個(gè)因變量,默然選項(xiàng)
因變量并置:對(duì)每個(gè)因素變量,每張圖顯示所有因素變量
無:顧名思義,不顯示箱式圖

b.描述圖:

莖葉圖:顯示莖葉圖,默認(rèn)選項(xiàng)
直方圖:做相應(yīng)變量的直方圖

c.含檢驗(yàn)的正態(tài)圖

進(jìn)行因變量的正態(tài)性檢驗(yàn),包括K-S統(tǒng)計(jì)檢驗(yàn)檢驗(yàn)Lilliefors置信水平。
繪制正態(tài)概率圖與去趨勢(shì)后的正態(tài)概率圖

d.含Levene萊文檢驗(yàn)的分布-水平圖

無:不做方差齊性檢驗(yàn),默認(rèn)
冪估算:估計(jì)數(shù)據(jù)冪轉(zhuǎn)換后的冪值
轉(zhuǎn)換后:數(shù)據(jù)轉(zhuǎn)換后做方差齊性檢驗(yàn),包括6種數(shù)據(jù)轉(zhuǎn)換:Natural log自然對(duì)數(shù)、1/Square root(平方根倒數(shù)變換)、Reciprocal(倒數(shù)變換)、Square root(平方根變換)、Square(平方變換)、Cube(立方變換)。
不做數(shù)據(jù)變換:用原始數(shù)據(jù)做方差齊性檢驗(yàn)。


image.png
  1. 輸出結(jié)果與說明
    (1) 處理摘要與描述性分析

結(jié)果顯示參與APACHEIII評(píng)分分析案例中,各預(yù)后情況分類的評(píng)分情況以及各描述性統(tǒng)計(jì)量,包括均值、截尾均值、四分位數(shù)、標(biāo)準(zhǔn)差等常用統(tǒng)計(jì)量。


image.png

image.png

(2) M估計(jì)量

表示平均水平的穩(wěn)健估計(jì)量,包括四種估計(jì)方法。其中Huber法適用于數(shù)據(jù)接近正態(tài)分布的情況,另外3種適用于數(shù)據(jù)中有過多異常值時(shí)。由下表可見,死亡組別的M估計(jì)值與均數(shù)和中位數(shù)非常接近,比較穩(wěn)健,接近于數(shù)據(jù)對(duì)稱分布。


image.png

(3) 極值列表

給出相應(yīng)的機(jī)制列表,每組的最大值、最小值最多給出5個(gè)。


image.png

(4) 正態(tài)性檢驗(yàn)

經(jīng)檢驗(yàn),兩組的p值均大于0.05,所以不拒絕正態(tài)分析的假設(shè),認(rèn)為死亡組和存活組評(píng)分呈正態(tài)分布。

image.png

(5) 方差齊性檢驗(yàn)

經(jīng)檢驗(yàn),四種方法計(jì)算出的P值均大于0.05,不拒絕零假設(shè),可認(rèn)為兩組總體方差相同

image.png

(6) 莖葉圖

莖葉圖由三部分構(gòu)成:葉子數(shù)目—頻率、莖的大小—Stem、葉子大小-leaf。其中,stem代表整數(shù)部分,leaf代表小數(shù)部分,可根據(jù)公式[(莖值+葉值×0.1)×莖寬] 可計(jì)算莖葉圖的近似值。
下方給出了莖的寬度:10。每一片葉子 加上 莖 近似于對(duì)應(yīng)一個(gè)原始數(shù)據(jù)。
如:最后一行莖葉是7.2,則對(duì)應(yīng)原始數(shù)據(jù)約等于 (7+0.2)*10 = 72,其中10是莖的寬度。

image.png

(7) 正態(tài)分布概率圖

在下圖中,直線是正態(tài)分布的標(biāo)準(zhǔn)參考線,散點(diǎn)越接近這條直線,則該變量的分布越接近正態(tài)分布。

image.png

趨降標(biāo)準(zhǔn)Q-Q圖反應(yīng)的是正態(tài)分布理論值與實(shí)際值之差的分布情況。若均勻分布在執(zhí)行y=0兩側(cè),且沒有顯示出明顯的曲線模式,如S、V型,因此,可認(rèn)為服從正態(tài)分布

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容