統(tǒng)計(jì)學(xué)--3. 分散性與變異性

3. 分散性與變異性


  • 全距

也叫極差,用于度量數(shù)據(jù)集分散程度最簡(jiǎn)單的一種方法。測(cè)量數(shù)據(jù)的擴(kuò)展范圍、寬度。

計(jì)算方法:全距 = 上界(最大值) - 下界(最小值)

缺點(diǎn):全距僅僅描述了數(shù)據(jù)的寬度,并沒有描述數(shù)據(jù)在上、下界之間的分布情況。當(dāng)最大值和最小值有異常值時(shí),全距就極具誤導(dǎo)性。

  • 原本1-5之間的數(shù),全距為4;上界只添加了一個(gè)10,全距就變成9。


  • 四分位數(shù)

    將整批數(shù)據(jù)一分為四,最小的四分位數(shù)稱下四分位數(shù),最大的為上四分位數(shù)。中間的四分位數(shù)稱中位數(shù)。

    每?jī)蓚€(gè)四分位數(shù)直接的距離稱四分位距。

    公式: 四分位距 = 上四分位數(shù) - 下四分位數(shù)

    優(yōu)點(diǎn):與全距相比,較少受到異常值影響,因?yàn)楫惓V挡豢赡芪挥谥行奈恢?,要么極大,要么極小,四分位距可以將異常值統(tǒng)統(tǒng)鏟除。

    效果:經(jīng)過剔除后,四分位距僅僅保留了中間最有代表的50%的數(shù)據(jù)。

  • 計(jì)算方法:

    1. 下四分位數(shù)

      • 先把總位數(shù)(頻數(shù))4等分,n /4.

      • 結(jié)果是整數(shù),則下四分位數(shù)位于“n /4”這個(gè)位置和下一個(gè)位置的中間,取二者的均值,所得即為結(jié)果。

      • 結(jié)果不是整數(shù),向上取整,所得即為結(jié)果。

    2. 上四分位數(shù)

      • 先把總位數(shù)(頻數(shù)),3n /4.

      • 結(jié)果是整數(shù),則上四分位數(shù)位于“3n /4”這個(gè)位置和下一個(gè)位置的中間,取二者的均值,所得即為結(jié)果。

      • 結(jié)果不是整數(shù),向上取整,所得即為結(jié)果。

    核心:用一組數(shù)據(jù)的四分之一位置的數(shù)減去四分之三位置的數(shù),去掉有異常頭部和尾部,保留核心的中間 50%的位置

    • 實(shí)例:計(jì)算下面表格的全距和四分位距:
比賽得分 3 6 7 10 11 13 30
頻數(shù) 2 1 2 3 1 1 1
  1. 全距:

  1. 下四分位數(shù),上四分位數(shù):

  2. 四分位距:

  • 百分位數(shù)

四分位數(shù)是將數(shù)據(jù)一分為四的數(shù)值,同理,將數(shù)據(jù)一份為百的數(shù)值就是百分位數(shù)。

第k百分位數(shù)就是位于數(shù)據(jù)范圍k%處的數(shù)據(jù),常用Pk表示。

  • 用途:雖然不常用,但在劃分名詞,排行時(shí)很有用。

  • 例子:你英語(yǔ)測(cè)驗(yàn)考了50分,如果不跟別人比,你是無(wú)法知道自己考的好還是壞。但是告訴你測(cè)驗(yàn)的第90百分位數(shù)是50分,那么,你的分?jǐn)?shù)肯定高于或等于其他90%的人。


  • 求百分位方法:

    1. 將所有數(shù)值升序排列;

    2. 求出n個(gè)數(shù)字的第k百分位數(shù)的位置,計(jì)算k(n/100);

    3. 結(jié)果為整數(shù),則百分位數(shù)處于第k(n/100)位和下一位數(shù)之間,去兩個(gè)位置的均值。

    4. 結(jié)果不是整數(shù),則向上取整,結(jié)果即百分位數(shù)的位置。

  • 例子:有125個(gè)數(shù),求十分位數(shù),先計(jì)算10*125/100=12.5,向上取整得13,即十分位數(shù)為第13位的數(shù)值。

  • 箱線圖

    或稱箱形圖,能在同一張圖上體現(xiàn)多個(gè)距和四分位數(shù)?!跋洹憋@示四分位數(shù)和四分位距的位置,“線”則顯示出上、下界。

    圖示:

全距與四分位距的問題:它們僅告訴你最大值和最小值直接的差值,卻無(wú)法告訴你得這些最高分和最低分的頻率,以及更為穩(wěn)定的得分是多少。

  • 方差,標(biāo)準(zhǔn)差

度量分散性的一種方法,它描述了典型值與均值的距離。

公式:


簡(jiǎn)單算法:


  • 標(biāo)準(zhǔn)分

    當(dāng)有2組或多組不同的數(shù)據(jù)集進(jìn)行比較時(shí),都具有不同的均值和方差,普通方法就無(wú)法比較。而通過標(biāo)準(zhǔn)分,我們就可以把這些數(shù)據(jù)視為來(lái)自同一個(gè)數(shù)據(jù)集或數(shù)據(jù)分布,擁有相同的均值和方差,從而更方便比較。

    • 標(biāo)準(zhǔn)分用字母“z”表示,公式:
  • 作用:將幾個(gè)數(shù)據(jù)集轉(zhuǎn)換成一個(gè)新分布,這個(gè)新分布均值為0,標(biāo)準(zhǔn)差為1.

    z分布為正,表示數(shù)值高于均值;為負(fù)表示數(shù)值低于均值。

  • 案例:

  1. 標(biāo)準(zhǔn)分(z分):
    球員1:z = (75-70)/20 = 0.25 ;

    球員2:z =(55-40)/10 =1.5

  2. 比較:

    結(jié)果顯示:盡管總體上看球員1是更優(yōu)秀的選手,但是標(biāo)準(zhǔn)化后,球員2的得分比球員1得分更高。說明球員2相對(duì)于本人的歷史記錄,2表現(xiàn)的更好。

  • 通常,統(tǒng)計(jì)師會(huì)用距離均值若干個(gè)標(biāo)準(zhǔn)差表示某個(gè)特定數(shù)值的相對(duì)位置。用于衡量某個(gè)數(shù)值距離均值距離的遠(yuǎn)近。

    • 如:一個(gè)數(shù)值距離均值在1個(gè)標(biāo)準(zhǔn)差范圍內(nèi),標(biāo)準(zhǔn)分為[-1,1];
  • 2個(gè)標(biāo)準(zhǔn)差范圍內(nèi),標(biāo)準(zhǔn)分為[-2,2]。

  • 標(biāo)準(zhǔn)分與異常值:

    • 有時(shí)候可以將異常值定義為偏離均值3個(gè)標(biāo)準(zhǔn)差的數(shù)值,不過,具體因人、因行業(yè)需求而異。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容