3. 分散性與變異性
- 全距:
也叫極差,用于度量數(shù)據(jù)集分散程度最簡(jiǎn)單的一種方法。測(cè)量數(shù)據(jù)的擴(kuò)展范圍、寬度。
計(jì)算方法:全距 = 上界(最大值) - 下界(最小值)

缺點(diǎn):全距僅僅描述了數(shù)據(jù)的寬度,并沒有描述數(shù)據(jù)在上、下界之間的分布情況。當(dāng)最大值和最小值有異常值時(shí),全距就極具誤導(dǎo)性。
-
原本1-5之間的數(shù),全距為4;上界只添加了一個(gè)10,全距就變成9。
-
四分位數(shù):
將整批數(shù)據(jù)一分為四,最小的四分位數(shù)稱下四分位數(shù),最大的為上四分位數(shù)。中間的四分位數(shù)稱中位數(shù)。
每?jī)蓚€(gè)四分位數(shù)直接的距離稱四分位距。
公式: 四分位距 = 上四分位數(shù) - 下四分位數(shù)
優(yōu)點(diǎn):與全距相比,較少受到異常值影響,因?yàn)楫惓V挡豢赡芪挥谥行奈恢?,要么極大,要么極小,四分位距可以將異常值統(tǒng)統(tǒng)鏟除。
效果:經(jīng)過剔除后,四分位距僅僅保留了中間最有代表的50%的數(shù)據(jù)。

計(jì)算方法:
-
-
求下四分位數(shù):
先把總位數(shù)(頻數(shù))4等分,n /4.
結(jié)果是整數(shù),則下四分位數(shù)位于“n /4”這個(gè)位置和下一個(gè)位置的中間,取二者的均值,所得即為結(jié)果。
結(jié)果不是整數(shù),向上取整,所得即為結(jié)果。
-
求上四分位數(shù):
先把總位數(shù)(頻數(shù)),3n /4.
結(jié)果是整數(shù),則上四分位數(shù)位于“3n /4”這個(gè)位置和下一個(gè)位置的中間,取二者的均值,所得即為結(jié)果。
結(jié)果不是整數(shù),向上取整,所得即為結(jié)果。
核心:用一組數(shù)據(jù)的四分之一位置的數(shù)減去四分之三位置的數(shù),去掉有異常頭部和尾部,保留核心的中間 50%的位置
- 實(shí)例:計(jì)算下面表格的全距和四分位距:
-
| 比賽得分 | 3 | 6 | 7 | 10 | 11 | 13 | 30 |
|---|---|---|---|---|---|---|---|
| 頻數(shù) | 2 | 1 | 2 | 3 | 1 | 1 | 1 |
-
全距:
-
下四分位數(shù),上四分位數(shù):
-
四分位距:
- 百分位數(shù):
四分位數(shù)是將數(shù)據(jù)一分為四的數(shù)值,同理,將數(shù)據(jù)一份為百的數(shù)值就是百分位數(shù)。
第k百分位數(shù)就是位于數(shù)據(jù)范圍k%處的數(shù)據(jù),常用Pk表示。

用途:雖然不常用,但在劃分名詞,排行時(shí)很有用。
-
例子:你英語(yǔ)測(cè)驗(yàn)考了50分,如果不跟別人比,你是無(wú)法知道自己考的好還是壞。但是告訴你測(cè)驗(yàn)的第90百分位數(shù)是50分,那么,你的分?jǐn)?shù)肯定高于或等于其他90%的人。
-
求百分位方法:
將所有數(shù)值升序排列;
求出n個(gè)數(shù)字的第k百分位數(shù)的位置,計(jì)算k(n/100);
結(jié)果為整數(shù),則百分位數(shù)處于第k(n/100)位和下一位數(shù)之間,去兩個(gè)位置的均值。
結(jié)果不是整數(shù),則向上取整,結(jié)果即百分位數(shù)的位置。
例子:有125個(gè)數(shù),求十分位數(shù),先計(jì)算10*125/100=12.5,向上取整得13,即十分位數(shù)為第13位的數(shù)值。
-
箱線圖
或稱箱形圖,能在同一張圖上體現(xiàn)多個(gè)距和四分位數(shù)?!跋洹憋@示四分位數(shù)和四分位距的位置,“線”則顯示出上、下界。
圖示:

全距與四分位距的問題:它們僅告訴你最大值和最小值直接的差值,卻無(wú)法告訴你得這些最高分和最低分的頻率,以及更為穩(wěn)定的得分是多少。
- 方差,標(biāo)準(zhǔn)差:
度量分散性的一種方法,它描述了典型值與均值的距離。
公式:

簡(jiǎn)單算法:

-
標(biāo)準(zhǔn)分:
當(dāng)有2組或多組不同的數(shù)據(jù)集進(jìn)行比較時(shí),都具有不同的均值和方差,普通方法就無(wú)法比較。而通過標(biāo)準(zhǔn)分,我們就可以把這些數(shù)據(jù)視為來(lái)自同一個(gè)數(shù)據(jù)集或數(shù)據(jù)分布,擁有相同的均值和方差,從而更方便比較。
- 標(biāo)準(zhǔn)分用字母“z”表示,公式:
-
作用:將幾個(gè)數(shù)據(jù)集轉(zhuǎn)換成一個(gè)新分布,這個(gè)新分布均值為0,標(biāo)準(zhǔn)差為1.
z分布為正,表示數(shù)值高于均值;為負(fù)表示數(shù)值低于均值。
案例:

-
標(biāo)準(zhǔn)分(z分):
球員1:z = (75-70)/20 = 0.25 ;球員2:z =(55-40)/10 =1.5
-
比較:
結(jié)果顯示:盡管總體上看球員1是更優(yōu)秀的選手,但是標(biāo)準(zhǔn)化后,球員2的得分比球員1得分更高。說明球員2相對(duì)于本人的歷史記錄,2表現(xiàn)的更好。

-
通常,統(tǒng)計(jì)師會(huì)用距離均值若干個(gè)標(biāo)準(zhǔn)差表示某個(gè)特定數(shù)值的相對(duì)位置。用于衡量某個(gè)數(shù)值距離均值距離的遠(yuǎn)近。
- 如:一個(gè)數(shù)值距離均值在1個(gè)標(biāo)準(zhǔn)差范圍內(nèi),標(biāo)準(zhǔn)分為[-1,1];
2個(gè)標(biāo)準(zhǔn)差范圍內(nèi),標(biāo)準(zhǔn)分為[-2,2]。
-
標(biāo)準(zhǔn)分與異常值:
- 有時(shí)候可以將異常值定義為偏離均值3個(gè)標(biāo)準(zhǔn)差的數(shù)值,不過,具體因人、因行業(yè)需求而異。






