強(qiáng)大的“距”
平均值擅長(zhǎng)尋找數(shù)據(jù)集典型值,但不能說(shuō)明一切。
接下來(lái)將分析各種“距”和“差”。
平均數(shù)反映了一部分信息,但是無(wú)法知道數(shù)據(jù)的變動(dòng)情況。實(shí)際案例中經(jīng)常也有平均數(shù)相等的情況出現(xiàn)。
比如球員得分,我們可以觀察球員得分相對(duì)于平均數(shù)的分散情況,來(lái)區(qū)分各個(gè)數(shù)據(jù)集。
如何度量這些分布情況?
全距
也叫極差, 使用數(shù)據(jù)集中的最大數(shù)減去最小數(shù)
最大數(shù)叫上界
最小數(shù)叫下界
如果有個(gè)別極大極小的異常值,會(huì)極大的影響全距值。
四分位距
四分位數(shù)的計(jì)算類似中位數(shù),不同之處在于需要求出將數(shù)據(jù)一分為四的三個(gè)數(shù)字,而不是求出將數(shù)據(jù)一分為二的一個(gè)數(shù)字。
最小的四分位數(shù)被稱為下四分位數(shù)或者第一四分位數(shù)。最大的四分位數(shù)稱為上四分位數(shù)或第三四分位數(shù)。中間的就是中位數(shù)。
四分位距 = 上四分位數(shù) - 下四分位數(shù)
可以剔除異常值
例如: 3 3 6 7 7 10 10 10 11 13 30
下四:6, 中位:10, 上四:11
百分位距
百分位數(shù): 第k百分位,就是位于數(shù)據(jù)k%范圍處的數(shù)值,常用Pk表示。
下四就是P25, 中位是P50, 上四是P75.
百分位距不常用。但是百分位數(shù)在劃分名次,以及排名中特別有用
求百分位數(shù)
- 數(shù)值升序排列
- 求出n個(gè)數(shù)字第k百分位數(shù)的位置,先計(jì)算 k(n/100)
- 結(jié)果若為整數(shù),則取k(n/100) 以及 k(n/100) + 1兩個(gè)位置上數(shù)字的平均值,得出百分位數(shù)
- 若不是整數(shù),則向上取整,結(jié)果即為百分位數(shù)位置(例如,結(jié)果若為6.3,則7就是百分位數(shù)位置)
箱線圖(箱型圖)
專門(mén)用來(lái)顯示各種各樣的距。顯示各種距以及四分位數(shù)的簡(jiǎn)明辦法。
箱線圖顯示數(shù)據(jù)的全距、四分位距、以及中位數(shù)。
是對(duì)不同數(shù)據(jù)集進(jìn)行比較的極好方法。

全距與四分位距:他能告訴你最大值與最小值的差距,卻無(wú)法告訴你最大值與最小值的頻率,然而這些值在某些場(chǎng)合十分有用。如何更精確的度量變異性?
方差 & 標(biāo)準(zhǔn)差
方差&標(biāo)準(zhǔn)差計(jì)算變異性。
方差有平方,標(biāo)準(zhǔn)差算是對(duì)平方的修正。
某種意義上標(biāo)準(zhǔn)差更直觀,粗略的體現(xiàn)了平均情況下的數(shù)值與均值的距離。

標(biāo)準(zhǔn)分
標(biāo)準(zhǔn)分表示距離均值的標(biāo)準(zhǔn)差的個(gè)數(shù)。
Z=(X-X_bar)/S
式中,X為原始分?jǐn)?shù),X_bar為原始分的平均數(shù),S為原始分的標(biāo)準(zhǔn)差。
標(biāo)準(zhǔn)分會(huì)被用于異常檢測(cè): 通常我們會(huì)用主觀來(lái)判斷異常值,但是有時(shí)候會(huì)把異常值定義為偏離均值三個(gè)標(biāo)準(zhǔn)差的數(shù)值。但是統(tǒng)計(jì)學(xué)家對(duì)此尚有分歧,請(qǐng)小心對(duì)待。