R語言箱線圖(boxplot)四分位算法

箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),是利用數(shù)據(jù)中的五個(gè)統(tǒng)計(jì)量:最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)與最大值來描述數(shù)據(jù)的一種方法。它也可以粗略地看出數(shù)據(jù)是否具有有對(duì)稱性,分布的離散程度等信息;特別適用于對(duì)幾個(gè)樣本的比較。

注:四分位數(shù)(Quartile),即統(tǒng)計(jì)學(xué)中,把所有數(shù)值由小到大排列并分成四等份,處于三個(gè)分割點(diǎn)位置的數(shù)值就是四分位數(shù)。

? 第一四分位數(shù) (Q1),又稱“較小四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。

? 第二四分位數(shù) (Q2),又稱“中位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。

? 第三四分位數(shù) (Q3),又稱“較大四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。

? 第三四分位數(shù)與第一四分位數(shù)的差距又稱四分位距(InterQuartile Range,IQR)。

R語言中計(jì)算方法:

quantile函數(shù)直接計(jì)算四分位:

例如:data =?c(1,2,3,4,5,6.2,7,8,9,10)

quantile(data)? ?#其結(jié)果如下

0%? ? ? ?25%? ? ? ?50%? ? ? ?75%? ? ? ?100%

1.00? ? ? 3.25? ? ? ?5.60? ? ? ? 7.75? ? ? 10.00

其中0%:最小值;25%:第一四分位數(shù)Q1;50%:中位數(shù);75%:第三四分位數(shù);100%:最大值。

其計(jì)算方法為:

1. 排序,從小到大排列data;

2. 計(jì)算分位數(shù)的位置;pos = 1+ (n-1)*p,n為數(shù)據(jù)的總個(gè)數(shù),p為0-1之間的值

3. 給出分位數(shù)

注意:另一種分位數(shù)的計(jì)算方法為:其他與前面的一致。但是分位數(shù)位置的計(jì)算采用:pos = (n+1)*p,n為數(shù)據(jù)的總個(gè)數(shù),p為0-1之間的值。

四分位數(shù)的計(jì)算方法沒有一個(gè)統(tǒng)計(jì)的標(biāo)準(zhǔn),如果對(duì)此計(jì)算有要求的,需要注意函數(shù)的具體算法。

另外,boxplot中存在異常值,其規(guī)定標(biāo)準(zhǔn)如下:

當(dāng)數(shù)據(jù)中的值大于或小于箱體的四分位距IQR的1.5倍時(shí),認(rèn)定為異常值。

就是說當(dāng)某值大于(Q3+1.5*IQR)或小于(Q1-1.5*IQR)時(shí),處理時(shí)會(huì)認(rèn)定為異常值。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容