箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),是利用數(shù)據(jù)中的五個(gè)統(tǒng)計(jì)量:最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)與最大值來描述數(shù)據(jù)的一種方法。它也可以粗略地看出數(shù)據(jù)是否具有有對(duì)稱性,分布的離散程度等信息;特別適用于對(duì)幾個(gè)樣本的比較。
注:四分位數(shù)(Quartile),即統(tǒng)計(jì)學(xué)中,把所有數(shù)值由小到大排列并分成四等份,處于三個(gè)分割點(diǎn)位置的數(shù)值就是四分位數(shù)。
? 第一四分位數(shù) (Q1),又稱“較小四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。
? 第二四分位數(shù) (Q2),又稱“中位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。
? 第三四分位數(shù) (Q3),又稱“較大四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。
? 第三四分位數(shù)與第一四分位數(shù)的差距又稱四分位距(InterQuartile Range,IQR)。
R語言中計(jì)算方法:
quantile函數(shù)直接計(jì)算四分位:
例如:data =?c(1,2,3,4,5,6.2,7,8,9,10)
quantile(data)? ?#其結(jié)果如下
0%? ? ? ?25%? ? ? ?50%? ? ? ?75%? ? ? ?100%
1.00? ? ? 3.25? ? ? ?5.60? ? ? ? 7.75? ? ? 10.00
其中0%:最小值;25%:第一四分位數(shù)Q1;50%:中位數(shù);75%:第三四分位數(shù);100%:最大值。
其計(jì)算方法為:
1. 排序,從小到大排列data;
2. 計(jì)算分位數(shù)的位置;pos = 1+ (n-1)*p,n為數(shù)據(jù)的總個(gè)數(shù),p為0-1之間的值
3. 給出分位數(shù)
注意:另一種分位數(shù)的計(jì)算方法為:其他與前面的一致。但是分位數(shù)位置的計(jì)算采用:pos = (n+1)*p,n為數(shù)據(jù)的總個(gè)數(shù),p為0-1之間的值。
四分位數(shù)的計(jì)算方法沒有一個(gè)統(tǒng)計(jì)的標(biāo)準(zhǔn),如果對(duì)此計(jì)算有要求的,需要注意函數(shù)的具體算法。
另外,boxplot中存在異常值,其規(guī)定標(biāo)準(zhǔn)如下:
當(dāng)數(shù)據(jù)中的值大于或小于箱體的四分位距IQR的1.5倍時(shí),認(rèn)定為異常值。
就是說當(dāng)某值大于(Q3+1.5*IQR)或小于(Q1-1.5*IQR)時(shí),處理時(shí)會(huì)認(rèn)定為異常值。