Boxplot的介紹和使用

一、介紹

盒圖是在1977年由美國的統(tǒng)計學家約翰·圖基(John Tukey)發(fā)明的。它由五個數(shù)值點組成:最小值(min),下四分位數(shù)(Q1),中位數(shù)(median),上四分位數(shù)(Q3),最大值(max)。也可以往盒圖里面加入平均值(mean)。如上圖。下四分位數(shù)、中位數(shù)、上四分位數(shù)組成一個“帶有隔間的盒子”。上四分位數(shù)到最大值之間建立一條延伸線,這個延伸線成為“胡須(whisker)”。

由于現(xiàn)實數(shù)據(jù)中總是存在各式各樣地“臟數(shù)據(jù)”,也成為“離群點”,于是為了不因這些少數(shù)的離群數(shù)據(jù)導致整體特征的偏移,將這些離群點單獨匯出,而盒圖中的胡須的兩級修改成最小觀測值與最大觀測值。這里有個經(jīng)驗,就是最大(最小)觀測值設置為與四分位數(shù)值間距離為1.5個IQR(中間四分位數(shù)極差)。即IQR = Q3-Q1,即上四分位數(shù)與下四分位數(shù)之間的差,也就是盒子的長度。
最小觀測值為min = Q1 - 1.5*IQR,如果存在離群點小于最小觀測值,則胡須下限為最小觀測值,離群點單獨以點匯出。如果沒有比最小觀測值小的數(shù),則胡須下限為最小值。

最大觀測值為max = Q3 -1.5*IQR,如果存在離群點大于最大觀測值,則胡須上限為最大觀測值,離群點單獨以點匯出。如果沒有比最大觀測值大的數(shù),則胡須上限為最大值。

二、使用

由于現(xiàn)實數(shù)據(jù)中總是存在各式各樣地“臟數(shù)據(jù)”,也成為“離群點”,于是為了不因這些少數(shù)的離群數(shù)據(jù)導致整體特征的偏移,將這些離群點單獨匯出,而盒圖中的胡須的兩級修改成最小觀測值與最大觀測值。這里有個經(jīng)驗,就是最大(最小)觀測值設置為與四分位數(shù)值間距離為1.5個IQR(中間四分位數(shù)極差)。即:

三、方法

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容