猿學(xué)-數(shù)據(jù)特征分析(統(tǒng)計(jì)量分析)

對于成功的數(shù)據(jù)分析而言,把握數(shù)據(jù)整體的性質(zhì)是至關(guān)重要的,使用統(tǒng)計(jì)量來檢查數(shù)據(jù)特征,主要是檢查數(shù)據(jù)的集中程度、離散程度和分布形狀,通過這些統(tǒng)計(jì)量可以識別數(shù)據(jù)集整體上的一些重要性質(zhì),對后續(xù)的數(shù)據(jù)分析,有很大的參考作用。

一,基本統(tǒng)計(jì)量

用于描述數(shù)據(jù)的基本統(tǒng)計(jì)量主要分為三類,分別是中心趨勢統(tǒng)計(jì)量、散布程度統(tǒng)計(jì)量和分布形狀統(tǒng)計(jì)量。

1,中心趨勢統(tǒng)計(jì)量

中心趨勢統(tǒng)計(jì)量是指表示位置的統(tǒng)計(jì)量,直觀地說,給定一個屬性,它的值大部分落在何處?

(1)均值

均值(mean)又稱算數(shù)平均數(shù),描述數(shù)據(jù)去指導(dǎo)額平均位置,數(shù)學(xué)表達(dá)式:均值 =? ∑x? /? n;

有時(shí),一組數(shù)據(jù)中的每個值可以和一個權(quán)重Wi相關(guān)聯(lián),權(quán)重反映的的是依附值的重要性或出現(xiàn)的頻率,這種均值稱作加權(quán)均值 =? ∑xw? /? n;

盡管均值是描述數(shù)據(jù)集中心趨勢的最有用的統(tǒng)計(jì)量,但是,它并非總是度量數(shù)據(jù)中心的最佳方法,這是因?yàn)椋祵O端值(離群點(diǎn))很敏感。為了抵消少數(shù)極端值的影響,我們可以使用截尾均值,截尾均值是指丟棄極端值后的均值。

(2)中位數(shù)

對于傾斜(非對稱)的數(shù)據(jù),能夠更好地描述數(shù)據(jù)中心的統(tǒng)計(jì)量是中位數(shù)(median),中位數(shù)是有序數(shù)據(jù)值的中間值,中位數(shù)可避免極端數(shù)據(jù),代表這數(shù)據(jù)總體的中等情況。例如:從小到大排序,總數(shù)是奇數(shù),取中間的數(shù),總數(shù)是偶數(shù),取中間兩個數(shù)的平均數(shù)。

(3)眾數(shù)

眾數(shù)(mode)是變量中出現(xiàn)頻率最大的值,通常用于對定性數(shù)據(jù)確定眾數(shù),例如:用戶狀態(tài)(正常,欠費(fèi)停機(jī),申請停機(jī),拆機(jī)、消號),該變量的眾數(shù)是 “正?!?則是正常的。

2,表示數(shù)據(jù)離散程度的統(tǒng)計(jì)量

度量數(shù)據(jù)離散程度的統(tǒng)計(jì)量主要是標(biāo)準(zhǔn)差和四分位極差。

(1)標(biāo)準(zhǔn)差(或方差)

標(biāo)準(zhǔn)差用于度量數(shù)據(jù)分布的離散程度,低標(biāo)準(zhǔn)差意味著數(shù)據(jù)觀測趨向于靠近均值,高標(biāo)準(zhǔn)差表示數(shù)據(jù)散步在一個大的值域中。

(2)四分位極差

極差(range),也稱作值域,是一組數(shù)據(jù)中的最大值和最小值的差, range = Max - Min。

百分位數(shù)(quantile)是把數(shù)據(jù)值按照從小到大的順序排列,把數(shù)據(jù)分成100份。中位數(shù)是數(shù)據(jù)的中間位置上的數(shù)據(jù),第一個四分位數(shù)記作Q1,是指第25個百分位上的數(shù)據(jù),第三個四分位數(shù)記作(Q3),是指第75個百分位上的數(shù)據(jù)。

四分位極差(IQR)= Q3 - Q1 ,IQR是指第一個四分位和第三個四分位之間的距離,它給出被數(shù)據(jù)的中間一半所覆蓋的范圍,是表示數(shù)據(jù)離散程度的一個簡單度量。

3,表示分布形狀的統(tǒng)計(jì)量

分布形狀使用偏度系數(shù)和峰度系數(shù)來度量,

偏度是用于衡量數(shù)據(jù)分布對稱性的統(tǒng)計(jì)量:通過對偏度系數(shù)的測量,我們能夠判定數(shù)據(jù)分布的不對稱程度以及方向。

對于正態(tài)分布(或嚴(yán)格對稱分布)偏度等于0

若偏度為負(fù),?則x均值左側(cè)的離散度比右側(cè)強(qiáng);

若偏度為正,?則x均值左側(cè)的離散度比右側(cè)弱;

峰度是用于衡量數(shù)據(jù)分布陡峭或平滑的統(tǒng)計(jì)量,通過對峰度系數(shù)的測量,我們能夠判定數(shù)據(jù)分布相對于正態(tài)分布而言是更陡峭還是平緩。

正態(tài)分布的峰度為3,

當(dāng)時(shí)間序列的曲線峰值比正態(tài)分布的高時(shí),峰度大于3;

當(dāng)比正態(tài)分布的低時(shí),峰度小于3。

(1)偏度系數(shù)

偏度系數(shù)反映數(shù)據(jù)分布偏移中心位置的程度,記為SK,則有?SK= (均值一中位數(shù))/標(biāo)準(zhǔn)差。偏度系數(shù)是描述分布偏離對稱性程度的一個特征數(shù)。

正態(tài)分布的偏度為0,偏度<0稱分布具有負(fù)偏離(左偏態(tài)),此時(shí)數(shù)據(jù)位于均值左邊的位于右邊的多,有個尾巴拖到左邊,說明左邊有極端值,偏度>0稱分布具有正偏離(右偏態(tài))。偏度接近如于0 ,可認(rèn)為分布對稱。例如:知道分布有可能在偏度上偏離正態(tài)分布,則可用偏度來檢驗(yàn)分布的正態(tài)性。偏度的絕對值數(shù)值越大表示其分布形態(tài)的偏斜程度越大。

(2)峰度系數(shù)

峰度系數(shù)(Kurtosis)用來度量數(shù)據(jù)在中心聚集程度,記為K,描述總體中所有取值分布形態(tài)陡緩程度的統(tǒng)計(jì)量(與正態(tài)分布比較,,就是正態(tài)分布的峰頂)。

例如:正態(tài)分布的峰度系數(shù)值是3,K>3的峰度系數(shù)說明觀察量更集中,有比正態(tài)分布更短的尾部;K<3的峰度系數(shù)說明觀測量不那么集中,有比正態(tài)分布更長的尾部。

峰度系數(shù)公式是:

示例,本文使用vcd包中的Arthritis數(shù)據(jù)集來演示如何進(jìn)行統(tǒng)計(jì)量分析:

head(Arthritis)

? ID Treatment? Sex Age Improved57Treated Male27? ? Some46Treated Male29? ? None77Treated Male30? ? None17Treated Male32? Marked36Treated Male46? Marked23Treated Male58Marked

其中變量Improved和Sex是因子類型,ID和Age是數(shù)值類型。

二,集中趨勢度量

集中趨勢通過均值、中位數(shù)和眾數(shù)來度量。

1,均值

均值是所有數(shù)據(jù)的平均值,使用mean()函數(shù)來計(jì)算向量的均值:

age.mean <- mean(Arthritis$Age)

有時(shí),為了反映在均值中不同成分所占的權(quán)重,為數(shù)據(jù)中的每個元素Xi?賦予一個權(quán)重Wi,這樣就得到了加權(quán)平均值,使用weighted.mean(x,w)來計(jì)算加權(quán)平均值。

weighted.mean(x,w)

x為數(shù)據(jù)向量,w為權(quán)重向量,x中每一個元素都對應(yīng)w中的一個權(quán)重值。

根據(jù)Sex來設(shè)置權(quán)重(weight),男性的Age的權(quán)重為95%,女性的Age的權(quán)重為105%,那么得到的加權(quán)平均值是:

age.wt <- ifelse(Arthritis$Sex=="Male",0.95,1.05)

age.wt.mean <- weighted.mean(Arthritis$Age,age.wt)

如果數(shù)據(jù)中存在極端值或者數(shù)據(jù)是偏態(tài)分布的,那么均值就不能很好地度量數(shù)據(jù)的集中趨勢,為了消除少數(shù)極端值的影響,可以使用截?cái)嗑祷蛘咧形粩?shù)來度量數(shù)據(jù)的集中趨勢。截?cái)嗑凳侵溉サ魳O端值之后的平均值。

2,中位數(shù)

中位數(shù)是把一組觀察值從小到大按順序排列,位于中間的那個數(shù)據(jù)。使用median(x)計(jì)算中位數(shù)。

age.median <- median(Arthritis$Age)

3,眾數(shù)

眾數(shù)是指數(shù)據(jù)集中出現(xiàn)最頻繁的值,眾數(shù)常用于定性數(shù)據(jù)。R沒有標(biāo)準(zhǔn)的內(nèi)置函數(shù)來計(jì)算眾數(shù),因此,我們將創(chuàng)建一個用戶自定義函數(shù)來計(jì)算數(shù)據(jù)集的眾數(shù)。

該函數(shù)以向量作為輸入,以眾數(shù)值作為輸出。

getmode <-function(v) {? uniqv <- unique(v)

? uniqv[which.max(tabulate(match(v, uniqv)))]

}

三,離中趨勢度量

衡量離中趨勢的四個度量值:

值域(Range)的計(jì)算公式:Range?= Max - Min

標(biāo)準(zhǔn)差:度量數(shù)據(jù)偏離均值的程度

變異系數(shù)(CV):變異系數(shù)度量標(biāo)準(zhǔn)差相對于均值的離中趨勢,計(jì)算公式是:CV=標(biāo)準(zhǔn)差/均值

四分位數(shù)間距(IQR)是上四分位數(shù)QU和下四分位數(shù)QL之差,其間包含全部觀察值的一般,其值越大,說明數(shù)據(jù)的變異程度越大,離中趨勢越明顯。

?查看Arthritis數(shù)據(jù)集的離中趨勢:

get_stat <-function(v){? v.mean <-mean(v)? v.median <-median(v)? v.range <- max(v)-min(v)? v.sd <-sd(v)? v.cv <- v.sd/v.mean? v.iqr <-? quantile(v,0.75) - quantile(v,0.25)? d.stat <- data.frame(mean=v.mean,median=v.median,range=v.range,sd=v.sd,cv=v.cv,iqr=v.iqr, row.names = NULL)

}

mystat <- get_stat(Arthritis$Age)?

四,偏度和峰度

基礎(chǔ)安裝包中沒有提供計(jì)算偏度和峰度的函數(shù),用戶可以自行添加:

mystats <- function(x, na.omit=FALSE){

? ? if (na.omit)

? ? x <- x[!is.na(x)]

? ? m <- mean(x)

? ? n <- length(x)

? ? s <- sd(x)

? ? skew <- sum((x-m)^3/s^3)/n

? ? kurt <- sum((x-m)^4/s^4)/n -3return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt))

}

myvars <- c("mpg","hp","wt")

sapply(mtcars[myvars], mystats)

為大家推薦一篇文章:關(guān)于偏度與峰度的一些探索,引用該文中的峰度影響實(shí)驗(yàn)的結(jié)論:

尾部或離群點(diǎn)對峰度影響為正向,且影響程度最大。而高概率區(qū)對峰度影響也為正向,但是比較少;而山腰位置,中等概率區(qū)域則影響為負(fù)向。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容