99xav视频,亚洲色噜狠网站狠狠爱

對于成功的數(shù)據(jù)分析而言，把握數(shù)據(jù)整體的性質(zhì)是至關(guān)重要的，使用統(tǒng)計(jì)量來檢查數(shù)據(jù)特征，主要是檢查數(shù)據(jù)的集中程度、離散程度和分布形狀，通過這些統(tǒng)計(jì)量可以識別數(shù)據(jù)集整體上的一些重要性質(zhì)，對后續(xù)的數(shù)據(jù)分析，有很大的參考作用。

一，基本統(tǒng)計(jì)量

用于描述數(shù)據(jù)的基本統(tǒng)計(jì)量主要分為三類，分別是中心趨勢統(tǒng)計(jì)量、散布程度統(tǒng)計(jì)量和分布形狀統(tǒng)計(jì)量。

1，中心趨勢統(tǒng)計(jì)量

中心趨勢統(tǒng)計(jì)量是指表示位置的統(tǒng)計(jì)量，直觀地說，給定一個屬性，它的值大部分落在何處？

（1）均值

均值（mean）又稱算數(shù)平均數(shù)，描述數(shù)據(jù)去指導(dǎo)額平均位置，數(shù)學(xué)表達(dá)式：均值 =? ∑x? /? n；

有時(shí)，一組數(shù)據(jù)中的每個值可以和一個權(quán)重Wi相關(guān)聯(lián)，權(quán)重反映的的是依附值的重要性或出現(xiàn)的頻率，這種均值稱作加權(quán)均值 =? ∑xw? /? n；

盡管均值是描述數(shù)據(jù)集中心趨勢的最有用的統(tǒng)計(jì)量，但是，它并非總是度量數(shù)據(jù)中心的最佳方法，這是因?yàn)椋祵O端值（離群點(diǎn)）很敏感。為了抵消少數(shù)極端值的影響，我們可以使用截尾均值，截尾均值是指丟棄極端值后的均值。

（2）中位數(shù)

對于傾斜（非對稱）的數(shù)據(jù)，能夠更好地描述數(shù)據(jù)中心的統(tǒng)計(jì)量是中位數(shù)（median），中位數(shù)是有序數(shù)據(jù)值的中間值，中位數(shù)可避免極端數(shù)據(jù)，代表這數(shù)據(jù)總體的中等情況。例如：從小到大排序，總數(shù)是奇數(shù)，取中間的數(shù)，總數(shù)是偶數(shù)，取中間兩個數(shù)的平均數(shù)。

（3）眾數(shù)

眾數(shù)（mode）是變量中出現(xiàn)頻率最大的值，通常用于對定性數(shù)據(jù)確定眾數(shù)，例如：用戶狀態(tài)（正常，欠費(fèi)停機(jī)，申請停機(jī)，拆機(jī)、消號），該變量的眾數(shù)是 “正?！?則是正常的。

2，表示數(shù)據(jù)離散程度的統(tǒng)計(jì)量

度量數(shù)據(jù)離散程度的統(tǒng)計(jì)量主要是標(biāo)準(zhǔn)差和四分位極差。

（1）標(biāo)準(zhǔn)差（或方差）

標(biāo)準(zhǔn)差用于度量數(shù)據(jù)分布的離散程度，低標(biāo)準(zhǔn)差意味著數(shù)據(jù)觀測趨向于靠近均值，高標(biāo)準(zhǔn)差表示數(shù)據(jù)散步在一個大的值域中。

（2）四分位極差

極差（range），也稱作值域，是一組數(shù)據(jù)中的最大值和最小值的差， range = Max - Min。

百分位數(shù)（quantile）是把數(shù)據(jù)值按照從小到大的順序排列，把數(shù)據(jù)分成100份。中位數(shù)是數(shù)據(jù)的中間位置上的數(shù)據(jù)，第一個四分位數(shù)記作Q1，是指第25個百分位上的數(shù)據(jù)，第三個四分位數(shù)記作（Q3），是指第75個百分位上的數(shù)據(jù)。

四分位極差（IQR）= Q3 - Q1 ，IQR是指第一個四分位和第三個四分位之間的距離，它給出被數(shù)據(jù)的中間一半所覆蓋的范圍，是表示數(shù)據(jù)離散程度的一個簡單度量。

3，表示分布形狀的統(tǒng)計(jì)量

分布形狀使用偏度系數(shù)和峰度系數(shù)來度量，

偏度是用于衡量數(shù)據(jù)分布對稱性的統(tǒng)計(jì)量：通過對偏度系數(shù)的測量，我們能夠判定數(shù)據(jù)分布的不對稱程度以及方向。

對于正態(tài)分布(或嚴(yán)格對稱分布)偏度等于0

若偏度為負(fù)，?則x均值左側(cè)的離散度比右側(cè)強(qiáng)；

若偏度為正，?則x均值左側(cè)的離散度比右側(cè)弱；

峰度是用于衡量數(shù)據(jù)分布陡峭或平滑的統(tǒng)計(jì)量，通過對峰度系數(shù)的測量，我們能夠判定數(shù)據(jù)分布相對于正態(tài)分布而言是更陡峭還是平緩。

正態(tài)分布的峰度為3，

當(dāng)時(shí)間序列的曲線峰值比正態(tài)分布的高時(shí)，峰度大于3；

當(dāng)比正態(tài)分布的低時(shí)，峰度小于3。

（1）偏度系數(shù)

偏度系數(shù)反映數(shù)據(jù)分布偏移中心位置的程度，記為SK，則有?SK= (均值一中位數(shù))/標(biāo)準(zhǔn)差。偏度系數(shù)是描述分布偏離對稱性程度的一個特征數(shù)。

正態(tài)分布的偏度為0，偏度<0稱分布具有負(fù)偏離（左偏態(tài)），此時(shí)數(shù)據(jù)位于均值左邊的位于右邊的多，有個尾巴拖到左邊，說明左邊有極端值，偏度>0稱分布具有正偏離（右偏態(tài)）。偏度接近如于0 ，可認(rèn)為分布對稱。例如：知道分布有可能在偏度上偏離正態(tài)分布，則可用偏度來檢驗(yàn)分布的正態(tài)性。偏度的絕對值數(shù)值越大表示其分布形態(tài)的偏斜程度越大。

（2）峰度系數(shù)

峰度系數(shù)（Kurtosis）用來度量數(shù)據(jù)在中心聚集程度，記為K，描述總體中所有取值分布形態(tài)陡緩程度的統(tǒng)計(jì)量(與正態(tài)分布比較,，就是正態(tài)分布的峰頂)。

例如：正態(tài)分布的峰度系數(shù)值是3，K>3的峰度系數(shù)說明觀察量更集中，有比正態(tài)分布更短的尾部；K<3的峰度系數(shù)說明觀測量不那么集中，有比正態(tài)分布更長的尾部。

峰度系數(shù)公式是：

示例，本文使用vcd包中的Arthritis數(shù)據(jù)集來演示如何進(jìn)行統(tǒng)計(jì)量分析：

head(Arthritis)

? ID Treatment? Sex Age Improved57Treated Male27? ? Some46Treated Male29? ? None77Treated Male30? ? None17Treated Male32? Marked36Treated Male46? Marked23Treated Male58Marked

其中變量Improved和Sex是因子類型，ID和Age是數(shù)值類型。

二，集中趨勢度量

集中趨勢通過均值、中位數(shù)和眾數(shù)來度量。

1，均值

均值是所有數(shù)據(jù)的平均值，使用mean()函數(shù)來計(jì)算向量的均值：

age.mean <- mean(Arthritis$Age)

有時(shí)，為了反映在均值中不同成分所占的權(quán)重，為數(shù)據(jù)中的每個元素Xi?賦予一個權(quán)重Wi，這樣就得到了加權(quán)平均值，使用weighted.mean(x,w)來計(jì)算加權(quán)平均值。

weighted.mean(x,w)

x為數(shù)據(jù)向量，w為權(quán)重向量，x中每一個元素都對應(yīng)w中的一個權(quán)重值。

根據(jù)Sex來設(shè)置權(quán)重（weight），男性的Age的權(quán)重為95%，女性的Age的權(quán)重為105%，那么得到的加權(quán)平均值是：

age.wt <- ifelse(Arthritis$Sex=="Male",0.95,1.05)

age.wt.mean <- weighted.mean(Arthritis$Age,age.wt)

如果數(shù)據(jù)中存在極端值或者數(shù)據(jù)是偏態(tài)分布的，那么均值就不能很好地度量數(shù)據(jù)的集中趨勢，為了消除少數(shù)極端值的影響，可以使用截?cái)嗑祷蛘咧形粩?shù)來度量數(shù)據(jù)的集中趨勢。截?cái)嗑凳侵溉サ魳O端值之后的平均值。

2，中位數(shù)

中位數(shù)是把一組觀察值從小到大按順序排列，位于中間的那個數(shù)據(jù)。使用median(x)計(jì)算中位數(shù)。

age.median <- median(Arthritis$Age)

3，眾數(shù)

眾數(shù)是指數(shù)據(jù)集中出現(xiàn)最頻繁的值，眾數(shù)常用于定性數(shù)據(jù)。R沒有標(biāo)準(zhǔn)的內(nèi)置函數(shù)來計(jì)算眾數(shù)，因此，我們將創(chuàng)建一個用戶自定義函數(shù)來計(jì)算數(shù)據(jù)集的眾數(shù)。

該函數(shù)以向量作為輸入，以眾數(shù)值作為輸出。

getmode <-function(v) {? uniqv <- unique(v)

? uniqv[which.max(tabulate(match(v, uniqv)))]

}

三，離中趨勢度量

衡量離中趨勢的四個度量值：

值域（Range）的計(jì)算公式：Range?= Max - Min

標(biāo)準(zhǔn)差：度量數(shù)據(jù)偏離均值的程度

變異系數(shù)（CV）：變異系數(shù)度量標(biāo)準(zhǔn)差相對于均值的離中趨勢，計(jì)算公式是：CV=標(biāo)準(zhǔn)差/均值

四分位數(shù)間距（IQR）是上四分位數(shù)QU和下四分位數(shù)QL之差，其間包含全部觀察值的一般，其值越大，說明數(shù)據(jù)的變異程度越大，離中趨勢越明顯。

?查看Arthritis數(shù)據(jù)集的離中趨勢：

get_stat <-function(v){? v.mean <-mean(v)? v.median <-median(v)? v.range <- max(v)-min(v)? v.sd <-sd(v)? v.cv <- v.sd/v.mean? v.iqr <-? quantile(v,0.75) - quantile(v,0.25)? d.stat <- data.frame(mean=v.mean,median=v.median,range=v.range,sd=v.sd,cv=v.cv,iqr=v.iqr, row.names = NULL)

}

mystat <- get_stat(Arthritis$Age)?

四，偏度和峰度

基礎(chǔ)安裝包中沒有提供計(jì)算偏度和峰度的函數(shù)，用戶可以自行添加：

mystats <- function(x, na.omit=FALSE){

? ? if (na.omit)

? ? x <- x[!is.na(x)]

? ? m <- mean(x)

? ? n <- length(x)

? ? s <- sd(x)

? ? skew <- sum((x-m)^3/s^3)/n

? ? kurt <- sum((x-m)^4/s^4)/n -3return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt))

}

myvars <- c("mpg","hp","wt")

sapply(mtcars[myvars], mystats)

為大家推薦一篇文章：關(guān)于偏度與峰度的一些探索，引用該文中的峰度影響實(shí)驗(yàn)的結(jié)論：

尾部或離群點(diǎn)對峰度影響為正向，且影響程度最大。而高概率區(qū)對峰度影響也為正向，但是比較少；而山腰位置，中等概率區(qū)域則影響為負(fù)向。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

猿學(xué)－數(shù)據(jù)特征分析（統(tǒng)計(jì)量分析）

猿學(xué)－數(shù)據(jù)特征分析（統(tǒng)計(jì)量分析）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

猿學(xué)－數(shù)據(jù)特征分析（統(tǒng)計(jì)量分析）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av