統(tǒng)計(jì)學(xué)--2.統(tǒng)計(jì)學(xué)基礎(chǔ)概念

簡(jiǎn)述

簡(jiǎn)述統(tǒng)計(jì)學(xué)基礎(chǔ)概念,均值,異常值,中位數(shù),眾數(shù),方差,四分位數(shù),標(biāo)準(zhǔn)分的概念。以及應(yīng)用和為什么會(huì)有這么多概念。(我都不知道自己在干啥,為啥要從頭開始,我不是小學(xué)或者初中生(?_?))

故事從均值開始

均值是數(shù)據(jù)中比較有代表性的數(shù)值,也是匯總數(shù)據(jù)常用的方式。離散的點(diǎn)均值計(jì)算方法為,把所有點(diǎn)的值相加,并除以點(diǎn)的個(gè)數(shù):X_1,X2,,,Xn一共是n個(gè)數(shù),均值\mu等于: \mu=\frac {X_1+X_2+...+X_n} {n}
有了均值之后人們?cè)趹?yīng)用中發(fā)現(xiàn)均值還不能完全的描述數(shù)據(jù)。例如我想買一個(gè)適合青年人玩兒的游戲,我看了3款游戲的均值,一款均值15,一款25,一款35。然后我買了25的,發(fā)現(xiàn)被均值騙了,里面都是小學(xué)生帶著老爺爺在玩兒。為什么會(huì)出現(xiàn)這種情況,我們來(lái)看看數(shù)據(jù):
13,12,12,12,12,15,60,64 這是我挑選的游戲的玩家的年齡。一共8個(gè)人,均值可以計(jì)算\mu=(13+12*4+15+60+64)/8=25 但是實(shí)際上在這款游戲里根本沒有與我年齡相近的人。因?yàn)檫@里面存在異常值。60,64 就是異常值。異常值就是在數(shù)據(jù)中存在的極值,這些極值會(huì)使數(shù)據(jù)偏斜,導(dǎo)致均值發(fā)生變化而缺失均值的代表性。

中位數(shù)的引入

為了避免異常值的影響,在均值的基礎(chǔ)上,我們引入了中位數(shù),中位數(shù)就是處于中間位置的數(shù)。 求法如下:
1.先把離散的數(shù)據(jù)都從小到大排序。
2.如果有n個(gè)數(shù),且n為奇數(shù), 中位數(shù)的位置為:(n+1)/2
3.如果有n個(gè)數(shù),且n為偶數(shù),中位數(shù)為兩個(gè)中間數(shù)a,b的加和除以2. 即(a+b)/2
a和b的計(jì)算方法為:a=n/2, b=n/2 +1

然后來(lái)計(jì)算剛剛那組數(shù)據(jù)的中位數(shù),先排序:
12,12,12,12,13,15,60,64
一共8個(gè)數(shù),n = 8,為偶數(shù),求出兩個(gè)中間數(shù)a,b。
a=n/2=8/2=4, b=n/2 +1 =5
所以兩個(gè)中間數(shù)的位置是 4和5,從第一個(gè)數(shù)開始數(shù),第四個(gè)數(shù)是12,第五個(gè)數(shù)是13
所以中位數(shù)為 : (12+13)/2=12.5
從以上結(jié)果可以看出中位數(shù),幫我們加強(qiáng)了數(shù)據(jù)的準(zhǔn)確度。如果當(dāng)時(shí)知道均值是25 中位數(shù)是12.5 我絕對(duì)不會(huì)去選擇這個(gè)游戲。

眾數(shù)的引入

我繼續(xù)買游戲,這次我不光看均值,還看中位數(shù)。我發(fā)現(xiàn)了一款游戲,均值20,中位數(shù)也是20,于是我加入了,然后發(fā)現(xiàn)被均值和中位數(shù)一起騙了。來(lái)看看這次的數(shù)據(jù):
7,7,7,8,32,33,33,33
通過(guò)計(jì)算可以得出,均值和中位數(shù)確實(shí)是20,但是數(shù)據(jù)里面并沒有20歲的人。為了避免這種情況發(fā)生,就有了眾數(shù)眾數(shù)就是頻數(shù)最大的數(shù)值,一般取一個(gè)或兩個(gè)來(lái)檢驗(yàn)數(shù)據(jù)。在這組數(shù)據(jù)中,7出現(xiàn)了3次(7的頻數(shù)為3,后面以此類推),8出現(xiàn)1次,32出現(xiàn)1次,33出現(xiàn)3次,所以眾數(shù)為7和33。
這組數(shù)據(jù)的均值是20,中位數(shù)是20,眾數(shù)是7和33 說(shuō)明這組數(shù)據(jù)大多數(shù)都是由小孩和家長(zhǎng)組成,如果我提前知道的話,也就不會(huì)去買這款游戲了。另外,我們舉的例子是典型的雙峰數(shù)據(jù),數(shù)據(jù)的密度圖如下:

雙峰數(shù)據(jù)

P.S:
當(dāng)原本數(shù)據(jù)都加上數(shù)值X時(shí),均值,眾數(shù),中位數(shù)都會(huì)變,也都加上X,得到新的均值,眾數(shù),中位數(shù)。當(dāng)原本數(shù)據(jù)都增加X%的時(shí)候,均值,眾數(shù),中位數(shù)也都會(huì)變,也都增加X%,得到新的均值,眾數(shù),中位數(shù)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容