# 大數(shù)據(jù)的統(tǒng)計(jì)學(xué)基礎(chǔ)

概率論與統(tǒng)計(jì)學(xué)

概率論是統(tǒng)計(jì)學(xué)的基礎(chǔ),統(tǒng)計(jì)學(xué)沖鋒在應(yīng)用第一線,概率論提供武器。

我們?cè)趯W(xué)習(xí)R的時(shí)候,會(huì)做過(guò)假設(shè)檢驗(yàn)。做假設(shè)檢驗(yàn)的時(shí)候會(huì)有一個(gè)基本的技術(shù)就是構(gòu)造出統(tǒng)計(jì)量,這些統(tǒng)計(jì)量要滿足一定的概率密度分布,然后我算這個(gè)統(tǒng)計(jì)量的值,來(lái)判定它在這個(gè)密度分布里面,分布在哪個(gè)區(qū)域,出現(xiàn)在這個(gè)區(qū)域內(nèi)的可能性有多高,如果可能性太低,我們就判定我們的假設(shè)檢驗(yàn)是不成立的。 那么如何構(gòu)造這個(gè)統(tǒng)計(jì)量,這是一個(gè)很有技術(shù)的東西,同時(shí)也是由數(shù)學(xué)家來(lái)完成的,那這個(gè)工作就是概率論所作的事情。

古典概率論: 扔硬幣,正面1/2反面1/2,扔的次數(shù)之間是相互獨(dú)立的。 但是這個(gè)等概率事件確實(shí)是一個(gè)不是很嚴(yán)謹(jǐn)?shù)氖虑?。仔?xì)想一想其實(shí)是很有趣的。 柯?tīng)柲缏宸騽?chuàng)建現(xiàn)代概率論 他將概率論提出了許多公理,因此將概率論變成了非常嚴(yán)謹(jǐn)?shù)囊婚T學(xué)科。

學(xué)會(huì)和運(yùn)用概率,會(huì)使人變得聰明,決策更準(zhǔn)確。

統(tǒng)計(jì)學(xué): 統(tǒng)計(jì)學(xué)可以分為:描述統(tǒng)計(jì)學(xué)與推斷統(tǒng)計(jì)學(xué) 描述統(tǒng)計(jì)學(xué):使用特定的數(shù)字或者圖表來(lái)體現(xiàn)數(shù)據(jù)的集中程度和離散程度。比如:每次考試算的平均分,最高分,各個(gè)分?jǐn)?shù)段的人數(shù)分布等,也是屬于描述統(tǒng)計(jì)學(xué)的范圍。 推斷統(tǒng)計(jì)學(xué):根據(jù)樣本數(shù)據(jù)推斷總體數(shù)據(jù)特征。比如:產(chǎn)品質(zhì)量檢查,一般采用抽樣檢測(cè),根據(jù)所抽樣本的質(zhì)量合格率作為總體的質(zhì)量合格率的一個(gè)估計(jì)。 統(tǒng)計(jì)學(xué)的應(yīng)用十分廣泛,可以說(shuō),只要有數(shù)據(jù),就有統(tǒng)計(jì)學(xué)的用武之地。目前比較熱門的應(yīng)用:經(jīng)濟(jì)學(xué),醫(yī)學(xué),心理學(xué),IT行業(yè)大數(shù)據(jù)方面等。

第一節(jié):均值,中位數(shù),眾數(shù),方差,標(biāo)準(zhǔn)差與常見(jiàn)的統(tǒng)計(jì)圖表

集中趨勢(shì)

例如:對(duì)于 1 2 3 4 5 這組數(shù)據(jù),你會(huì)使用哪個(gè)數(shù)字作為代表呢? 答案是3。 因?yàn)?是這組數(shù)據(jù)的中心。 對(duì)于一組數(shù)據(jù),如果只容許使用一個(gè)數(shù)字去代表這組數(shù)據(jù),那么這個(gè)數(shù)字應(yīng)該如何選擇???-----選擇數(shù)據(jù)的中心,即反映數(shù)據(jù)集中趨勢(shì)的統(tǒng)計(jì)量。 集中趨勢(shì):在統(tǒng)計(jì)學(xué)里面的意思是任意種數(shù)據(jù)向中心值靠攏的程度。它可以反映出數(shù)據(jù)中心點(diǎn)所在的位置。 我們經(jīng)常用到的能夠反映出集中趨勢(shì)的統(tǒng)計(jì)量: 均值:算數(shù)平均數(shù),描述平均水平。 中位數(shù):將數(shù)據(jù)按大小排列后位于正中間的數(shù)描述,描述中等水平。 眾數(shù):數(shù)據(jù)種出現(xiàn)最多的數(shù),描述一般水平。

均值

均值:算數(shù)平均數(shù) 例如:某次數(shù)學(xué)考試種,小組A與小組B的成員成績(jī)分別如下: A:70,85,62,98,92 B:82,87,95,80,83 分別求出兩組的平均數(shù),并比較兩組的成績(jī)。

mean(c(70,85,62,98,92))
81.4
mean(c(82,87,95,80,83))
85.4

組B的平均分比組A的高,就是組B的總體成績(jī)比組A高。

中位數(shù)

中位數(shù):將數(shù)據(jù)按大小順序(從大到小或者從小到大)排列后處于中間位置的數(shù)。 例如:58,32,46,92,73,88,23 1.先排序:23,32,46,58,73,88,92 2.找出中間位置的數(shù)23,32,46,58,73,88,92 如果數(shù)據(jù)中是偶數(shù)個(gè)數(shù),那么結(jié)果會(huì)發(fā)生什么改變? 例如:58,32,46,92,73,88,23,63 1.先排序:23,32,46,58,63,73,88,92 2.找出處于中間位置的數(shù):23,32,46,58,63,73,88,92 3.若處于中間位置的數(shù)據(jù)有兩個(gè)(也就是數(shù)據(jù)的總個(gè)數(shù)為偶數(shù)時(shí)),中位數(shù)為中間兩個(gè)數(shù)的算數(shù)平均數(shù):(58+63)/2=60.5 在原數(shù)據(jù)中,四個(gè)數(shù)字比60.5小,四個(gè)數(shù)字比60.5大。

眾數(shù)

眾數(shù):數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)(所占比例最大的數(shù)) 一組數(shù)據(jù)中,可能會(huì)存在多個(gè)眾數(shù),也可能不存在眾數(shù)。 1 2 2 3 3 中,眾數(shù)是2 和 3 1 2 3 4 5 中,沒(méi)有眾數(shù) 1 1 2 2 3 3 4 4 中,也沒(méi)有眾數(shù) 只要出現(xiàn)的頻率是一樣的,那么就不存在眾數(shù) 眾數(shù)不僅適用于數(shù)值型數(shù)據(jù),對(duì)于非數(shù)值型數(shù)據(jù)也同樣適合 {蘋果,蘋果,香蕉,橙子,橙子,橙子,橙子,桃子}這一組數(shù)據(jù),沒(méi)有什么均值中位數(shù)科研,但是存在眾數(shù)---橙子。 但是在R語(yǔ)言里面沒(méi)有直接計(jì)算眾數(shù)的內(nèi)置函數(shù),不過(guò)可以通過(guò)統(tǒng)計(jì)數(shù)據(jù)出現(xiàn)的頻率變相的去求眾數(shù)。

xdata <- c(2,4.4,3,3,2,2.2,2,4)
table(xdata)
xdata
 2 2.2   3   4 4.4 
 3   1   2   1   1 
#因此眾數(shù)就是2

下面比較一下均值,中位數(shù),眾數(shù)三個(gè)統(tǒng)計(jì)量有什么優(yōu)點(diǎn)和缺點(diǎn) [圖片上傳失敗...(image-57f18-1586015539906)]

均值: 優(yōu)點(diǎn):充分利用所有數(shù)據(jù),適用性強(qiáng),缺點(diǎn):容易受到極端值影響 中位數(shù): 優(yōu)點(diǎn):不受極端值影響,缺點(diǎn):缺乏敏感性 1,2,3 0 2 10. 雖然中位數(shù)都是2,但是整體數(shù)據(jù)分布已經(jīng)不同。 眾數(shù): 優(yōu)點(diǎn):當(dāng)數(shù)據(jù)具有明顯的集中趨勢(shì)時(shí),代表性好,不受極端值影響 缺點(diǎn):缺乏唯一性,可能有一個(gè),可能有兩個(gè),可能一個(gè)都沒(méi)有 1 2 3 4 5 就沒(méi)有眾數(shù)出現(xiàn)。

例子: 兩個(gè)公司的員工及薪資構(gòu)成如下: A:經(jīng)理1名,月薪100000;高級(jí)員工15名,月薪10000;普通員工20名,月薪7500 B:經(jīng)理1名,月薪20000;高級(jí)員工20名,月薪11000;普通員工15名,月薪9000 請(qǐng)比較兩家公司的薪資水平。若只考慮薪資,你會(huì)選擇哪一家公司?

均值

A (100000+15*10000+20*7500)/36 = 11111.1
B (20000+20*11000+15*9000)/36 = 10416.67

中位數(shù)

A 7500 B 11000

眾數(shù)

A 7500 B 11000</pre>

若從均值的角度考慮,明顯地A公司的平均月薪比B公司的高,但是A公司存在一個(gè)極端值,大大地拉高了A公司的均值,這時(shí)只從均值考慮明顯不太科學(xué)。從中位數(shù)和眾數(shù)來(lái)看,B公司的薪資水平比較高,若是一般員工,選擇B公司顯得更加合理。

離散程度的描述

比較下面兩組數(shù)據(jù): A: 1 2 5 8 9 B: 3 4 5 6 7 兩組數(shù)據(jù)的均值都是5,但是你可以看出B組的數(shù)據(jù)與5更加接近。但是有描述集中趨勢(shì)的統(tǒng)計(jì)量不夠,需要有描述數(shù)據(jù)的離散程度的統(tǒng)計(jì)量。

極差

極差:最大值 - 最小值,簡(jiǎn)單地描述數(shù)據(jù)的范圍大小。 A: 9 - 1 = 8 B: 7 - 3 = 4 同樣的5個(gè)數(shù),A的極差比B的極差要大,所以也比B的要分散 但是只用極差這個(gè)衡量離散程度也存在不足 比如: A: 1 2 5 8 9 B: 1 4 5 6 9 兩組數(shù)據(jù)雖然極差都是相同的,但是B組數(shù)據(jù)整體分布上更加靠近5。

#在R語(yǔ)言中也可以求極差
range(c(1,2,5,8,9))
1 9
max(c(1,2,5,8,9))
9
min(c(1,2,5,8,9))
1
tmp <- max(c(1,2,5,8,9)) - min(c(1,2,5,8,9))
tmp
8
方差

方差:在統(tǒng)計(jì)學(xué)上,更常地是使用方差來(lái)描述數(shù)據(jù)的離散程度:數(shù)據(jù)離中心越遠(yuǎn),越離散。 方差越大,就代表這組數(shù)據(jù)越離散。

在R語(yǔ)言中可以直接計(jì)算方差 var()

var(c(1,2,5,8,9))
12.5
var(c(1,4,5,6,9))
8.5

方差越大,就代表這組數(shù)據(jù)越離散。</pre>

標(biāo)準(zhǔn)差

對(duì)于前面的數(shù)據(jù) 1 2 5 8 9,前面求的一組數(shù)據(jù)的方差是12.5。 將12.5于原始數(shù)據(jù)進(jìn)行比較,可以看出12.5比原數(shù)據(jù)都大,這是否就能說(shuō)明這一組數(shù)據(jù)十分離散呢? 其實(shí)方差與元數(shù)據(jù)的單位是不一樣的,這樣比較也是毫無(wú)意義的。如果原始數(shù)據(jù)的單位是m的話,那么方差的單位就是m^2 為了保持單位的一致性,我們引入一個(gè)新的統(tǒng)計(jì)量:標(biāo)準(zhǔn)差 標(biāo)準(zhǔn)差:sqrt(var()), 有效地避免了因?yàn)閱挝坏钠椒蕉鸬亩攘繂?wèn)題。 與方差一樣,標(biāo)準(zhǔn)差的值越大,表示數(shù)據(jù)越分散。 A: 1 2 5 8 9 B: 3 4 5 6 7

在R中可以直接計(jì)算標(biāo)準(zhǔn)差sd()

sd(c(1,2,5,8,9))
3.535534
sd(c(3,4,5,6,7))
1.1581139
#與方差一樣,標(biāo)準(zhǔn)差的值越大,表示數(shù)據(jù)越分散。

直方圖

某班40個(gè)學(xué)生某次數(shù)學(xué)檢測(cè)的成績(jī)?nèi)缦拢?/p>

63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77 對(duì)于這一組數(shù)字,你能看出什么呢? 或許先算一算平均值,中位數(shù),或者眾數(shù)

>mean(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
76.60526
?
median(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
77.5
?
table(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
?
53 61 63 65 67 69 70 71 74 75 76 77 78 
 2  2  1  1  2  3  2  1  1  2  1  1  1 
79 81 82 84 85 86 87 88 89 90 91 94 95 
 1  4  1  1  1  1  3  1  1  1  1  1  1 </pre>

或許算一算這組數(shù)據(jù)的方差或者標(biāo)準(zhǔn)差

>var(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
118.1913
sd(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
10.87158

但是即便是統(tǒng)計(jì)了上述的數(shù)據(jù),我們還是對(duì)全班同學(xué)的分?jǐn)?shù)分布,沒(méi)有一個(gè)全面的了解。 原始數(shù)據(jù)太雜亂無(wú)章,難以看出規(guī)律性,只依賴數(shù)字來(lái)描述集中趨勢(shì)與離散程度讓人難以對(duì)數(shù)據(jù)產(chǎn)生直觀地印象,這是我們就需要用到圖標(biāo)來(lái)展示這些數(shù)字。

直方圖的繪制

1.找出上面數(shù)據(jù)中的最大值和最小是,確定數(shù)據(jù)的范圍。

min(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
53
max(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
95

將成績(jī)排序后很容易得到最大值是95,最小值是53

>sort(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
?
 [1] 53 53 61 61 63 65 67 67 69 69 69
[12] 70 70 71 74 75 75 76 77 78 79 81
[23] 81 81 81 82 84 85 86 87 87 87 88
[34] 89 90 91 94 95

2.整理數(shù)據(jù),將數(shù)據(jù)按照成績(jī)分為幾個(gè)組。成績(jī)按照一般50-60,60-70,70-80,80-90,90-100這幾個(gè)分段來(lái)劃分(一般都分為5-10組),然后統(tǒng)計(jì)這幾個(gè)分段內(nèi)部的頻數(shù)。 可以看到80-90這個(gè)分段的人數(shù)是最多的。 注意在繪制直方圖的時(shí)候,一定要知道是左閉右開(kāi)還是左開(kāi)右閉。 因?yàn)檫@個(gè)可能會(huì)直接影響到頻數(shù)的統(tǒng)計(jì)。

#在R中可以直接繪制直方圖
hist(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
#hist()的參數(shù)breaks =5   breaks=10
#設(shè)置直方圖的組距

上圖就是:頻數(shù)直方圖。頻數(shù)作為縱坐標(biāo),成績(jī)作為橫坐標(biāo)。通過(guò)直方圖我們可以對(duì)成績(jī)有一個(gè)非常直觀的印象。 除了頻數(shù)直方圖,還有一種直方圖:頻率直方圖。與頻數(shù)直方圖相比,頻率直方圖的縱坐標(biāo)有所改變,使用了頻率/組距。 頻率=頻數(shù)/總數(shù);組距就是分組的極差,這里的組距是10.

箱線圖

除了直方圖外,畫一個(gè)簡(jiǎn)單的箱線圖也可以大致看出數(shù)據(jù)的分布。

#R語(yǔ)言種可以繪制箱線圖
boxplot(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))

?
想要看懂箱線圖,必須要學(xué)習(xí)一些箱線圖專業(yè)的名詞: 下四分位數(shù):Q1,將所有的數(shù)據(jù)按照從小到大的順序排序,排在第25%位置的數(shù)字。 上四分位數(shù):Q3,將所有的數(shù)據(jù)按照從小到大的順序排序,排在第75%位置的數(shù)字。 四分距:IQR,等于Q3-Q1,衡量數(shù)據(jù)離散程度的一個(gè)統(tǒng)計(jì)量。 異常點(diǎn):小于Q1-1.5IQR或者大于Q3+1.5IQR的值。 (注意是1.5倍的IQR) 上邊緣:除異常點(diǎn)以外的數(shù)據(jù)中的最大值 下邊緣:除異常點(diǎn)以外的數(shù)據(jù)種的最小值

#R語(yǔ)言中有直接統(tǒng)計(jì)四分位數(shù)(IQR)的函數(shù)
IQR(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
16.75
#R語(yǔ)言中也有可以統(tǒng)計(jì)箱線圖分布的函數(shù)
quantile(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
 0%   25%   50%   75%  100% 
53.00 69.00 77.50 85.75 95.00
#quantile()得到的結(jié)果分別是最小值,下四分位數(shù),中位數(shù),上四分位數(shù),最大值。
85.75 - 69.00
16.75

?

莖葉圖

莖葉圖可以在保留全部數(shù)據(jù)信息的情況下,直觀地顯示出數(shù)據(jù)的分布情況。 左邊是莖,右邊是葉。 若將莖葉圖旋轉(zhuǎn)90度,則可以得到一個(gè)類似于直方圖的圖。跟直方圖一樣,也可以直觀地知道數(shù)據(jù)的分布情況。 并且可以保留所有的數(shù)據(jù)信息。 莖葉圖的畫法也非常的簡(jiǎn)單: 將數(shù)據(jù)分為莖和葉兩部分,這里的莖是指十位上的數(shù)字,葉是指給上的數(shù)字。 將莖部份(十位)從小到大,從上到下寫出來(lái) 相對(duì)于各自的莖,將同一莖(十位)從小到大,從左往右寫出來(lái)。

#R語(yǔ)言也可以繪制莖葉圖
stem(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
?
The decimal point is 1 digit(s) to the right of the |
?
 5 | 33
 5 | 
 6 | 113
 6 | 577999
 7 | 0014
 7 | 556789
 8 | 111124
 8 | 5677789
 9 | 014
 9 | 5

但是莖葉圖也有缺陷,因?yàn)榘傥缓褪煌瑫r(shí)畫在莖葉圖的時(shí)候,容易區(qū)分不開(kāi)。同時(shí)也可能出現(xiàn)卻葉的情況。

折線圖

以時(shí)間作為橫坐標(biāo),變量作為縱坐標(biāo),反映變量隨時(shí)間推移的變化趨勢(shì)。

#R語(yǔ)言可以繪制折線圖
plot()
dose <- c(20,30,40,45,50)
drugA <- c(16,20,27,40,60)
plot(dose,drugA,type="l")

柱狀圖
#R語(yǔ)言可以繪制柱狀圖
barplot()
library(vcd)
counts <- table(Arthritis$Improved)
barplot(counts)

顯示一段時(shí)間內(nèi)的數(shù)據(jù)變化或者顯示各項(xiàng)之間的比較情況。

餅圖

根據(jù)各項(xiàng)所占百分比決定在餅圖中扇形的面積。簡(jiǎn)單易懂,通俗明了。可以更加形象地看出各個(gè)項(xiàng)目所占的比例大小。 適當(dāng)?shù)倪\(yùn)用一些統(tǒng)計(jì)圖表,可以更生動(dòng)形象的說(shuō)明,不再只是純數(shù)字的枯燥描述。

#R語(yǔ)言也可以繪制餅圖
pie()
?
slices <- c(10,12.4,16,8)
pie(slices)</pre>

學(xué)習(xí)鏈接:https://www.bilibili.com/video/BV1Ut411r7RG

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容