深入淺出統(tǒng)計(jì)學(xué)

1,中位數(shù):按從小到大排列好的中間值


2,眾數(shù):出現(xiàn)次數(shù)最多的那個(gè)數(shù)


3,方差:數(shù)值和均值的距離的平方數(shù)的平均值


4,協(xié)方差:在概率論統(tǒng)計(jì)學(xué)中用于衡量兩個(gè)變量的總體誤差。而方差是協(xié)方差的一種特殊情況,即當(dāng)兩個(gè)變量是相同的情況。

協(xié)方差表示的是兩個(gè)變量的總體的誤差,這與只表示一個(gè)變量誤差的方差不同。 如果兩個(gè)變量的變化趨勢(shì)一致,也就是說如果其中一個(gè)大于自身的期望值,另外一個(gè)也大于自身的期望值,那么兩個(gè)變量之間的協(xié)方差就是正值。如果兩個(gè)變量的變化趨勢(shì)相反,即其中一個(gè)大于自身的期望值,另外一個(gè)卻小于自身的期望值,那么兩個(gè)變量之間的協(xié)方差就是負(fù)值

期望值分別為E[X]與E[Y]的兩個(gè)實(shí)隨機(jī)變量XY之間的協(xié)方差Cov(X,Y)定義為:


如果XY是統(tǒng)計(jì)獨(dú)立的,那么二者之間的協(xié)方差就是0,因?yàn)閮蓚€(gè)獨(dú)立的隨機(jī)變量滿足E[XY]=E[X]E[Y]。

但是,反過來并不成立。即如果XY的協(xié)方差為0,二者并不一定是統(tǒng)計(jì)獨(dú)立的。

協(xié)方差Cov(X,Y)的度量單位是X的協(xié)方差乘以Y的協(xié)方差。而取決于協(xié)方差的相關(guān)性,是一個(gè)衡量線性獨(dú)立無量綱的數(shù)。

協(xié)方差為0的兩個(gè)隨機(jī)變量稱為是不相關(guān)的。


5,算術(shù)平均數(shù)

算術(shù)平均數(shù)分為兩種簡單算術(shù)平均數(shù)和加權(quán)算術(shù)平均數(shù)

1,簡單算術(shù)平均

適用:主要用于未分組的原始數(shù)據(jù)。設(shè)一組數(shù)據(jù)為X1,X2,...,Xn,簡單的算術(shù)平均數(shù)的計(jì)算公式為:


2 加權(quán)算術(shù)平均

適用:主要用于處理經(jīng)分組整理的數(shù)據(jù)。設(shè)原始數(shù)據(jù)為被分成K組,各組的組中的值為X1,X2,...,Xk,各組的頻數(shù)分別為f1,f2,...,fk,加權(quán)算術(shù)平均數(shù)的計(jì)算公式為:



6,幾何平均數(shù)

幾何平均數(shù)是n個(gè)變量值連乘積的n次方根

1、簡單幾何平均數(shù):


幾何平均數(shù)示意圖


2、加權(quán)幾何平均數(shù):



1、幾何平均數(shù)受極端值的影響較算術(shù)平均數(shù)??;

2、如果變量值有負(fù)值,計(jì)算出的幾何平均數(shù)就會(huì)成為負(fù)數(shù)或虛數(shù);

3、它僅適用于具有等比或近似等比關(guān)系的數(shù)據(jù);

4、幾何平均數(shù)的對(duì)數(shù)是各變量值對(duì)數(shù)的算術(shù)平均數(shù)


計(jì)算幾何平均數(shù)要求各觀察值之間存在連乘積關(guān)系,它的主要用途是: [4]

1、對(duì)比率、指數(shù)等進(jìn)行平均;

2、計(jì)算平均發(fā)展速度;

其中:樣本數(shù)據(jù)非負(fù),主要用于對(duì)數(shù)正態(tài)分布。

3、復(fù)利下的平均年利率;

4、連續(xù)作業(yè)的車間求產(chǎn)品的平均合格率。


7,分位值:分位值是隨機(jī)變量的特征數(shù)之一。將隨機(jī)變量分布曲線與X軸包圍的面積作n等分,得n—1個(gè)值(X_1、X_2……X_(n-1)),這些值稱為n分位值。參數(shù)統(tǒng)計(jì)中常常用到分位值這一概念。

分位值(數(shù))在統(tǒng)計(jì)學(xué)中也有很多應(yīng)用,比如在一般的數(shù)據(jù)分析當(dāng)中,需要我們計(jì)算25分位(下四分位),50分位(中位),75分位(上四分位)值。下面介紹一個(gè)例子具體說明什么是分位值:


8,期望:在一個(gè)離散性隨機(jī)變量試驗(yàn)中每次可能結(jié)果的概率乘以其結(jié)果的總和


9.雙峰數(shù)據(jù):雙峰分布(bimodal

distribution)是分布中的兩個(gè)分?jǐn)?shù)附近集中著較多的次數(shù),以致次數(shù)分布曲線有兩個(gè)隆起的峰,故名雙峰分布。


10長尾效應(yīng):長尾效應(yīng)的根本就是強(qiáng)調(diào)“個(gè)性化”,“客戶力量”和“小利潤大市場(chǎng)”,也就是要賺很少的錢,但是要賺很多人的錢。要將市場(chǎng)細(xì)分到很細(xì)很小的時(shí)候,然后就會(huì)發(fā)現(xiàn)這些細(xì)小市場(chǎng)的累計(jì)會(huì)帶來明顯的長尾的效應(yīng)。


11,條件概率:P(A|B)=P(AηB)/P(B)


12 貝葉斯定理:P(A|B)=P(A)*P(B|A) / [(P(A)* P(B|A)+P(A’)*P(B|A’))

在需要求出條件概率,且該條件概率與已知條件概率順序相反時(shí)使用


13線性變換E(AX+B)=AE(X)+B?? VAR(AX+B)=A2var(x)

獨(dú)立觀察值E(X1+X2+…..+Xn)=nE(X)?? VAR(X1+X2+…..+Xn)=NVAR(X)


14 排列;從N個(gè)對(duì)象里取出R個(gè)對(duì)象的排列方法P=N!/(N-R)!

組合從N個(gè)對(duì)象中選取R個(gè)對(duì)象的選取方式的數(shù)目,


15 幾何分布??????X ~ GE(p)

進(jìn)行一系列獨(dú)立的實(shí)驗(yàn),每一次都有可能成功,也有可能失敗,成功的概率一樣,感興趣的是第一次成功的概率


Var(x)=q/p2


16 二項(xiàng)分布???X~B(n,p)

你正在進(jìn)行一系列獨(dú)立實(shí)驗(yàn),每一次都存在成功和失敗的可能,每一次實(shí)驗(yàn)的成功概率相同,實(shí)驗(yàn)次數(shù)有限

P=C(n,k)×p^k×(1-p)^(n-k)。C(n,k)表示組合數(shù)


當(dāng)N大于50且P小于0.1的時(shí)候,二項(xiàng)分布可以用泊松分布代替

當(dāng)np 和nq都大于5的時(shí)候,正太分布可以代替二項(xiàng)分布,但是要進(jìn)行連續(xù)性修正X~N(np??? npq)


17泊松分布??X~PO(χ)

單獨(dú)事件在給定區(qū)間內(nèi)隨機(jī),獨(dú)立發(fā)生。

已知該區(qū)間內(nèi)事件發(fā)生的平均數(shù),且為有限值,該事件平均發(fā)生次數(shù)用χ表示


泊松分布的參數(shù)λ是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生率。

泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)。

E(X)=χ

VAR(X)=χ

當(dāng)χ大于15的時(shí)候可以用正太分布代替泊松分布X~N(χ,?χ)需要進(jìn)行連續(xù)性修正


18 正態(tài)分布

隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、方差為σ^2的正態(tài)



(3) E(X1+X2+X3+….+Xn)=nE(x)????VAR(X)=nvar(x)

X1+X2+X3+….Xn~N(nE(x),nvar(x)2)

正態(tài)曲線下,橫軸區(qū)間(μ-σ,μ+σ)內(nèi)的面積為68.268949%。

橫軸區(qū)間(μ-1.96σ,μ+1.96σ)內(nèi)的面積為95.449974%。

橫軸區(qū)間(μ-2.58σ,μ+2.58σ)內(nèi)的面積為99.730020%。

19 抽取樣本

簡單隨機(jī)抽樣的兩種方式 重復(fù)抽樣和不重復(fù)抽樣,前者是抽樣完了又把樣本放回總體,后者不放

可以用抽簽和隨機(jī)編號(hào)進(jìn)行簡單隨機(jī)抽樣

分層抽樣:將總體分割為及格相似的組,每個(gè)組具有類似的特征。這些特征或者組叫做層。比如按照顏色分層

整群抽樣 ; 進(jìn)行整群抽樣的時(shí)候,不是對(duì)抽樣的單位進(jìn)行隨機(jī)抽樣,而是對(duì)群進(jìn)行簡單隨機(jī)抽樣。整群抽樣之所以行得通是因?yàn)槿后w之間的相似性。(比如對(duì)一盒糖進(jìn)行抽樣,而不是一顆糖)

系統(tǒng)抽樣,按照某種順序列出整體名單,然后每隔K個(gè)單位進(jìn)行抽樣。如果總體存在某種循環(huán),則樣本會(huì)發(fā)生偏倚


20點(diǎn)估計(jì)量:樣本均值被稱作為整體均值的點(diǎn)估計(jì)量,樣本比例被稱為總體比例的點(diǎn)估計(jì)量

點(diǎn)估計(jì)量是有價(jià)值的,但是不能夠百分百代表總體,會(huì)有小小的誤差。與其給出一個(gè)精確值作為總體均值的估計(jì)值,不如指定一個(gè)區(qū)間。

S 樣本方差公式?

總體方差公式?

大部分情況下都用樣本方差估算總體方差,除以n-1比除以N 能得出精確性稍微高點(diǎn)的結(jié)果


21 比例抽樣分布如果從總體中用相同的方法抽取許多大小相同但是存在差異的樣本,然后用每個(gè)樣本的某個(gè)屬性形成一個(gè)分布,則所得結(jié)果成為抽樣分布。用每個(gè)樣本的比例形成的抽樣分布就是比例的抽樣分布

利用比例抽樣分布可以求出某一個(gè)隨機(jī)選擇的,大小為n 的樣本的成功比例的概率

E(ps)=p?? var(ps)=pq/n?ps=成功樣本/總共樣本

當(dāng)樣本大于30的時(shí)候Ps分布符合正態(tài)分布Ps~N(p??? pq/n)

Ps需要進(jìn)行連續(xù)性修正=+-(1)/2n


22 均值抽樣分布

E(x)=u

Var(x)= ?2/n

中心極限定理: 如果從一個(gè)非正態(tài)的樣本總體X中取出樣本,且樣本很大,則X的平均值近似為正態(tài)分布,如果總體的均值和方差為u和?2。則

X~N(u? ?2/n)

如果有一個(gè)總體用二項(xiàng)分布X~B(n p)表示,其中n大于30,如前所訴u=np

?2=npq 根據(jù)極限中心定理,X平均值~n(u,? ?2/n)得到

X平均值~n(np,? pq)


如果有一個(gè)總體用泊松分布X~Po(χ? χ)表示,其中n大于30,如前所訴u=np

?2=npq 根據(jù)極限中心定理,X平均值~n(u,? ?2/n)得到

X平均值~n(χ? χ/n)

使用中心極限定理求出的概率和樣本均值有關(guān),而與樣本數(shù)值無關(guān),因此不需要進(jìn)行任何連續(xù)性修正


23 置信區(qū)間:置信區(qū)間是指由樣本統(tǒng)計(jì)量所構(gòu)造的總體參數(shù)的估計(jì)區(qū)間。在統(tǒng)計(jì)學(xué)中,一個(gè)概率樣本的置信區(qū)間是對(duì)這個(gè)樣本的某個(gè)總體參數(shù)的區(qū)間估計(jì)。置信區(qū)間展現(xiàn)的是這個(gè)參數(shù)的真實(shí)值有一定概率落在測(cè)量結(jié)果的周圍的程度。置信區(qū)間給出的是被測(cè)量參數(shù)的測(cè)量值的可信程度,即前面所要求的“一個(gè)概率”


置信水平:表明你希望“置信區(qū)間包含總統(tǒng)計(jì)量”這一說法有多大把握。

置信水平是“統(tǒng)計(jì)量處于置信區(qū)間之中“的概率,通常是百分?jǐn)?shù),比如95%.置信區(qū)間則給出了區(qū)間本身——數(shù)字范圍的上下限

置信區(qū)間理論上要連續(xù)修正,但是實(shí)踐中通常忽略不計(jì)。

24 當(dāng)樣本很小,或者方差不知道的時(shí)候我們采用T分布,T分布只有一個(gè)參數(shù)就是自由度,v,通常V=n-1

我們要求出樣本平均值分布,就要知道樣本平均值的期望和方差,樣本平均值的期望為u,標(biāo)準(zhǔn)差為?**2/n,由于需要s估計(jì)?的值,T分布的算式如下

T=(樣本的平均值-u)/(s/n**0.5)



25兩種估計(jì)總體統(tǒng)計(jì)量的方法

一是點(diǎn)估計(jì)量,點(diǎn)估計(jì)量方法可以用于估計(jì)總體統(tǒng)計(jì)量的精確數(shù)值,是根據(jù)樣本數(shù)據(jù)有可能做出的最好猜測(cè)

二是總體統(tǒng)計(jì)量的置信區(qū)間,這個(gè)方法得到的并不是總體統(tǒng)計(jì)量的精確估計(jì),而是求出總體統(tǒng)計(jì)量的有一個(gè)較高可信度的范圍


26假設(shè)檢驗(yàn)也被成為顯著性檢驗(yàn)

1確定要進(jìn)行檢驗(yàn)的假設(shè);

2選擇檢驗(yàn)統(tǒng)計(jì)量;

3確定用于做決策的拒絕域

4求出檢驗(yàn)統(tǒng)計(jì)量的P值;

5查看樣本結(jié)果是否位于拒絕域內(nèi)

6做出決策。

臨界點(diǎn):拒絕域的臨界點(diǎn)C

顯著性水平用α表示,你希望在不可能程度多大的時(shí)候拒絕你的假設(shè)

單尾檢驗(yàn):當(dāng)拒絕域落在可能數(shù)據(jù)集的一側(cè)。當(dāng)<的時(shí)候用左尾,當(dāng)>的時(shí)候用右尾。

雙尾檢驗(yàn):拒絕域一分為二位于數(shù)據(jù)左右兩側(cè),選擇的檢驗(yàn)水平為α,將拒絕域一分為二分別位于數(shù)據(jù)集的兩端。當(dāng)出現(xiàn)<>d的時(shí)候用雙尾檢驗(yàn)

第一類錯(cuò)誤:錯(cuò)誤地拒絕了真原假設(shè)

第二類錯(cuò)誤:錯(cuò)誤的接受了假原假設(shè)


P(第一類錯(cuò)誤)=α???????????????????α為檢驗(yàn)的顯著性水平

P(第二類錯(cuò)誤)=β

求β的方法(1)檢查是否擁有H1(備選假設(shè))的特定數(shù)值,如果沒有就沒有辦法計(jì)算第二類錯(cuò)誤概率。(2)求檢驗(yàn)域以外的數(shù)值范圍 (3)假定H1為真,得到這些數(shù)值的概率。

功效:在H0為假的時(shí)候拒絕H0的概率?????功效=1-β


?27卡方分布

通過檢驗(yàn)統(tǒng)計(jì)量來比較期望結(jié)果和實(shí)際結(jié)果之間的差別,然后得出觀察頻數(shù)極值的發(fā)生概率。

X2=£(o-E)/E

O表示觀察頻數(shù),E表示期望頻數(shù)

X2說明差別越明顯

卡方分布的主要用途??第一 檢驗(yàn)擬合優(yōu)度,也就是檢驗(yàn)一組給定的數(shù)據(jù)與指定分布的吻合程度。例如,可以用來檢驗(yàn)老虎機(jī)收益的觀察頻率與我們所期待的分布的吻合程度

第二?檢驗(yàn)兩個(gè)變量之間的獨(dú)立性,通過這個(gè)方法可以檢驗(yàn)兩個(gè)變量之間是否存在某種關(guān)聯(lián)。

V表示自由度數(shù)目

v=組數(shù)-限制數(shù)

當(dāng)v等于1和2的時(shí)候,X2分布比較向J線高后低。當(dāng)V大于2的時(shí)候圖形先低后高然后再低,V越大,越接近正態(tài)分布

用卡方分布進(jìn)行的檢驗(yàn)是單尾檢驗(yàn),右尾是拒絕域

如果用顯著性水平α進(jìn)行檢驗(yàn),則可以寫作

χ2α(v)可以通過查χ2概率表可以求出χ。第一列求v,第一行查α,交點(diǎn)就是χ值。


首先,你得到了老虎機(jī)的一組觀察頻數(shù),然后假定這些頻數(shù)符合某種特定的概率分布并算出來期望,然后算出自由度和檢驗(yàn)統(tǒng)計(jì)量χ2,通過χ2可以看出觀察頻數(shù)和期望頻數(shù)之間的總偏差

然后從χ2概率表中查找顯著性水平為x%時(shí)的拒絕域,經(jīng)過檢驗(yàn)統(tǒng)計(jì)量進(jìn)行比較,看總偏差是否位于拒絕域以內(nèi)。

這種假設(shè)檢驗(yàn)被叫做擬合優(yōu)度檢驗(yàn),它檢驗(yàn)觀察頻數(shù)是否和假設(shè)的頻數(shù)分布相吻合。若你有一組數(shù)據(jù),并希望這組數(shù)據(jù)符合某種分布,為了看這組數(shù)據(jù)是否確實(shí)符合這種分布,則可以用擬合優(yōu)度檢驗(yàn)。


χ2擬合優(yōu)度檢驗(yàn)對(duì)相當(dāng)多的概率分布都有效,只要得到了一組觀察頻數(shù),并且能夠算出期望頻數(shù)。

χ2進(jìn)行獨(dú)立性檢驗(yàn)

期望頻數(shù)=(行合計(jì)*列合計(jì))/ 總和

X2=£(o-E)/E

如果有一張H*K的表格,則可以通過V=(h-1)*(k-1)來計(jì)算自由度。表格里面不包含總計(jì)


28相關(guān)和線性

兩個(gè)變量之間的相關(guān)關(guān)系意味著二者存在某種數(shù)學(xué)關(guān)系。既我們?cè)趫D上繪制數(shù)值時(shí),我們能夠看得出某種模式,并能夠預(yù)測(cè)出沒有出現(xiàn)在圖上的數(shù)值。我們并不知道兩個(gè)變量之間是否存在實(shí)際關(guān)系,當(dāng)然我們也不知道一個(gè)變量是否會(huì)影響另一個(gè)變量?;蚴怯衅渌蛩卦诎l(fā)揮作用。

B=£((x-x的平均值)(y-y的平均值))/£(X-X的平均值)2

B=每一個(gè)X減去X的平均值乘以每一個(gè)Y減去Y的平均值除以(每個(gè)數(shù)X減去X的均值,然后將所得結(jié)果平方

直線一定會(huì)經(jīng)過(X均值,Y均值)這個(gè)點(diǎn),所以可以求出a

直線Y=bx+a被成為回歸線 用于求出最佳擬合線的方法叫做最小二乘回歸法


有一種方法可以計(jì)算直線擬合度——稱為相關(guān)系數(shù)r

相關(guān)系數(shù)位于-1和1之間。如果r是-1數(shù)據(jù)是完全負(fù)線性相關(guān),r為1則數(shù)據(jù)完全正線性相關(guān)。R=0則不相關(guān)。R的絕對(duì)值越接近1,則相關(guān)性越高。

R=bSx/Sy

B是以求出的最佳擬合線概率 Sx 是樣本中X值的標(biāo)準(zhǔn)差Sy是y值的標(biāo)準(zhǔn)差。在計(jì)算X和Y的方差和標(biāo)準(zhǔn)差的時(shí)候都是除以n-1.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容