1、基石:大數(shù)定律和中心極限定律
大數(shù)定理。不管是強(qiáng)大數(shù)定理還是弱大數(shù)定理,都表達(dá)著這樣一個意思:當(dāng)樣本數(shù)量足夠大時,這些樣本的均值無限接近總體的期望。
中心極限定理。不管樣本總體服從什么分布,當(dāng)樣本數(shù)量足夠大時,樣本的均值以正態(tài)分布的形式圍繞總體均值波動。中心極限定理的表達(dá)方式可以有多種,我這里只是其中一種。
2、什么是卡方分布、t分布和F分布
有很多統(tǒng)計推斷是基于正態(tài)分布的假設(shè),以標(biāo)準(zhǔn)正態(tài)分布變量為基石而構(gòu)造的三個著名統(tǒng)計量在實(shí)際中有廣泛的應(yīng)用,這是因?yàn)檫@三個統(tǒng)計量不僅有明確背景,而且其抽樣分布的密度函數(shù)有顯式表達(dá)式,它們被稱為統(tǒng)計中的“三大抽樣分布”。這三大抽樣分布即為著名的卡方分布,t分布和F分布。
為了應(yīng)用方便,常將一般的正態(tài)變量X通過u變換[(X-μ)/σ]轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)變量u,以使原來各種形態(tài)的正態(tài)分布都轉(zhuǎn)換為μ=0,σ=1的標(biāo)準(zhǔn)正態(tài)分布(standard normaldistribution),亦稱u分布。根據(jù)中心極限定理,通過抽樣模擬試驗(yàn)表明,在正態(tài)分布總體中以固定 n 抽取若干個樣本時,樣本均數(shù)的分布仍服從正態(tài)分布,即N(μ,σ)。所以,對樣本均數(shù)的分布進(jìn)行u變換,也可變換為標(biāo)準(zhǔn)正態(tài)分布N (0,1)。
2.1? 卡方分布

大量抽樣的平方和服從卡方分布
2.2? t分布

對一個樣本大量抽樣,另外一個樣本知道它服從正態(tài)分布,假設(shè)它們兩個相互獨(dú)立
2.3? F分布


對兩個相互獨(dú)立的樣本分開大量抽樣,看它們的卡方分布的比值
2.4? 伽馬函數(shù)
伽馬函數(shù)在三個抽樣分布的表達(dá)式中都有出現(xiàn),那么伽馬函數(shù)是干什么的呢,可以先從泊松分布理解起:
2.4.1? 泊松分布與伽馬函數(shù)


因此Possion公式的直觀意義就是:
已知單位時間內(nèi)平均出生λ \lambdaλ個嬰兒, 得到單位時間內(nèi)出生k個嬰兒的概率。
如果將k看成是一個變量, Possion公式就是單位時間內(nèi)出生嬰兒個數(shù)的概率分布。
直觀理解,當(dāng)然是單位時間出生λ \lambdaλ個嬰兒的概率最大。
————————————————
在Poisson分布中,λ是一個已知數(shù),是一個常數(shù),
如果我們把λ看成一個變數(shù),假設(shè)是x
那么得到的分布就叫Gamma分布,顯然Gamma比Poisson更高一維的分布。
————————————————
由此可見,Gamma函數(shù)是一個關(guān)于x和k的二維概率分布。x是單位時間內(nèi)事件發(fā)生的平均次數(shù),k是單位時間內(nèi)事件發(fā)生的某一特定次數(shù),得到類似于下圖,可見,它是一個指數(shù)分布,k與越接近,概率越大,在k與x相等的地方,概率達(dá)最大值。(如果將x固定一個常數(shù),就是Poisson分布。)
3 、應(yīng)用場景
假設(shè)檢驗(yàn)的基本思想:
? ? ? ?若對總體的某個假設(shè)是真實(shí)的,那么不利于或者不能支持這一假設(shè)的事件A在一次試驗(yàn)中是幾乎不可能發(fā)生的。如果事件A真的發(fā)生了,則有理由懷疑這一假設(shè)的真實(shí)性,從而拒絕該假設(shè)。
3.1? 正態(tài)檢驗(yàn):Z檢驗(yàn)【5】
利用觀測數(shù)據(jù)判斷總體是否服從正態(tài)分布的檢驗(yàn)稱為正態(tài)性檢驗(yàn),它是統(tǒng)計判決中重要的一種特殊的擬合優(yōu)度假設(shè)檢驗(yàn)。
3.1.1? 直方圖初判
判斷是否是我們熟悉的鐘型曲線

3.1.2? QQ圖判斷
通過把測試樣本數(shù)據(jù)的分位數(shù)與已知分布相比較,從而來檢驗(yàn)數(shù)據(jù)的分布情況?
QQ圖是一種散點(diǎn)圖,對應(yīng)于正態(tài)分布的QQ圖,就是由標(biāo)準(zhǔn)正態(tài)分布的分位數(shù)為橫坐標(biāo),樣本值為縱坐標(biāo)的散點(diǎn)圖
參考直線:四分之一分位點(diǎn)和四分之三分位點(diǎn)這兩點(diǎn)確定,看散點(diǎn)是否落在這條線的附近

3.1.3? K - S檢驗(yàn)?

python代碼:
u = df['value'].mean()# 計算均值
std = df['value'].std()# 計算標(biāo)準(zhǔn)差
stats.kstest(df['value'], 'norm', (u, std))
》》》KstestResult(statistic=0.1590180704824098, pvalue=0.3066297258358026)
ks檢驗(yàn)一般返回兩個值:D和p值
其中D表示兩個分布之間的最大距離,所以D越小,因?yàn)檫@兩個分布的差距越小,分布也就越一致
p值,也就是假設(shè)檢驗(yàn)里面的p值,可以理解為這個樣本發(fā)生的可能性有多大。
那么原假設(shè)是什么呢,原假設(shè)是“待檢驗(yàn)的兩個分布式同分布”。假設(shè)檢驗(yàn)常用的判斷標(biāo)準(zhǔn)是5%,在假設(shè)檢驗(yàn)里叫做“顯著水平”,用符號α
如果p值大于0.05,(當(dāng)然,你也可以選擇α =?0.01或者0.10,這都取決于你的要求),那么就不能拒絕原假設(shè)。所以p越大,越不能拒絕原假設(shè),兩個分布越是同分布
補(bǔ)充:
1)兩個分布之間的最大距離D是怎么計算的:轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布后,相同x下,y值與標(biāo)準(zhǔn)正態(tài)分布的值的差
2)假設(shè)檢驗(yàn)里,p和α的關(guān)系:?
p是計算出來的,α是人工設(shè)定的,P值 < α(0.007<0.05) 說明:
我們在Ho的假設(shè)成立的條件下,做了一次實(shí)驗(yàn),Ho發(fā)生的概率就很?。ū圈炼夹。?。 這是不可能的。 所以拒絕Ho 。 反而接受H1.【7】

3.2? 卡方檢驗(yàn)
χ2檢驗(yàn)方法主要是用來檢驗(yàn)頻數(shù)問題的,即檢驗(yàn)各類實(shí)際觀察的頻數(shù)是否顯著不同于建設(shè)的期望頻數(shù)。使用χ2檢驗(yàn)需要滿足以下的假定:
1、每次的試驗(yàn)是獨(dú)立進(jìn)行的;如果試驗(yàn)有k個類別,那么每次試驗(yàn)的結(jié)果是k個類別中的某一個;(假設(shè)多個變量之間不相關(guān))
2、每次試驗(yàn)時每個類別發(fā)生的頻率都保持不變。(根據(jù)假設(shè)計算得出每種情況的理論值,根據(jù)理論值與實(shí)際值的差別,計算得到卡方值 及自由度)
χ2檢驗(yàn)只適用于頻數(shù)檢驗(yàn),而不適用于比率的檢驗(yàn)。
χ2檢驗(yàn)除了可以對假設(shè)的頻數(shù)進(jìn)行檢驗(yàn)外,還可以對各種假設(shè)的分布進(jìn)行檢驗(yàn)。
其實(shí)卡方檢驗(yàn)是英文Chi-Square Test 的諧音。在大數(shù)據(jù)運(yùn)營場景中,通常用在某個變量(或特征)值是不是和應(yīng)變量有顯著關(guān)系。
3.2.1? 什么是卡方檢驗(yàn)【2】:
卡方檢驗(yàn)就是檢驗(yàn)兩個變量之間有沒有關(guān)系。
以運(yùn)營為例:
卡方檢驗(yàn)可以檢驗(yàn)?zāi)行曰蛘吲詫€上買生鮮食品有沒有區(qū)別;
不同城市級別的消費(fèi)者對買SUV車有沒有什么區(qū)別;
如果有顯著區(qū)別的話,我們會考慮把這些變量放到模型或者分析里去。


3.3? t檢驗(yàn)
?t 統(tǒng)計量是英國化學(xué)家、數(shù)學(xué)家、統(tǒng)計學(xué)家?William Sealy Gosset提出的,當(dāng)年他在愛爾蘭的吉尼斯酒廠(這個酒廠還有個很牛的事兒,它的老板編著了現(xiàn)今著名的《吉尼斯世界紀(jì)錄》)工作時,酒廠禁止其將研究成果公開發(fā)表,以免泄露秘密,迫不得已William Sealy Gosset以筆名“The Student”發(fā)表研究成果,t統(tǒng)計量及t分布的命名就是源于改筆名?!?】
3.3.1? 場景引入
左邊的是采用工藝A種植的麥子,右邊的是采用工藝B種植的麥子,兩邊各種100株麥子。??
現(xiàn)在發(fā)現(xiàn)左邊麥田中平均每株麥穗上有100粒麥子,右邊麥田中平均每株麥穗上有120粒麥子,這說明啥?說明采用工藝B能得到更高的麥子產(chǎn)量對不?
咱們外行可能會這么看,但是人家專業(yè)的可不輕易這么認(rèn)為。這是采用小面積的試驗(yàn)田種出的麥子,一個是量少,不足以說明問題(想想咱們的大數(shù)定理),另一個是無法保證除工藝區(qū)別外其它因素都一樣。那么這20粒麥子的差值能不能說明工藝的優(yōu)劣問題呢?
t檢驗(yàn)就是用來處理這樣的問題。
現(xiàn)在先回到單邊假設(shè),這20的差值是不是在工藝A下麥子平均產(chǎn)量的正常波動范圍內(nèi)?
1)單總體情況。這種情況下 t 統(tǒng)計量的定義為:

(關(guān)于標(biāo)準(zhǔn)誤的進(jìn)一步理解可以參考資料【】)


3.4? F檢驗(yàn)【10】
F分布的應(yīng)用——方差分析
3.4.1? t檢驗(yàn)的局限性
當(dāng)研究中出現(xiàn)兩個以上的平均數(shù)時,用Z檢驗(yàn)和t檢驗(yàn)會有以下一些不足。
1.比較的組合次數(shù)增多
如上所述,若把三所學(xué)校成對比較,則需對A校與B校,B校與C校,C校與A校做檢驗(yàn),這時我們所做的檢驗(yàn)是三次而不是一次。如果一次研究10個學(xué)校,其檢驗(yàn)數(shù)就會達(dá)到45個之多。事實(shí)上我們只需要一個可以讓我們同時處理兩種以上條件的單獨(dú)檢驗(yàn)。
2.降低可靠程度
因?yàn)閷?shù)據(jù)做得Z檢驗(yàn)或t檢驗(yàn)越多,我們更容易犯Ⅰ型錯誤。在一個檢驗(yàn)中,α=0.05,意味著有0.05的可能性犯Ⅰ型錯誤,即有1-α=0.95的概率不犯Ⅰ型錯誤。如果我們做兩次檢驗(yàn),每次都為0.05的顯著性水平,那么不犯Ⅰ型錯誤的概率就變?yōu)?.95×0.95=0.90。所以說采用Z檢驗(yàn)或t檢驗(yàn)隨著均數(shù)個數(shù)的增加,其組合次數(shù)增多,從而降低了統(tǒng)計推論可靠性的概率,增大了犯錯誤的概率。
若想要若干檢驗(yàn)的總顯著性水平仍為0.05的話,一種做法就是為每一獨(dú)立檢驗(yàn)設(shè)置更為保守的顯著性水平。譬如,若進(jìn)行5次檢驗(yàn),為了使總的犯Ⅰ型錯誤的風(fēng)險仍為0.05,則每一個獨(dú)立檢驗(yàn)的顯著性水平需設(shè)為p=0.01(因?yàn)?-0.99×0.99×0.99×0.99×0.99=0.05)。另一種可替代的方法就是設(shè)計一種能使總顯著性水平始終0.05的單一檢驗(yàn),即方差分析。
3.缺少綜合或整體信息
兩個以上的平均數(shù)檢驗(yàn)中若仍采用Z檢驗(yàn)或t檢驗(yàn)都只提供了兩個組所提供的信息,而忽略了其余的綜合信息。然而在許多情況下這些被忽視的信息可能對檢驗(yàn)結(jié)果產(chǎn)生更大的影響力。同時在十次檢驗(yàn)之后所得到只是零散的信息,并非從總體來分析幾種不同條件的效果,也難以獲得幾種不同條件的直接答案。
3.4.2? 方差分析
所謂方差分析(analysis of variance)就是對多個平均數(shù)進(jìn)行比較的一種統(tǒng)計方法,又稱變異數(shù)分析,即ANOVA
以下三條假設(shè)在進(jìn)行方差分析時是非常關(guān)鍵的。否則易產(chǎn)生錯誤的統(tǒng)計結(jié)論。?
1.總體分布的正態(tài)性
2.各個實(shí)驗(yàn)組的方差齊性。方差分析要求各總體的方差或標(biāo)準(zhǔn)差相同。譬如,某校在實(shí)驗(yàn)班和普通班進(jìn)行教學(xué)方法的實(shí)驗(yàn),以新方法施教于實(shí)驗(yàn)班,以傳統(tǒng)方法施教于普通班。實(shí)驗(yàn)結(jié)束后發(fā)現(xiàn)兩班成績差異非常顯著,然而這種差異究竟是教法不同造成的,還是兩班學(xué)生原有學(xué)習(xí)水平不同引起的,我們無法回答這個問題。因此,方差分析前需對各樣本的方差做一致性檢驗(yàn),稱方差齊性檢驗(yàn),只有滿足了方差齊性的條件才可做方差分析。
3.變異具有加可性。方差分析是將事物的總變異分解為各個不同變異來源,分解后的各部分變異是相互獨(dú)立,相加后又構(gòu)成總變異。
廣義的方差分析包括了方差的齊性檢驗(yàn),F(xiàn)檢驗(yàn)和多重比較(逐對平均數(shù)的比較)。狹義的方差分析僅指F檢驗(yàn)

例子:

4? 總結(jié)
不同檢驗(yàn)構(gòu)造了不同的統(tǒng)計量,這些統(tǒng)計量對應(yīng)服從幾大分布,所以這幾大分布才如此重要。幾大分布中,伽馬函數(shù)的性質(zhì)起到了重要的作用。
Z檢驗(yàn):檢查是否服從正態(tài)分布(python)
卡方檢驗(yàn):檢驗(yàn)各類實(shí)際觀察的頻數(shù)是否顯著不同于建設(shè)的期望頻數(shù),檢驗(yàn)兩個變量是否存在關(guān)系(投色子)
t檢驗(yàn):判斷兩類樣本在某一變量上的均值差異是否顯著(兩塊大麥田)
F檢驗(yàn):檢驗(yàn)幾個分布的方差是否相同(學(xué)生的教學(xué)方法)
其它:
Z就是正態(tài)分布,方差已知情況下求均值是Z檢驗(yàn)。
卡方分布主要用于檢驗(yàn)樣本是否偏離了期望,例如偏離了期望的分布(擬合優(yōu)度檢驗(yàn)),期望的比例(列聯(lián)表)等。均值方差都未知求方差是X^2檢驗(yàn)
t分布用于檢驗(yàn)均值是否不同。方差未知求均值是t檢驗(yàn)(樣本標(biāo)準(zhǔn)差s代替總體標(biāo)準(zhǔn)差R,由樣本平均數(shù)推斷總體平均數(shù))
F分布用于檢驗(yàn)方差是否不同。兩個正態(tài)分布樣本的均值方差都未知情況下求兩個總體的方差比值是F檢驗(yàn)。
三者都可以用于回歸方程系數(shù)的檢驗(yàn)。
補(bǔ)充:統(tǒng)計自由度概念【11】
非常棒的解釋~補(bǔ)充一下:n*m的變量矩陣(n個變量造成了m種結(jié)果),它的自由度為(n-1)*(m-1),從矩陣的角度可以理解為一個n*m的矩陣,共有n*m個元素,由于行和和列和已知,所以有m+n個約束條件,同時行和之和與列和之和相等,相當(dāng)于有一個約束條件可以被其它約束條件表示。所以剩下的自由度為:n*m-(n+m-1)= (n-1)(m-1)
5、參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn)
1、
參數(shù)檢驗(yàn):假定數(shù)據(jù)服從某分布(一般為正態(tài)分布),通過樣本參數(shù)的估計量(x±s)對總體參數(shù)(μ)進(jìn)行檢驗(yàn),比如t檢驗(yàn)、u檢驗(yàn)、方差分析。
非參數(shù)檢驗(yàn):不需要假定總體分布形式,直接對數(shù)據(jù)的分布進(jìn)行檢驗(yàn)。由于不涉及總體分布的參數(shù),故名「非參數(shù)」檢驗(yàn)。比如,卡方檢驗(yàn)。
2、參數(shù)檢驗(yàn)的集中趨勢的衡量為均值,而非參數(shù)檢驗(yàn)為中位數(shù)。
3、參數(shù)檢驗(yàn)需要關(guān)于總體分布的信息;非參數(shù)檢驗(yàn)不需要關(guān)于總體的信息。
4、參數(shù)檢驗(yàn)只適用于變量,而非參數(shù)檢驗(yàn)同時適用于變量和屬性。
5、測量兩個定量變量之間的相關(guān)程度,參數(shù)檢驗(yàn)用Pearson相關(guān)系數(shù),非參數(shù)檢驗(yàn)用Spearman秩相關(guān)。
簡而言之,若可以假定樣本數(shù)據(jù)來自具有特定分布的總體,則使用參數(shù)檢驗(yàn)。如果不能對數(shù)據(jù)集作出必要的假設(shè),則使用非參數(shù)檢驗(yàn)。
參考文獻(xiàn)
【1】https://blog.csdn.net/anshuai_aw1/article/details/82735201? ??三大抽樣分布:卡方分布,t分布和F分布的簡單理解
【2】http://www.itdecent.cn/p/807b2c2bfd9b? ??結(jié)合日常生活的例子,了解什么是卡方檢驗(yàn)
【3】https://blog.csdn.net/arielle512/article/details/81234501? ???相關(guān)性度量的幾種方法-卡方檢驗(yàn)、相關(guān)系數(shù)、信息增益.
【4】https://blog.csdn.net/qq_42828404/article/details/81916167? ??幾大分布:正態(tài)分布、卡方分布、t分布、F分布整理
【5】https://www.cnblogs.com/shengyang17/p/9644431.html? ??數(shù)據(jù)特征分析:4.正態(tài)分布與正態(tài)性檢驗(yàn)
【6】https://blog.csdn.net/u012526003/article/details/84455456? ??統(tǒng)計分布的距離/相似性計算
【7】https://blog.csdn.net/u012052268/article/details/81592368? ??理解假設(shè)檢驗(yàn)與P值
【8】https://www.cnblogs.com/hgz-dm/p/10886155.html? ??t分布與t檢驗(yàn)的一點(diǎn)理解
【9】http://www.itdecent.cn/p/637d622861bf? ? 標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤
【10】https://blog.csdn.net/suzyu12345/article/details/80135732? ??數(shù)據(jù)統(tǒng)計基礎(chǔ)之F分布及其應(yīng)用
【11】http://www.itdecent.cn/p/0032087b9dbb? ??用可視化思維解讀統(tǒng)計自由度