1、基石：大數(shù)定律和中心極限定律

大數(shù)定理。不管是強(qiáng)大數(shù)定理還是弱大數(shù)定理，都表達(dá)著這樣一個意思：當(dāng)樣本數(shù)量足夠大時，這些樣本的均值無限接近總體的期望。

中心極限定理。不管樣本總體服從什么分布，當(dāng)樣本數(shù)量足夠大時，樣本的均值以正態(tài)分布的形式圍繞總體均值波動。中心極限定理的表達(dá)方式可以有多種，我這里只是其中一種。

2、什么是卡方分布、t分布和F分布

有很多統(tǒng)計推斷是基于正態(tài)分布的假設(shè)，以標(biāo)準(zhǔn)正態(tài)分布變量為基石而構(gòu)造的三個著名統(tǒng)計量在實(shí)際中有廣泛的應(yīng)用，這是因?yàn)檫@三個統(tǒng)計量不僅有明確背景，而且其抽樣分布的密度函數(shù)有顯式表達(dá)式，它們被稱為統(tǒng)計中的“三大抽樣分布”。這三大抽樣分布即為著名的卡方分布，t分布和F分布。

為了應(yīng)用方便，常將一般的正態(tài)變量X通過u變換[(X-μ)/σ]轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)變量u，以使原來各種形態(tài)的正態(tài)分布都轉(zhuǎn)換為μ=0，σ=1的標(biāo)準(zhǔn)正態(tài)分布（standard normaldistribution）,亦稱u分布。根據(jù)中心極限定理，通過抽樣模擬試驗(yàn)表明，在正態(tài)分布總體中以固定 n 抽取若干個樣本時，樣本均數(shù)的分布仍服從正態(tài)分布，即N（μ，σ）。所以，對樣本均數(shù)的分布進(jìn)行u變換，也可變換為標(biāo)準(zhǔn)正態(tài)分布N (0,1)。

2.1? 卡方分布

卡方分布：n個服從N（0，1）的隨機(jī)變量Yi，X = Σ(Yi^2)，則X服從卡方分布

大量抽樣的平方和服從卡方分布

2.2? t分布

t分布：實(shí)際工作中，往往總體方差未知，常用樣本方差s作為總體方差的估計值，為了與u變換區(qū)別，稱為t變換

對一個樣本大量抽樣，另外一個樣本知道它服從正態(tài)分布，假設(shè)它們兩個相互獨(dú)立

2.3? F分布

F分布

對兩個相互獨(dú)立的樣本分開大量抽樣，看它們的卡方分布的比值

2.4? 伽馬函數(shù)

伽馬函數(shù)在三個抽樣分布的表達(dá)式中都有出現(xiàn)，那么伽馬函數(shù)是干什么的呢，可以先從泊松分布理解起：

2.4.1? 泊松分布與伽馬函數(shù)

因此Possion公式的直觀意義就是：

已知單位時間內(nèi)平均出生λ \lambdaλ個嬰兒，得到單位時間內(nèi)出生k個嬰兒的概率。

如果將k看成是一個變量， Possion公式就是單位時間內(nèi)出生嬰兒個數(shù)的概率分布。

直觀理解，當(dāng)然是單位時間出生λ \lambdaλ個嬰兒的概率最大。

————————————————

在Poisson分布中，λ是一個已知數(shù)，是一個常數(shù)，

如果我們把λ看成一個變數(shù)，假設(shè)是x

那么得到的分布就叫Gamma分布，顯然Gamma比Poisson更高一維的分布。

————————————————

由此可見，Gamma函數(shù)是一個關(guān)于x和k的二維概率分布。x是單位時間內(nèi)事件發(fā)生的平均次數(shù)，k是單位時間內(nèi)事件發(fā)生的某一特定次數(shù)，得到類似于下圖，可見，它是一個指數(shù)分布，k與越接近，概率越大，在k與x相等的地方，概率達(dá)最大值。（如果將x固定一個常數(shù)，就是Poisson分布。）

3 、應(yīng)用場景

假設(shè)檢驗(yàn)的基本思想：

? ? ? ?若對總體的某個假設(shè)是真實(shí)的，那么不利于或者不能支持這一假設(shè)的事件A在一次試驗(yàn)中是幾乎不可能發(fā)生的。如果事件A真的發(fā)生了，則有理由懷疑這一假設(shè)的真實(shí)性，從而拒絕該假設(shè)。

3.1? 正態(tài)檢驗(yàn)：Z檢驗(yàn)【5】

利用觀測數(shù)據(jù)判斷總體是否服從正態(tài)分布的檢驗(yàn)稱為正態(tài)性檢驗(yàn)，它是統(tǒng)計判決中重要的一種特殊的擬合優(yōu)度假設(shè)檢驗(yàn)。

3.1.1? 直方圖初判

判斷是否是我們熟悉的鐘型曲線

3.1.2? QQ圖判斷

通過把測試樣本數(shù)據(jù)的分位數(shù)與已知分布相比較，從而來檢驗(yàn)數(shù)據(jù)的分布情況?

QQ圖是一種散點(diǎn)圖，對應(yīng)于正態(tài)分布的QQ圖，就是由標(biāo)準(zhǔn)正態(tài)分布的分位數(shù)為橫坐標(biāo)，樣本值為縱坐標(biāo)的散點(diǎn)圖

參考直線：四分之一分位點(diǎn)和四分之三分位點(diǎn)這兩點(diǎn)確定，看散點(diǎn)是否落在這條線的附近

3.1.3? K - S檢驗(yàn)?

python代碼：

u = df['value'].mean()# 計算均值

std = df['value'].std()# 計算標(biāo)準(zhǔn)差

stats.kstest(df['value'], 'norm', (u, std))

》》》KstestResult(statistic=0.1590180704824098, pvalue=0.3066297258358026)

ks檢驗(yàn)一般返回兩個值：D和p值

其中D表示兩個分布之間的最大距離，所以D越小，因?yàn)檫@兩個分布的差距越小，分布也就越一致

p值，也就是假設(shè)檢驗(yàn)里面的p值，可以理解為這個樣本發(fā)生的可能性有多大。

那么原假設(shè)是什么呢，原假設(shè)是“待檢驗(yàn)的兩個分布式同分布”。假設(shè)檢驗(yàn)常用的判斷標(biāo)準(zhǔn)是5%，在假設(shè)檢驗(yàn)里叫做“顯著水平”，用符號α

如果p值大于0.05，（當(dāng)然，你也可以選擇α =?0.01或者0.10，這都取決于你的要求），那么就不能拒絕原假設(shè)。所以p越大，越不能拒絕原假設(shè)，兩個分布越是同分布

補(bǔ)充：

1）兩個分布之間的最大距離D是怎么計算的：轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布后，相同x下，y值與標(biāo)準(zhǔn)正態(tài)分布的值的差

2）假設(shè)檢驗(yàn)里，p和α的關(guān)系：?

p是計算出來的，α是人工設(shè)定的，P值 < α（0.007<0.05）說明：

我們在Ho的假設(shè)成立的條件下，做了一次實(shí)驗(yàn)，Ho發(fā)生的概率就很?。ū圈炼夹。?。這是不可能的。所以拒絕Ho 。反而接受H1.【7】

3.2? 卡方檢驗(yàn)

χ2檢驗(yàn)方法主要是用來檢驗(yàn)頻數(shù)問題的，即檢驗(yàn)各類實(shí)際觀察的頻數(shù)是否顯著不同于建設(shè)的期望頻數(shù)。使用χ2檢驗(yàn)需要滿足以下的假定：

1、每次的試驗(yàn)是獨(dú)立進(jìn)行的；如果試驗(yàn)有k個類別，那么每次試驗(yàn)的結(jié)果是k個類別中的某一個；（假設(shè)多個變量之間不相關(guān)）

2、每次試驗(yàn)時每個類別發(fā)生的頻率都保持不變。（根據(jù)假設(shè)計算得出每種情況的理論值，根據(jù)理論值與實(shí)際值的差別，計算得到卡方值及自由度）

χ2檢驗(yàn)只適用于頻數(shù)檢驗(yàn)，而不適用于比率的檢驗(yàn)。

χ2檢驗(yàn)除了可以對假設(shè)的頻數(shù)進(jìn)行檢驗(yàn)外，還可以對各種假設(shè)的分布進(jìn)行檢驗(yàn)。

其實(shí)卡方檢驗(yàn)是英文Chi-Square Test 的諧音。在大數(shù)據(jù)運(yùn)營場景中，通常用在某個變量(或特征)值是不是和應(yīng)變量有顯著關(guān)系。

3.2.1? 什么是卡方檢驗(yàn)【2】：

卡方檢驗(yàn)就是檢驗(yàn)兩個變量之間有沒有關(guān)系。

以運(yùn)營為例:

卡方檢驗(yàn)可以檢驗(yàn)?zāi)行曰蛘吲詫€上買生鮮食品有沒有區(qū)別；

不同城市級別的消費(fèi)者對買SUV車有沒有什么區(qū)別；

如果有顯著區(qū)別的話，我們會考慮把這些變量放到模型或者分析里去。

詳細(xì)的例子可以參見資料【2】

3.3? t檢驗(yàn)

?t 統(tǒng)計量是英國化學(xué)家、數(shù)學(xué)家、統(tǒng)計學(xué)家?William Sealy Gosset提出的，當(dāng)年他在愛爾蘭的吉尼斯酒廠（這個酒廠還有個很牛的事兒，它的老板編著了現(xiàn)今著名的《吉尼斯世界紀(jì)錄》）工作時，酒廠禁止其將研究成果公開發(fā)表，以免泄露秘密，迫不得已William Sealy Gosset以筆名“The Student”發(fā)表研究成果，t統(tǒng)計量及t分布的命名就是源于改筆名?！?】

3.3.1? 場景引入

左邊的是采用工藝A種植的麥子，右邊的是采用工藝B種植的麥子，兩邊各種100株麥子。??

現(xiàn)在發(fā)現(xiàn)左邊麥田中平均每株麥穗上有100粒麥子，右邊麥田中平均每株麥穗上有120粒麥子，這說明啥？說明采用工藝B能得到更高的麥子產(chǎn)量對不？

咱們外行可能會這么看，但是人家專業(yè)的可不輕易這么認(rèn)為。這是采用小面積的試驗(yàn)田種出的麥子，一個是量少，不足以說明問題（想想咱們的大數(shù)定理），另一個是無法保證除工藝區(qū)別外其它因素都一樣。那么這20粒麥子的差值能不能說明工藝的優(yōu)劣問題呢？

t檢驗(yàn)就是用來處理這樣的問題。

現(xiàn)在先回到單邊假設(shè)，這20的差值是不是在工藝A下麥子平均產(chǎn)量的正常波動范圍內(nèi)？

1）單總體情況。這種情況下 t 統(tǒng)計量的定義為：

（關(guān)于標(biāo)準(zhǔn)誤的進(jìn)一步理解可以參考資料【】）

??對于 t 檢驗(yàn)，我還想再說兩句，不管是獨(dú)立樣本還是相依樣本的 t?檢驗(yàn)，目的都是為了判斷兩類樣本在某一變量上的均值差異是否顯著，這也是構(gòu)造 t 檢驗(yàn)的作用。

3.4? F檢驗(yàn)【10】

F分布的應(yīng)用——方差分析

3.4.1? t檢驗(yàn)的局限性

當(dāng)研究中出現(xiàn)兩個以上的平均數(shù)時，用Z檢驗(yàn)和t檢驗(yàn)會有以下一些不足。

1.比較的組合次數(shù)增多

如上所述，若把三所學(xué)校成對比較，則需對A校與B校，B校與C校，C校與A校做檢驗(yàn)，這時我們所做的檢驗(yàn)是三次而不是一次。如果一次研究10個學(xué)校，其檢驗(yàn)數(shù)就會達(dá)到45個之多。事實(shí)上我們只需要一個可以讓我們同時處理兩種以上條件的單獨(dú)檢驗(yàn)。

2.降低可靠程度

因?yàn)閷?shù)據(jù)做得Z檢驗(yàn)或t檢驗(yàn)越多，我們更容易犯Ⅰ型錯誤。在一個檢驗(yàn)中，α＝0.05，意味著有0.05的可能性犯Ⅰ型錯誤，即有1-α=0.95的概率不犯Ⅰ型錯誤。如果我們做兩次檢驗(yàn)，每次都為0.05的顯著性水平，那么不犯Ⅰ型錯誤的概率就變?yōu)?.95×0.95＝0.90。所以說采用Z檢驗(yàn)或t檢驗(yàn)隨著均數(shù)個數(shù)的增加，其組合次數(shù)增多，從而降低了統(tǒng)計推論可靠性的概率，增大了犯錯誤的概率。

若想要若干檢驗(yàn)的總顯著性水平仍為0.05的話，一種做法就是為每一獨(dú)立檢驗(yàn)設(shè)置更為保守的顯著性水平。譬如，若進(jìn)行5次檢驗(yàn)，為了使總的犯Ⅰ型錯誤的風(fēng)險仍為0.05，則每一個獨(dú)立檢驗(yàn)的顯著性水平需設(shè)為p＝0.01（因?yàn)?-0.99×0.99×0.99×0.99×0.99＝0.05）。另一種可替代的方法就是設(shè)計一種能使總顯著性水平始終0.05的單一檢驗(yàn)，即方差分析。

3.缺少綜合或整體信息

兩個以上的平均數(shù)檢驗(yàn)中若仍采用Z檢驗(yàn)或t檢驗(yàn)都只提供了兩個組所提供的信息，而忽略了其余的綜合信息。然而在許多情況下這些被忽視的信息可能對檢驗(yàn)結(jié)果產(chǎn)生更大的影響力。同時在十次檢驗(yàn)之后所得到只是零散的信息，并非從總體來分析幾種不同條件的效果，也難以獲得幾種不同條件的直接答案。

3.4.2? 方差分析

所謂方差分析（analysis of variance）就是對多個平均數(shù)進(jìn)行比較的一種統(tǒng)計方法，又稱變異數(shù)分析，即ANOVA

以下三條假設(shè)在進(jìn)行方差分析時是非常關(guān)鍵的。否則易產(chǎn)生錯誤的統(tǒng)計結(jié)論。?

1.總體分布的正態(tài)性

2.各個實(shí)驗(yàn)組的方差齊性。方差分析要求各總體的方差或標(biāo)準(zhǔn)差相同。譬如，某校在實(shí)驗(yàn)班和普通班進(jìn)行教學(xué)方法的實(shí)驗(yàn)，以新方法施教于實(shí)驗(yàn)班，以傳統(tǒng)方法施教于普通班。實(shí)驗(yàn)結(jié)束后發(fā)現(xiàn)兩班成績差異非常顯著，然而這種差異究竟是教法不同造成的，還是兩班學(xué)生原有學(xué)習(xí)水平不同引起的，我們無法回答這個問題。因此，方差分析前需對各樣本的方差做一致性檢驗(yàn)，稱方差齊性檢驗(yàn)，只有滿足了方差齊性的條件才可做方差分析。

3.變異具有加可性。方差分析是將事物的總變異分解為各個不同變異來源，分解后的各部分變異是相互獨(dú)立，相加后又構(gòu)成總變異。

廣義的方差分析包括了方差的齊性檢驗(yàn)，F(xiàn)檢驗(yàn)和多重比較（逐對平均數(shù)的比較）。狹義的方差分析僅指F檢驗(yàn)

例子：

4? 總結(jié)

不同檢驗(yàn)構(gòu)造了不同的統(tǒng)計量，這些統(tǒng)計量對應(yīng)服從幾大分布，所以這幾大分布才如此重要。幾大分布中，伽馬函數(shù)的性質(zhì)起到了重要的作用。

Z檢驗(yàn)：檢查是否服從正態(tài)分布（python）

卡方檢驗(yàn)：檢驗(yàn)各類實(shí)際觀察的頻數(shù)是否顯著不同于建設(shè)的期望頻數(shù)，檢驗(yàn)兩個變量是否存在關(guān)系（投色子）

t檢驗(yàn)：判斷兩類樣本在某一變量上的均值差異是否顯著（兩塊大麥田）

F檢驗(yàn)：檢驗(yàn)幾個分布的方差是否相同（學(xué)生的教學(xué)方法）

其它：

Z就是正態(tài)分布，方差已知情況下求均值是Z檢驗(yàn)。

卡方分布主要用于檢驗(yàn)樣本是否偏離了期望，例如偏離了期望的分布(擬合優(yōu)度檢驗(yàn))，期望的比例(列聯(lián)表)等。均值方差都未知求方差是X^2檢驗(yàn)

t分布用于檢驗(yàn)均值是否不同。方差未知求均值是t檢驗(yàn)（樣本標(biāo)準(zhǔn)差s代替總體標(biāo)準(zhǔn)差R，由樣本平均數(shù)推斷總體平均數(shù)）

F分布用于檢驗(yàn)方差是否不同。兩個正態(tài)分布樣本的均值方差都未知情況下求兩個總體的方差比值是F檢驗(yàn)。

三者都可以用于回歸方程系數(shù)的檢驗(yàn)。

補(bǔ)充：統(tǒng)計自由度概念【11】

非常棒的解釋~補(bǔ)充一下：n*m的變量矩陣（n個變量造成了m種結(jié)果），它的自由度為（n-1）*(m-1)，從矩陣的角度可以理解為一個n*m的矩陣，共有n*m個元素，由于行和和列和已知，所以有m+n個約束條件，同時行和之和與列和之和相等，相當(dāng)于有一個約束條件可以被其它約束條件表示。所以剩下的自由度為：n*m-（n+m-1）= (n-1)(m-1)

5、參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn)

1、

參數(shù)檢驗(yàn)：假定數(shù)據(jù)服從某分布（一般為正態(tài)分布），通過樣本參數(shù)的估計量（x±s）對總體參數(shù)（μ）進(jìn)行檢驗(yàn)，比如t檢驗(yàn)、u檢驗(yàn)、方差分析。

非參數(shù)檢驗(yàn)：不需要假定總體分布形式，直接對數(shù)據(jù)的分布進(jìn)行檢驗(yàn)。由于不涉及總體分布的參數(shù)，故名「非參數(shù)」檢驗(yàn)。比如，卡方檢驗(yàn)。

2、參數(shù)檢驗(yàn)的集中趨勢的衡量為均值，而非參數(shù)檢驗(yàn)為中位數(shù)。

3、參數(shù)檢驗(yàn)需要關(guān)于總體分布的信息；非參數(shù)檢驗(yàn)不需要關(guān)于總體的信息。

4、參數(shù)檢驗(yàn)只適用于變量，而非參數(shù)檢驗(yàn)同時適用于變量和屬性。

5、測量兩個定量變量之間的相關(guān)程度，參數(shù)檢驗(yàn)用Pearson相關(guān)系數(shù)，非參數(shù)檢驗(yàn)用Spearman秩相關(guān)。

簡而言之，若可以假定樣本數(shù)據(jù)來自具有特定分布的總體，則使用參數(shù)檢驗(yàn)。如果不能對數(shù)據(jù)集作出必要的假設(shè)，則使用非參數(shù)檢驗(yàn)。

參考文獻(xiàn)

【1】https://blog.csdn.net/anshuai_aw1/article/details/82735201? ??三大抽樣分布：卡方分布，t分布和F分布的簡單理解

【2】http://www.itdecent.cn/p/807b2c2bfd9b? ??結(jié)合日常生活的例子，了解什么是卡方檢驗(yàn)

【3】https://blog.csdn.net/arielle512/article/details/81234501? ???相關(guān)性度量的幾種方法-卡方檢驗(yàn)、相關(guān)系數(shù)、信息增益.

【4】https://blog.csdn.net/qq_42828404/article/details/81916167? ??幾大分布：正態(tài)分布、卡方分布、t分布、F分布整理

【5】https://www.cnblogs.com/shengyang17/p/9644431.html? ??數(shù)據(jù)特征分析：4.正態(tài)分布與正態(tài)性檢驗(yàn)

【6】https://blog.csdn.net/u012526003/article/details/84455456? ??統(tǒng)計分布的距離/相似性計算

【7】https://blog.csdn.net/u012052268/article/details/81592368? ??理解假設(shè)檢驗(yàn)與P值

【8】https://www.cnblogs.com/hgz-dm/p/10886155.html? ??t分布與t檢驗(yàn)的一點(diǎn)理解

【9】http://www.itdecent.cn/p/637d622861bf? ? 標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤

【10】https://blog.csdn.net/suzyu12345/article/details/80135732? ??數(shù)據(jù)統(tǒng)計基礎(chǔ)之F分布及其應(yīng)用

【11】http://www.itdecent.cn/p/0032087b9dbb? ??用可視化思維解讀統(tǒng)計自由度

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

三大抽樣分布與檢驗(yàn)：卡方分布，t分布和F分布及其相關(guān)檢驗(yàn)

三大抽樣分布與檢驗(yàn)：卡方分布，t分布和F分布及其相關(guān)檢驗(yàn)

1、基石：大數(shù)定律和中心極限定律

2、什么是卡方分布、t分布和F分布

2.1? 卡方分布

2.2? t分布

2.3? F分布

2.4? 伽馬函數(shù)

3 、應(yīng)用場景

3.1? 正態(tài)檢驗(yàn)：Z檢驗(yàn)【5】

3.2? 卡方檢驗(yàn)

3.3? t檢驗(yàn)

3.4? F檢驗(yàn)【10】

4? 總結(jié)

5、參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn)

參考文獻(xiàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

三大抽樣分布與檢驗(yàn)：卡方分布，t分布和F分布及其相關(guān)檢驗(yàn)

1、基石：大數(shù)定律和中心極限定律

2、什么是卡方分布、t分布和F分布

2.1? 卡方分布

2.2? t分布

2.3? F分布

2.4? 伽馬函數(shù)

3 、應(yīng)用場景

3.1? 正態(tài)檢驗(yàn)：Z檢驗(yàn)【5】

3.2? 卡方檢驗(yàn)

3.3? t檢驗(yàn)

3.4? F檢驗(yàn)【10】

4? 總結(jié)

5、參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn)

參考文獻(xiàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

三大抽樣分布與檢驗(yàn)：卡方分布，t分布和F分布及其相關(guān)檢驗(yàn)

2、什么是卡方分布、t分布和F分布

3 、應(yīng)用場景