- 首先講置信度與置信區(qū)間:
放在一起理解就行:即在置信度alpha的概率下,我們的參數(shù)落在置信區(qū)間beta內(nèi)。
例如:在置信度95%的情況下,扔均勻硬幣100次正面的次數(shù)在40~60之間。
這個例子中,我們知道扔硬幣這個實驗符合二項分布,我們通過其分布就能算出在95%的概率內(nèi),值域的分布。
** 非參數(shù)檢驗(卡方檢驗),參數(shù)檢驗(F檢驗,T檢驗,Z檢驗),方差分析(ANOVA)
非參數(shù)檢驗與參數(shù)檢驗:
** 主要差異在于,非參數(shù)檢驗不需要假定總體分布形式,直接對數(shù)據(jù)的分布進行檢驗。由于不涉及總體分布的參數(shù),故名「非參數(shù)」檢驗。比如,卡方檢驗。
而參數(shù)檢驗一般需要正太性,方差齊次等假設(shè),并已知總體均值,方差等值,或者從樣本估計**
卡方校驗:(要求independent variables是離散變量)
主要檢驗自變量與因變量的相關(guān)程度。(做變量區(qū)間劃分,然后頻次統(tǒng)計,跟相關(guān)性系數(shù)有所差異【Pearson系數(shù)為研究連續(xù)值變量之間的線性相關(guān)性】)
前提: 卡方分布本身是連續(xù)型分布,但是在分類資料的統(tǒng)計分析中,顯然頻數(shù)只能以整數(shù)形式出現(xiàn),因此計算出的統(tǒng)計量是非連續(xù)的。只有當(dāng)樣本量比較充足時,才可以忽略兩者間的差異,否則將可能導(dǎo)致較大的偏差具體而言,一般認為對于卡方檢驗中的每一個單元格,要求其最小期望頻數(shù)均大于1,且至少有4/5的單元格期望頻數(shù)大于5,此時使用卡方分布計算出的概率值才是準確的。如果數(shù)據(jù)不符合要求,可以采用確切概率法進行概率的計算。
卡方統(tǒng)計量
其中Observation為實際值,Expected為理論值。(根據(jù)Observation,通過統(tǒng)計概率直接計算出Expected理論值)
用于衡量實際值與理論值的差異程度(也就是卡方檢驗的核心思想),包含了以下兩個信息:
- 實際值與理論值偏差的絕對大?。ㄓ捎谄椒降拇嬖?,差異是被放大的)
- 差異程度與理論值的相對大小
- 卡方檢驗是一種非參檢驗
https://segmentfault.com/a/1190000003719712 - 引申1:文本分類,CHI,TF*IDF的差異。(卡方校驗用于判斷詞在分類上是否存在區(qū)分度,TFIDF主要是判斷詞在某文檔上是否有區(qū)分度,因為卡方有”低頻詞缺陷”, 不能表征詞在文檔內(nèi)的重要程度,因此,tf-idf是個不錯的補充。)
https://www.zhihu.com/question/44596828 - 引申2:皮爾遜系數(shù),用以檢驗兩個隨機變量的線性相關(guān)性。(多變量,協(xié)方差矩陣)
F檢驗:(方差齊性檢驗)
檢測兩個及以上的樣本總體方差差異是否顯著的檢驗。(對正太性敏感,需要前提為正太分布)
*F檢驗是一種參數(shù)檢驗。
- 基礎(chǔ)
H0假設(shè):兩個樣本的variance沒有差異(齊次)
H1對立假設(shè):兩個樣本的variance有差異
統(tǒng)計量服從
的F分布
F-Test in ANOVA(方差分析):
分析多組均值是否存在顯著差異【注意,在ANOVA中,F(xiàn)test也是用來檢驗均值的差異,在group=2時,兩者存在等價關(guān)系[4]】
One-way Anova用于one continuous respond,以及一個多取值的dependent variables。
Two-way Anova用于one continuous respond,以及多個多取值的dependent variables。
https://zhuanlan.zhihu.com/p/57896471
前提:方差齊次,正太敏感
H0假設(shè):多個樣本均值沒有差異(全部相等)
H1假設(shè):任意樣本有差異
ANOVA也使用F分布(與F檢驗相同)
核心思路:通過分析研究不同來源的變異對總變異的貢獻大小,從而確定可控因素對研究結(jié)果影響力的大小。假設(shè)不同組樣本的數(shù)據(jù)的差異主要來自兩個方面:1、實驗因素差異。2、隨機誤差。這兩個偏差值的比值構(gòu)成了一個分布,通過我們對這個分布的了解來確定其顯著性。
intuition:
(1) 實驗條件,即不同的處理造成的差異,稱為組間差異。用變量在各組的均值與總均值之偏差平方和的總和表示,記作SSb,組間自由度dfb。
(2) [隨機誤差],如測量誤差造成的差異或個體間的差異,稱為組內(nèi)差異,用變量在各組的均值與該組內(nèi)變量值之偏差平方和的總和表示, 記作SSw,組內(nèi)[自由度]dfw。
總偏差平方和 SSt = SSb + SSw。
組內(nèi)SSw、組間SSb除以各自的自由度(組內(nèi)dfw =n-m,組間dfb=m-1,其中n為樣本總數(shù),m為組數(shù)),得到其均方MSw和MSb,一種情況是處理沒有作用,即各組樣本均來自同一[總體],MSb/MSw≈1。另一種情況是處理確實有作用,組間均方是由于誤差與不同處理共同導(dǎo)致的結(jié)果,即各樣本來自不同總體。那么,MSb>>MSw(遠遠大于)。
MSb/MSw比值構(gòu)成F分布。用F值與其臨界值比較,推斷各樣本是否來自相同的[總體]
ANOVA與Linear Model在使用相同的encoding時,是等價的。[1]
形式化解釋:
or
之所以組間方差為explained variance,即“分組變量”解釋了差異。而組內(nèi)方差并沒有被“分組變量”解釋,所以是unexplained。
F-test is a ratio of two Chi-squares:兩個卡方統(tǒng)計量的比值。
分子計算:組間方差:
分母計算:組內(nèi)方差:
是第
個group的均值,
為總樣本均值,
為組數(shù),
為
組的樣本量
最后計算出F值之后,查臨界值表(這個統(tǒng)計量服從,
的F分布,F(xiàn)值越大,說明組間方差比組內(nèi)方差大的越多。則說明組間均值存在差異。
T檢驗:
主要用于小樣本(樣本容量小于30)的兩個平均值差異程度的檢驗方法(主要適用與總體方差未知的情況:即要用小樣本的方差預(yù)估總體方差)
*T檢驗也是一種參數(shù)檢驗。(對方差齊性敏感,需要先檢驗方差齊性【F檢驗】)
對于與總體配對的T檢驗,要求方差齊次,只有方差齊了,才能反應(yīng)其均值的差異。【不齊次有特殊處理方法】
適用于已知總體均值(單樣本配對時需要總體均值,雙樣本不需要),樣本均值,樣本方差(即樣本少總體方差未知),且大致來自于正太分布(一般除非明顯的長尾多峰等分布以外,都大致可以檢驗)
基礎(chǔ):
H0假設(shè) :與
沒有差異,
其實就是一個comparison value,
H1假設(shè)(單邊):樣本A均值大于B(或者小于)
H1假設(shè)(雙邊):兩個樣本均值有差異or
使用單邊雙邊檢驗的區(qū)別:看你拒絕假設(shè)在兩邊,or一邊
均值檢驗中統(tǒng)計量服從
的T分布。
為樣本量
泛化形式,其中
為H0假設(shè)的對比值(comparison value),
為對應(yīng)變量
的標準差(一般總體參數(shù)未知)所以都是用樣本標準差
,當(dāng)我們對比的是均值時,均值的標準差用
來近似
單總體樣本:
H0:樣本均值與總體均值相同
為樣本均值,
為總體均值,
為樣本標準差,
為樣本均值的標準差
雙總體配對樣本:(形式與上述一致)
為0假設(shè)下差異值的均值。
為配對樣本差值的標準差,
為配對樣本差值的均值的標準差
- 雙總體非配對樣本:
注:兩個獨立樣本的差的variance是:
注:實際例子見[14]
這個公式是一個比值。一個普通的比喻是,t值為信噪比。
配對t檢驗除了自由度有所差異,其實本身也差不多。
上述公式本質(zhì)分子都是均值,分母都是方差(均值的方差)。所以和z score本質(zhì)也一樣。
1)根據(jù)待檢驗的實驗,計算出t值
2)根據(jù)t值查表獲取p值,借此判斷是否有統(tǒng)計學(xué)上的差異(不過通常做法是根據(jù)想要的p值【比如0.05】來查表獲得臨界的t值,再比較t值的大小來判斷是否達到一定的顯著性,t>臨界t值,則效果顯著)PS:p值代表原假設(shè)為真時【比如abtest兩組無差異】,此事件發(fā)生的概率?!救绻苄〉脑?,則證明不太可能發(fā)生這樣的情況,應(yīng)該拒絕原假設(shè),當(dāng)然,拒絕也是有錯誤的可能性的,錯誤的概率也為p值,即我們認為abtest有顯著差異其誤判的概率是p】
Z檢驗:(統(tǒng)計量的計算形式與t檢驗一致)
統(tǒng)計量服從N(0,1)標準正太分布,查表即可知起臨界值。
t分布相較于標準正太分布來說,n越小的時候越平坦,intuition上來說,即是樣本越小,需要拒絕H0的臨界值越大(樣本小,則需要數(shù)值上越明顯的差異)
Z檢驗核心思路與t檢驗類似。由于前提已知整體方差(基本要求樣本數(shù)量大于30才能用樣本方差代替整體方差,實際上樣本量越大偏差越小),所以只適用于大樣本量的數(shù)據(jù)。
實際上與t檢驗的區(qū)別就在于,t檢驗用的t分布查臨界值(針對小樣本),Z檢驗直接查標準正太分布表即可
T檢驗與F檢驗的差異[2]:
1、本質(zhì)上T檢驗用以檢驗均值差異,F(xiàn)檢驗方差差異(譬如用于回歸模型擬合程度檢驗:回歸模型Fscore[3]),但是在方差分析ANOVA中,對F-test的應(yīng)用也是檢驗均值的差異。[4]
2、T檢驗用于樣本量小于30的情況(大于30,可視為population參數(shù)已知,用標準正太分布即可,z檢驗),F(xiàn)檢驗可以檢驗大規(guī)模數(shù)據(jù)
3、F statistics可以視為T statistic的泛化[5]
類似用途1:Ttest and Ftest for Regressor
檢驗線性模型的有效性:
1、對于Ttest是Linear Model的系數(shù)是否=0(H0)
2、對于Ftest是模型explained variance是否顯著大于unexplained variance
差異:t-test一次只能test一個參數(shù),而F test可以直接評估多個參數(shù)[8]。
,分母為
的標準差,在OLS中可以用
來估計參數(shù)的標準差。
,
為sum of squares Restricted即限制了factors(independent variables)的模型,
為sum of squares Unrestricted即未限制factors的模型。
分別為他們參數(shù)的數(shù)量。
類似用途2: T-test and Anova(F-test)
在最簡單的形式中,Anova(F-test)可以用以比較量2個或多個變量的均值,以此 generalize T-test。當(dāng)在比較2組的時候,他們是等價的
我們拿個簡單的例子,比較與
在均值上是否存在差異(均值差異來自變量自身的variance還是組間差別):
PS:這里為了做簡單的推導(dǎo),所以將樣本量都設(shè)為,其實將
帶入也是等價的。
ANOVA與OLS-LM的關(guān)系。
ANOVA其實是 OLS-Linear Regression一種特例(ANOVA只能對離散的factor做分析),所有能從ANOVA作出的推斷,都能直接從OLS中得出[9],他們假設(shè)也是一致的,categorical變量解釋不同factor之間mean的variance(組間variance),模型不能解釋的就是residual(組內(nèi)variance)。他們倆的和等于所有respond對總樣本均值的variance
同時ANCOVA也經(jīng)常用于[7]
ANCOVA(協(xié)方差分析)與ANOVA的差別
ANCOVA=ANOVA+Linear Regression。剔除Covariates帶來的影響(erase the variable effects),關(guān)注treatment本身
ANCOVA與Anova的區(qū)別在于,Based on LM,加入了一個continuous covariates,其他一樣[6]
Multi-factor(factorial) Analysis of Variance。
注:two-way anova也是factorial anova。
譬如我們要分析多個變量(independent variables),對dependent variable的影響程度。此時可以使用Multi-factor Analysis of Variance[10],或者有種思路是,看哪個factor解釋的variance更多?用Ftest來解決:即A factor解釋的variance是否顯著大于B factor解釋的variance。
跳出這個框架,或者對自變量標準化的回歸分析[11],這種方案可以針對任何連續(xù)與離散變量。
Multivariate Analysis of Variance(MANOVA)
不是FANOVA[12]
關(guān)于p value
一般在做假設(shè)檢驗的時候,我們可以通過如下步驟:
1、設(shè)定alpha
2、計算統(tǒng)計量t
3、根據(jù)alpha查統(tǒng)計量閾值來確定拒絕還是接受(這里是比較統(tǒng)計量t即可,t>t閾)
第二種方法,直接計算p value(對于不同假設(shè)分布有不同計算pvalue的公式)
p value的含義是:

非常好理解,p值為在H0假設(shè)下,最終會產(chǎn)生得到當(dāng)前數(shù)據(jù)的概率。
如果p < alpha(比如0.05)則在H0的假設(shè)下,Data產(chǎn)生概率非常?。ㄐ∮陲@著水平alpha),則應(yīng)該拒絕H0
(注:顯著性水平alpha與p值pval不是一回事,不要搞混。alpha為我們設(shè)定的顯著性水平,pval為計算出來概率。alpha是我們主觀去設(shè)定的值,pvalue為伴隨數(shù)據(jù)客觀得到的值)
關(guān)于第一類,第二類錯誤
第一類錯誤:H0為真,但是拒絕了H0(棄真)。概率為alpha(常用的顯著性水平,即是達到5%概率犯第一類錯誤的水平【即很大概率不會錯誤地拒絕H0】)
一般我們計算時,p值就是真實情況下,犯第一類錯誤的概率。
第二類錯誤:H0為假,但是接受了H0(取偽)。當(dāng)我們設(shè)定了alpha后,如果顯著性水平?jīng)]有達到alpha的值,那么我們會接受假設(shè)H0。在這種情況下,仍然有一定概率H0為假。這個概率為Beta。
即為statistical power
通常,alpha設(shè)置的比較大,則beta也會比較大,如下圖:

實踐中,由于beta無法精確計算,但是我們還是想要降低第二類錯誤的概率,所以要做有如下的認知,beta的大小取決于兩個因素:
1、H1假設(shè)與H0的距離,距離越大,beta越小。
2、alpha的值。alpha越大,beta越小。(更傾向于拒絕H0,一類錯誤概率增加,則二類錯誤率減少)。
通常在固定alpha,H1假設(shè)的情況下,要縮小beta需要增加樣本量。
關(guān)于置信度,置信區(qū)間
置信水平(置信度)=1-顯著性水平(alpha)
置信區(qū)間:U,V。指在一定的置信水平下(1-alpha),被觀測參數(shù)的真實值會落在區(qū)間(U,V)之內(nèi)。
PS:什么是統(tǒng)計量,統(tǒng)計量是樣本的函數(shù),且不依賴于任何未知的參數(shù)。比如樣本均值就是個常用的統(tǒng)計量,mean(sample),它只依賴于所有樣本的值。
PSS:一般來說,主要用于做區(qū)間估計。
[2]https://askanydifference.com/difference-between-t-test-and-f-test/
[3]F-score:https://en.wikipedia.org/wiki/Lack-of-fit_sum_of_squares
[4]:ANOVA中F檢驗也是compare均值,當(dāng)Anova在只有兩組的情況下(對應(yīng)Ftest中的2個group,Ttest中的配對),F(xiàn)檢驗與T檢驗等價:。(F檢驗本身是比較兩個方差,但是Anova中的F檢驗是比較between group variance,這個值其實是分組的均值的方差,所以本質(zhì)也是在對比均值,即:組間均值的差異,是否來自于組內(nèi)方差?)
if you have only two groups/factor levels, the F-test statistic is the square of the t-test statistic, and the F-test is equivalent to the two-sided t-test
https://stats.stackexchange.com/questions/411665/relation-between-f-test-and-t-test-are-they-mutually-exclusive
也可以見上述簡化版的等價推導(dǎo)。##T-test and Anova1(F-test)
[5] F statistics 是T statistics的generalization,同理,chi-square statistics也是normal statistics的泛化
[6]:http://www.statsmakemecry.com/smmctheblog/stats-soup-anova-ancova-manova-mancova#:~:text=One%2Dway%20ANOVA%20has%20one,of%20Education%20and%20Zodiac%20Sign)
[7]:http://www.differencebetween.net/science/mathematics-statistics/difference-between-ancova-and-regression/#:~:text=ANCOVA%20is%20a%20model%20that,linear%20to%20the%20independent%20variable.&text=Regression%20is%20the%20relationship%20of,one%20or%20more%20independent%20variables.
[8]t-tests that can assess only one regression coefficient at a time, the F-test can assess multiple coefficients simultaneously
[9]https://snaveenmathew.medium.com/simple-linear-regression-and-anova-c93ae51bdecb
以及
https://stats.stackexchange.com/questions/190984/anova-vs-multiple-linear-regression-why-is-anova-so-commonly-used-in-experiment#:~:text=ANOVA%20and%20OLS%20regression%20are,drawing%20from%20the%20test%20statistic).&text=ANOVA%20cannot%20be%20used%20for,as%20the%20more%20limited%20technique.
[10]https://www.itl.nist.gov/div898/handbook/eda/section3/eda355.htm
[11]:回歸分析中,對 variables 做standardization,https://www.researchgate.net/post/In-a-linear-regression-model-how-to-find-the-level-of-influence-of-each-independent-variables-on-the-dependent-variable
[13]McNemar's test. 不同于 ttest面向連續(xù)變量,這個是面向二分變量的。https://en.wikipedia.org/wiki/McNemar%27s_test
[14] 在特征檢驗中使用,即某特征劃分的樣本在指標上是否有差異(均值):https://blog.csdn.net/weixin_39753674/article/details/110534435