假設(shè)檢驗(yàn)和ABTEST(一)

參考:
從假設(shè)檢驗(yàn)到AB實(shí)驗(yàn)——面試前你要準(zhǔn)備什么?
一文入門A/B測(cè)試(含流程、原理及示例)
A/B testing(一):隨機(jī)分配(Random Assignment)里的Why and How
第一類錯(cuò)誤和第二類錯(cuò)誤的關(guān)系是什么?
假設(shè)檢驗(yàn)的邏輯是是什么?

為什么要進(jìn)行假設(shè)檢驗(yàn)

我們?cè)谏钪薪?jīng)常會(huì)遇到對(duì)一個(gè)總體數(shù)據(jù)進(jìn)行評(píng)估的問題,但我們又不能直接統(tǒng)計(jì)全部數(shù)據(jù),這時(shí)就需要從總體中抽出一部分樣本,用樣本來估計(jì)總體情況。

舉一個(gè)簡(jiǎn)單的例子:

學(xué)而思網(wǎng)校App進(jìn)行了改版迭代,現(xiàn)在有以下兩個(gè)版本

版本1:首頁為一屏課程列表 ; 版本2:首頁為信息流

如果我們想?yún)^(qū)分兩個(gè)版本,哪個(gè)版本用戶更喜歡,轉(zhuǎn)化率會(huì)更高。我們就需要對(duì)總體(全部用戶)進(jìn)行評(píng)估,但是 并不是全部存量用戶都會(huì)訪問App,并且每天還會(huì)新增很多用戶,所以我們無法對(duì)總體(全部用戶)進(jìn)行評(píng)估,我們只能從總體的用戶中隨機(jī)抽取樣本(訪問App)的用戶進(jìn)行分析,用樣本數(shù)據(jù)表現(xiàn)情況來充當(dāng)總體數(shù)據(jù)表現(xiàn)情況,以此來評(píng)估哪個(gè)版本轉(zhuǎn)化率更高。

假設(shè)檢驗(yàn)

學(xué)了這么久《概率論與數(shù)理統(tǒng)計(jì)》,到底什么是假設(shè)檢驗(yàn)。

假設(shè)檢驗(yàn)其實(shí)就是反證法,想要證明一個(gè)命題是正確的,只能通過證明其否命題是錯(cuò)誤的來達(dá)到目的。假設(shè)檢驗(yàn)是用統(tǒng)計(jì)數(shù)據(jù)來判斷命題真?zhèn)蔚姆绞?。所以通常,先?duì)總體參數(shù)提出一個(gè)假設(shè)值,然后利用樣本信息判斷這一假設(shè)是否成立

常常會(huì)假設(shè)兩個(gè)命題:
H0:備受質(zhì)疑的命題
原假設(shè),也叫零假設(shè),用H0表示。原假設(shè)一般是統(tǒng)計(jì)者想要拒絕的假設(shè)。原假設(shè)的設(shè)置一般為:等于=、大于等于>=、小于等于<=。
H1:有待驗(yàn)證的問題
備擇假設(shè),用H1表示。備則假設(shè)是統(tǒng)計(jì)者想要接受的假設(shè)。備擇假設(shè)的設(shè)置一般為:不等于、大于>、小于<。

為什么統(tǒng)計(jì)者想要拒絕的假設(shè)放在原假設(shè)呢?因?yàn)樵僭O(shè)備被拒絕如果出錯(cuò)的話,只能犯第I類錯(cuò)誤,而犯第I類錯(cuò)誤的概率已經(jīng)被規(guī)定的顯著性水平所控制。

兩類錯(cuò)誤【棄真錯(cuò)誤(I類錯(cuò)誤)、去偽錯(cuò)誤(II類錯(cuò)誤)】


第一類錯(cuò)誤(Ⅰ類錯(cuò)誤)也稱為 α錯(cuò)誤,是指當(dāng)H0正確時(shí),而拒絕H0所犯的錯(cuò)誤。這意味著研究者的結(jié)論并不正確,即觀察到了實(shí)際上并不存在的處理效應(yīng)。,這個(gè)錯(cuò)誤的概率我們記為α。這個(gè)值也是顯著性水平,在假設(shè)檢驗(yàn)之前我們會(huì)規(guī)定這個(gè)概率的大小。
第二類錯(cuò)誤(Ⅱ類錯(cuò)誤)也稱為β錯(cuò)誤,是指H0錯(cuò)誤時(shí),反而接受虛無假設(shè)的情況,即沒有觀察到存在的處理效應(yīng)。這個(gè)錯(cuò)誤的概率我們記為β。

兩者的聯(lián)系:
下圖中紅色陰影部分的面積為α,即第一類錯(cuò)誤犯錯(cuò)的概率;黑色的陰影部分的面積為β,即第二類錯(cuò)誤犯錯(cuò)的概率。



通常情況下,我們關(guān)注α,因?yàn)槲覀兪菍?duì)于H0所以應(yīng)的樣本進(jìn)行觀測(cè)和做出判斷的,α就是H0與H1交集且在H1的部分(拒絕H0接受H1);而對(duì)于β,我們用的是H1對(duì)應(yīng)的樣本的總體(有多少樣本點(diǎn)導(dǎo)致在前一步計(jì)算檢驗(yàn)統(tǒng)計(jì)量時(shí)不拒絕H0)進(jìn)行判斷的,β就是H0與H1交集且在H0的部分(拒絕H1接受H0)。

通過上述說明,對(duì)照?qǐng)D你可能就能理解,為什么我們會(huì)說減少第一類錯(cuò)誤的發(fā)生概率就會(huì)增加第二類錯(cuò)誤的概率,因?yàn)?,第一類錯(cuò)誤的概率是我們根據(jù)檢驗(yàn)水準(zhǔn)人為設(shè)定的,當(dāng)我們把檢驗(yàn)水準(zhǔn)從0.05提高到0.01時(shí),我們減少了圖中紅色陰影的面積,但增大了圖中黑色陰影的面積,該面積即為第二類錯(cuò)誤發(fā)生概率。另一個(gè)常見的問題是為什么只有增加樣本量才能同時(shí)減少這兩類錯(cuò)誤的犯錯(cuò)概率,簡(jiǎn)單理解,就是由于樣本量的增加會(huì)降低標(biāo)準(zhǔn)誤的大?。?biāo)準(zhǔn)誤=S/根號(hào)N,樣本本量N越大,標(biāo)準(zhǔn)誤越小,反映在圖形中就是兩個(gè)總體(假設(shè)總體和實(shí)際總體)變得更“細(xì)瘦”,所以重合的部分越少,由此代表犯錯(cuò)概率的圖形的面積也會(huì)變小。

顯著性水平

顯著性水平是指當(dāng)原假設(shè)實(shí)際上正確時(shí),檢驗(yàn)統(tǒng)計(jì)量落在拒絕域的概率,簡(jiǎn)單理解就是犯棄真錯(cuò)誤的概率。這個(gè)值是我們做假設(shè)檢驗(yàn)之前統(tǒng)計(jì)者根據(jù)業(yè)務(wù)情況定好的。

顯著性水平α越小,犯第I類錯(cuò)誤的概率自然越小,一般取值:0.01、0.05、0.1等

當(dāng)給定了檢驗(yàn)的顯著水平a=0.05時(shí),進(jìn)行雙側(cè)檢驗(yàn)的Z值為1.96,t值為 。

當(dāng)給定了檢驗(yàn)的顯著水平a=0.01時(shí),進(jìn)行雙側(cè)檢驗(yàn)的Z值為2.58 。

當(dāng)給定了檢驗(yàn)的顯著水平a=0.05時(shí),進(jìn)行單側(cè)檢驗(yàn)的Z值為1.645 。

當(dāng)給定了檢驗(yàn)的顯著水平a=0.01時(shí),進(jìn)行單側(cè)檢驗(yàn)的Z值為2.33

檢驗(yàn)方式

檢驗(yàn)方式分為兩種:雙側(cè)檢驗(yàn)和單側(cè)檢驗(yàn)。單側(cè)檢驗(yàn)又分為兩種:左側(cè)檢驗(yàn)和右側(cè)檢驗(yàn)。

雙側(cè)檢驗(yàn):備擇假設(shè)沒有特定的方向性,形式為“≠”這種檢驗(yàn)假設(shè)稱為雙側(cè)檢驗(yàn)

單側(cè)檢驗(yàn):備擇假設(shè)帶有特定的方向性 形式為">""<"的假設(shè)檢驗(yàn),稱為單側(cè)檢驗(yàn) "<"稱為左側(cè)檢驗(yàn) ">"稱為右側(cè)檢驗(yàn)

假設(shè)檢驗(yàn)步驟

  • 提出原假設(shè)與備擇假設(shè)
  • 從所研究總體中出抽取一個(gè)隨機(jī)樣本
  • 構(gòu)造檢驗(yàn)統(tǒng)計(jì)量
  • 根據(jù)顯著性水平確定拒絕域臨界值
  • 計(jì)算檢驗(yàn)統(tǒng)計(jì)量與臨界值進(jìn)行比較

兩種假設(shè)檢驗(yàn)

假設(shè)檢驗(yàn)根據(jù)業(yè)務(wù)數(shù)據(jù)分為兩種:一個(gè)總體參數(shù)的假設(shè)檢驗(yàn)和兩個(gè)總體參數(shù)的假設(shè)檢驗(yàn)

一個(gè)總體參數(shù)的假設(shè)檢驗(yàn):只有一個(gè)總體的假設(shè)檢驗(yàn)

舉個(gè)例子:學(xué)而思App原版本1轉(zhuǎn)化率為 19%,學(xué)而思App版本2開發(fā)完成后,直接全量發(fā)布整體上線,過一段時(shí)間后統(tǒng)計(jì)轉(zhuǎn)化率為27%,我們想判斷版本2是否比版本1好,這時(shí)我們做的假設(shè)檢驗(yàn)總體只有1個(gè),全部用戶。對(duì)于總體只有一個(gè)的稱為一個(gè)總體參數(shù)的假設(shè)檢驗(yàn)。

  • 單個(gè)總體:
    • 參數(shù)的假設(shè)檢驗(yàn) 需要注意大小樣本的區(qū)分、sigma是否已知來判斷采用T檢驗(yàn)還是Z檢驗(yàn)
    • 成數(shù)的假設(shè)檢驗(yàn)(比率) 此時(shí)的標(biāo)準(zhǔn)差需要注意

兩個(gè)總體參數(shù)的假設(shè)檢驗(yàn):有兩個(gè)總體的假設(shè)檢驗(yàn)

同樣的例子:學(xué)而思App版本1和學(xué)而思App版本2同時(shí)上線,流量各50%,這時(shí)我們做的假設(shè)檢驗(yàn)總體有2個(gè),分別為命中版本1的全部用戶與命中版本2的全部用戶。

兩種假設(shè)檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量計(jì)算方式有所不同,所以做區(qū)分描述。

  • 兩個(gè)總體
    • 參數(shù)的假設(shè)檢驗(yàn)
    • 成數(shù)的假設(shè)檢驗(yàn)

確定檢驗(yàn)類型及檢驗(yàn)統(tǒng)計(jì)量

在判斷用什么檢驗(yàn)的時(shí)候,首要考慮的條件是樣本量,其次是總體服從的分布

  • 樣本容量大時(shí)(統(tǒng)計(jì)學(xué)上一般認(rèn)為n≥30),總體的均值和標(biāo)準(zhǔn)差未知,不要求總體近似服從正態(tài)分布。根據(jù)中心極限定理,樣本容量大,則樣本均值的抽樣分布服從正態(tài)分布,總體標(biāo)準(zhǔn)差可以用樣本標(biāo)準(zhǔn)差來估計(jì),可用Z檢驗(yàn);
  • 當(dāng)樣本容量小于30,且滿足總體近似服從正態(tài)分布時(shí),如果總體標(biāo)準(zhǔn)差已知,可用Z檢驗(yàn);
  • 當(dāng)樣本容量小于30,且滿足總體近似服從正態(tài)分布時(shí),如果總體標(biāo)準(zhǔn)差未知,可以用樣本標(biāo)準(zhǔn)差去估計(jì)總體標(biāo)準(zhǔn)差,由此可用T檢驗(yàn);
  • 當(dāng)樣本容量小于30,且不滿足總體近似服從正態(tài)分布,不能用Z檢驗(yàn)和T檢驗(yàn)。

簡(jiǎn)單地說其實(shí)就是,總體標(biāo)準(zhǔn)差怎么估計(jì)的問題。檢驗(yàn)類型確定了,檢驗(yàn)統(tǒng)計(jì)量也就確定了。

(不過現(xiàn)在的很多軟件簡(jiǎn)化了上述步驟,改為,若總體標(biāo)準(zhǔn)差已知(無論樣本大?。┒加肸檢驗(yàn)若總體標(biāo)準(zhǔn)差未知,都用T檢驗(yàn)不過當(dāng)樣本量夠大的時(shí)候,T分布也近似于Z分布了,所以最后的結(jié)果不會(huì)差很多。T分布其實(shí)是小樣本的Z分布。一個(gè)樣本的自由度越大,樣本方差就越接近總體方差,T分布也就越接近Z分布。因此T分布的形狀隨自由度的變化而變化,自由度越大,越接近正態(tài)分布。

面試題:

你會(huì)怎么證明中醫(yī)的有效性?

利用假設(shè)檢驗(yàn)來證明:
第一步: 提出原假設(shè)和被擇假設(shè):H0:中醫(yī)是無效的。 H1:中醫(yī)是有效的。 H0是我們希望推翻的命題,H1是希望被證實(shí)的命題。
第二步:從整體的研究樣本中抽樣,這里應(yīng)選擇兩個(gè)總體:兩組生理特征和疾病狀況一致的人,一組人不給予治療,另一組給予中醫(yī)治療,持續(xù)觀測(cè)兩組人的生理數(shù)據(jù)。
第三步:根據(jù)兩組人的生理數(shù)據(jù)構(gòu)造T統(tǒng)計(jì)量(雙樣本σ未知)進(jìn)行T檢驗(yàn)。
第四步:根據(jù)顯著性水平確定拒絕域或者P值。
第五步:構(gòu)造拒絕域,考察0與拒絕域的關(guān)系;或者計(jì)算p值,比較其與顯著性水平的關(guān)系。

置信區(qū)間和置信度你了解嗎?

在假設(shè)檢驗(yàn)的過程中,我們往往采用樣本數(shù)據(jù)特征來估計(jì)整體的數(shù)據(jù)特征。在中心極限定理里,我們知道從總體中進(jìn)行N次樣本抽取,N次樣本的均值會(huì)圍繞總體均值上下波動(dòng)。因此,置信區(qū)間就是為總體的均值提供了一個(gè)可波動(dòng)的范圍,置信區(qū)間與置信度是相對(duì)應(yīng)的。例如,在95%的置信度下,置信區(qū)間為【a,b】,也就是說,抽取100次樣本,其中有95次樣本的均值能夠落在【a,b】范圍內(nèi)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容