基礎(chǔ)知識(shí)(四)統(tǒng)計(jì)&數(shù)據(jù)分析知識(shí)——假設(shè)檢驗(yàn)

思維導(dǎo)圖

Q1:在假設(shè)檢驗(yàn)中,原假設(shè)和備擇假設(shè)常用的劃分方法是什么?

1.原假設(shè)和備擇假設(shè)

  • 原假設(shè)記為H0,備擇假設(shè)記為H1

  • 備擇假設(shè)實(shí)際上是我們真正需要關(guān)心和證明的

  • H0和H1的選擇是基于實(shí)際的需要,不是隨機(jī)選擇的

2.檢驗(yàn)統(tǒng)計(jì)量

  • 檢驗(yàn)統(tǒng)計(jì)量是用于假設(shè)檢驗(yàn)計(jì)算的統(tǒng)計(jì)量,基于樣本檢驗(yàn)統(tǒng)計(jì)量的值來(lái)接受或者拒絕原假設(shè)

  • 常用的檢驗(yàn)統(tǒng)計(jì)量:t統(tǒng)計(jì)量、z統(tǒng)計(jì)量

  • 在原假設(shè)成立的情況下,檢驗(yàn)統(tǒng)計(jì)量服從一個(gè)特定的分布

  • 在備擇假設(shè)成立的情況下,則不服從該分布


Q2:簡(jiǎn)述假設(shè)檢驗(yàn)的基本思想

1.比較通俗的闡述

通過(guò)證明在原假設(shè)成立的前提下,檢驗(yàn)統(tǒng)計(jì)量出現(xiàn)當(dāng)前值或者更為極端的值屬于“小概率”事件,以此推翻原假設(shè),接受備擇假設(shè)。

"檢驗(yàn)統(tǒng)計(jì)量出現(xiàn)當(dāng)前值或者更為極端的值"的概率就是p-value
“小概率”:將p-value與預(yù)先定義的顯著性水平α對(duì)比,如果p-value小于α,就可以推翻原假設(shè)

2.更為嚴(yán)謹(jǐn)?shù)年U述

通過(guò)證明該樣本對(duì)應(yīng)的p-value小于α,以此推翻原假設(shè),接受備擇假設(shè)


Q3:解釋假設(shè)檢驗(yàn)中的兩類錯(cuò)誤。

  • 第一類錯(cuò)誤:在原假設(shè)成立的情況下,錯(cuò)誤地拒絕了原假設(shè)

  • 第二類錯(cuò)誤:沒(méi)有成功地拒絕不成立的原假設(shè)


Q4:在假設(shè)檢驗(yàn)中,如何平衡兩類錯(cuò)誤?

1.顯著性水平

  • 預(yù)先設(shè)定犯第一類錯(cuò)誤的上限(定義顯著性水平α)

  • 1-α被稱為置信度

  • α通常設(shè)定為5%(部分比較嚴(yán)格的檢驗(yàn)中,設(shè)定為1%)

  • 當(dāng)樣本對(duì)應(yīng)的p-value小于α?xí)r,原假設(shè)會(huì)被拒絕

2.檢驗(yàn)效能

  • 在顯著性水平固定的情況下,需要減少第二類錯(cuò)誤β發(fā)生的概率

  • 1-β為規(guī)避第二類錯(cuò)誤的概率,用power表示,又稱為檢驗(yàn)效能

  • power的大小可以通過(guò)增加樣本量來(lái)提高

  • 通常需要power達(dá)到80%或者更高的水平

通過(guò)預(yù)先設(shè)定的顯著性水平和檢驗(yàn)效能,可以計(jì)算出完成試驗(yàn)所需要的最小樣本量


Q5:簡(jiǎn)述假設(shè)檢驗(yàn)中的p-value、顯著性水平、置信度、檢驗(yàn)效能。

  • p-value:在原假設(shè)成立的前提下,檢驗(yàn)統(tǒng)計(jì)量出現(xiàn)當(dāng)前值或更為極端的值的概率

  • 顯著性水平:在假設(shè)檢驗(yàn)中,犯第一類錯(cuò)誤的上限,用α表示

  • 置信度:用1-α表示檢驗(yàn)的置信度

  • 檢驗(yàn)效能:規(guī)避第二類錯(cuò)誤的概率,用power表示


Q6:z檢驗(yàn)和t檢驗(yàn)之間有什么區(qū)別?

常用的基于正態(tài)分布的檢驗(yàn)方法:z檢驗(yàn)和t檢驗(yàn)

1.z檢驗(yàn)

假設(shè)x1,x2,x3,...是一組正態(tài)分布的樣本,已知方差為σ,要判斷該正態(tài)分布的均值μ是否等于μ0,

  • 原假設(shè)

  • 備擇假設(shè)

  • 在H0成立的前提下,構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,要求的顯著性水平為α,則

  • 若檢驗(yàn)統(tǒng)計(jì)量的值落在[α/2,1-α/2]分位數(shù)之外,則表明p-value小于α,可以拒絕原假設(shè);反之,則無(wú)法拒絕原假設(shè)

2.t檢驗(yàn)

假設(shè)x1,x2,x3,...是一組正態(tài)分布的樣本,方差未知,要判斷該正態(tài)分布的均值μ是否等于μ0

  • 用樣本的方差s代替z檢驗(yàn)中已知的方差構(gòu)造檢驗(yàn)統(tǒng)計(jì)量X'

其中,

  • 同理,若檢驗(yàn)統(tǒng)計(jì)量的值落在[α/2,1-α/2]分位數(shù)之外,則可以拒絕原假設(shè)


參考文獻(xiàn)

1.《拿下Offer 數(shù)據(jù)分析師求職面試指南》徐麟 著

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容