3、Stata入門---常見的統(tǒng)計(jì)操作

一、T檢驗(yàn)【T-test】

t 檢驗(yàn)(t test)又稱學(xué)生t檢驗(yàn)(Student t-test)可以說是統(tǒng)計(jì)推斷中非常常見的一種檢驗(yàn)方法,用于統(tǒng)計(jì)量服從正態(tài)分布,但方差未知的情況。

  • 單樣本t檢驗(yàn)(One-sample t test)
    用于檢驗(yàn)總體方差未知、正態(tài)數(shù)據(jù)或近似正態(tài)的 單樣本的均值 是否與 已知的總體均值相等
  • 獨(dú)立樣本t檢驗(yàn)(Two-sample t test)
    用于檢驗(yàn)兩對(duì)獨(dú)立的 正態(tài)數(shù)據(jù)或近似正態(tài)的 樣本的均值 是否相等,這里可根據(jù)總體方差是否相等分類討論
  • 配對(duì)樣本t檢驗(yàn)(paird t test)
    用于檢驗(yàn)一對(duì)配對(duì)樣本的均值的差 是否等于某一個(gè)值
  • 回歸系數(shù)的顯著性檢驗(yàn)(t-test for regression coefficient significance)
    用于檢驗(yàn)回歸模型的解釋變量對(duì)被解釋變量是否有顯著影響
1、單樣本均值檢驗(yàn)請(qǐng)參考

目的:檢驗(yàn)單樣本的均值是否和已知總體的均值相等。
要求:

  1. 總體方差未知,否則就可以利用Z檢驗(yàn)(也叫U檢驗(yàn),就是正態(tài)檢驗(yàn))
  2. 正態(tài)數(shù)據(jù)或近似正態(tài)

應(yīng)用場(chǎng)景舉例:

  1. 從某廠生產(chǎn)的零件中隨機(jī)抽取若干件,檢驗(yàn)其某種規(guī)格的均值是否與要求的規(guī)格相等(雙側(cè)檢驗(yàn))
  2. 在某偏遠(yuǎn)地區(qū)隨機(jī)抽取若干健康男子,檢驗(yàn)其脈搏均數(shù)是否高于全體健康男子平均水平(單側(cè)檢驗(yàn))
  3. 檢驗(yàn)?zāi)骋痪€城市全體高三學(xué)生視力水平是否比全國全體高三學(xué)生視力水平低(單側(cè)檢驗(yàn))


    image.png

    對(duì)于熟悉數(shù)理統(tǒng)計(jì)的朋友,上面這一條是顯然的。下面我們?cè)囍鴺?gòu)造出一個(gè)t
    統(tǒng)計(jì)量,我們知道t變量的構(gòu)造定義是一個(gè) 分子為標(biāo)準(zhǔn)正態(tài)變量、分母為卡方變量除以它自由度后開根號(hào) 的分式。上面我們已經(jīng)得到了一個(gè)標(biāo)準(zhǔn)正態(tài)變量,不難想到卡方變量的一個(gè)重要定理:


    image.png
image.png
  1. 原假設(shè)的定義:原假設(shè)亦稱待驗(yàn)假設(shè)、虛無假設(shè)、解消假設(shè),一般記為Ho。統(tǒng)計(jì)學(xué)的基本概念之一假設(shè)檢驗(yàn)中,待檢驗(yàn)的有關(guān)總體分布的一項(xiàng)命題的假設(shè)稱為原假設(shè)。
  2. 備擇假設(shè)的定義:備擇假設(shè)是統(tǒng)計(jì)學(xué)的基本概念之一,其包含關(guān)于總體分布的一切使原假設(shè)不成立的命題。備擇假設(shè)亦稱對(duì)立假設(shè)、備選假設(shè)。
    假設(shè)檢驗(yàn)的基本思想是概率性質(zhì)的反證法。根據(jù)所考察問題的要求提出原假設(shè)和備擇假設(shè),為了檢驗(yàn)原假設(shè)是否正確,先假定原假設(shè)是正確的情況下,構(gòu)造一個(gè)小概率事件,然后根據(jù)抽取的樣本去檢驗(yàn)這個(gè)小概率事件是否發(fā)生。

如果在一次試驗(yàn)中小概率事件竟然發(fā)生了,我們就懷疑原假設(shè)原假設(shè)的正確性,從而拒絕原假設(shè)如果在一次試驗(yàn)中小概率事件沒有發(fā)生,則沒有理由懷疑原假設(shè)原假設(shè)的正確性,因此接受原假設(shè)。

對(duì)話框操作

statistics->Summaries,tables,and tests->Classical tests of hypotheses->t test (mean-comparison test)

ttest price == 6000   //默認(rèn)置信區(qū)間95
ttest price ==6000, level(99)
ttest pric == 6000 if foreign ==0, level(90)
 
假設(shè)price等于6000

由于Pr(|T|>|t|) = 0.6313 mean !=6000 所以不能拒絕mean==6000的原假設(shè)


ttest pric == 6000 if foreign ==0, level(90)
2.1、雙樣本均值檢驗(yàn),一變量分組比較參考

目的:檢驗(yàn)兩獨(dú)立樣本的均值是否相等。
要求:兩樣本獨(dú)立,服從正態(tài)分布或近似正態(tài)。
應(yīng)用場(chǎng)景舉例:

  1. 檢驗(yàn)兩工廠生產(chǎn)同種零件的規(guī)格是否相等(雙側(cè)檢驗(yàn))
  2. 為研究某種治療兒童貧血新藥的療效,以常規(guī)藥作為對(duì)照,治療一段時(shí)間后,檢驗(yàn)施以新藥的兒童血紅蛋白的增加量是否比常規(guī)藥的大(單側(cè)檢驗(yàn))
  3. 檢驗(yàn)兩種藥物對(duì)治療高血壓的效果,檢驗(yàn)兩組藥物的降壓水平是否相等(雙側(cè)檢驗(yàn))
 ttest price, by(foreign)
ttest price, by(foreign)

p=0.6802 ,p>0.05, 所以不能拒絕diff=0的原假設(shè)

2.2、獨(dú)立樣本t檢驗(yàn),兩個(gè)變量比較參考
webuse fuel.dta, clear    //先導(dǎo)入需要用到的數(shù)據(jù)包
ttest mpg1 == mpg2, unpaired
image.png

p值大于0.05,所以不能拒絕原假設(shè)

3、配對(duì)樣本均值檢驗(yàn),一變量分組比較[參考]
ttest mpg1 == mpg2    //注意,這里沒有unpaired
ttest mpg1 == mpg2,

這里的p值小于0.05,所以我們拒絕0假設(shè),這里的配對(duì)檢驗(yàn)是有差別的

二、卡方檢驗(yàn)/Fisher精確檢驗(yàn)

1、卡方檢驗(yàn)(chi-squared test)
對(duì)話框操作
對(duì)話框選項(xiàng)

導(dǎo)入數(shù)據(jù)集
sysuse nlsw88, clear

tabulate race married, chi2
tabulate race married, chi2

結(jié)論:P值小于0.05,說明不同婚姻狀況的人rece分布不同(或者不同race的人,婚姻狀況不同)。

pearson's chi-square 每一個(gè)單元格對(duì)卡方檢驗(yàn)的貢獻(xiàn)是多少

tabulate race married, cchi2 chi2
可以查看每一個(gè)單元格對(duì)卡方檢驗(yàn)的貢獻(xiàn)是多少

Expected frequencies 期望頻數(shù)(理論頻數(shù))

tabulate race married, chi2 expected
查看期望頻數(shù)
2、 Fisher精確檢驗(yàn)(Fisher‘s exact test)
  • 通常,當(dāng)列聯(lián)表中理論頻數(shù)(期望頻數(shù))<5時(shí),我們可以增加樣本量、刪去理論頻數(shù)太少的行、或列、或者合并某些行或列。
  • 也可以使用Fisher精確檢驗(yàn)
  • 任何樣本量都可以使用Fisher精確檢驗(yàn)
  • Test statistics中選擇Fisher's exact test
tabulate race married, exact   //tab 簡(jiǎn)寫
Fisher精確檢驗(yàn)

P值是小于0.005的,所以說他是有顯著差別的。

注意:注意:注意:
1、總例數(shù)>=40,所有理論頻數(shù)>5,看Pearson Chi-Square結(jié)果
2、總例數(shù)>=40,出現(xiàn)一個(gè)理論頻數(shù)>=1且<=5,x平方檢驗(yàn)需要進(jìn)行連續(xù)性校正,這是以Continuity Correction結(jié)果為準(zhǔn):
3、總例數(shù)>=40,至少2個(gè)理論頻數(shù)>=1且<=5,看Fisher's Exact Test結(jié)果:
4、總例數(shù)<40或者處理理論頻數(shù)<1,看Fisher's Exact Test結(jié)果。


為什么可以不用連續(xù)性校正?
Stata不自帶卡方檢驗(yàn)的連續(xù)性校正
Stata有用戶自寫的package可以實(shí)現(xiàn)連續(xù)性驕橫,但是并不推薦,卡方檢驗(yàn)的連續(xù)性校正并不是必須的,也不是最推薦的方法
在樣本量足夠大的時(shí)候,使用卡方檢驗(yàn)時(shí),是否使用卡方檢驗(yàn)的連續(xù)性校正區(qū)別很??;使用Fisher精確檢驗(yàn)也是沒有問題的。
在樣本量小的時(shí)候(通常是某個(gè)格子期望頻數(shù)<5),可以直接使用Fisher精確檢查,亦不需要使用“卡方檢驗(yàn)+連續(xù)性矯正”

三、RR值的計(jì)算(相對(duì)危險(xiǎn)度Relative Risk, RR)

研究者想探索吸煙與肺癌間的關(guān)聯(lián),即吸煙者患肺癌的風(fēng)險(xiǎn)是否比不吸煙者高以及高多少。研究者從一般人群中隨機(jī)抽樣700名調(diào)查對(duì)象建立前瞻性隊(duì)列研究。調(diào)查對(duì)象的吸煙狀態(tài)為吸煙或不吸煙。在研究開始時(shí),所有調(diào)查對(duì)象均未患肺癌。研究者隨訪10年記錄調(diào)查對(duì)象是否患肺癌。
因此,研究者可以分別得到患肺癌的吸煙者、未患肺癌的吸煙者、患肺癌的不吸煙者和未患肺癌的不吸煙者的人數(shù),據(jù)此可以計(jì)算吸煙組與不吸煙組的風(fēng)險(xiǎn)差異。

對(duì)問題的分析
為計(jì)算相對(duì)危險(xiǎn)度(RR),需要滿足以下假設(shè):

  • 假設(shè)1:因變量和自變量均為二分類變量
  • 假設(shè)2:個(gè)觀測(cè)間相互獨(dú)立

導(dǎo)入數(shù)據(jù)
webuse csxmpl, clear

數(shù)據(jù)結(jié)構(gòu)

使用代碼警醒RR值的計(jì)算

代碼格式:
cs var_case var_exposed [if][in][weight][,cs_options]
cs case exp[fweight = pop]
csi #a #b #c #d [,csi_options]

image.png
cs case exp [fweight = pop]

csi 7 12 9 2    //直接輸入數(shù)值也可以計(jì)算
image.png

別人寫的不錯(cuò)的鏈接可以了解:認(rèn)識(shí)RR和OR

四、OR值的計(jì)算【病例組的暴露比值/對(duì)照組的暴露比值】(Odds Ratio, OR)

了解OR
OR值是否可以估計(jì)RR值

當(dāng)終點(diǎn)時(shí)間發(fā)生率較低時(shí),OR可以近似為RR(<15%)
當(dāng)終點(diǎn)時(shí)間發(fā)生率較高時(shí),OR會(huì)“夸大”RR值
OR值相對(duì)于RR值“更遠(yuǎn)離“1”
當(dāng)RR值大于1時(shí),OR大于RR(1<RR<OR)
當(dāng)RR值小于1時(shí),OR大于RR(OR<RR<1)
終點(diǎn)事件發(fā)生率越高時(shí),OR越會(huì)overestimate

對(duì)于隊(duì)列研究/RCT,可以報(bào)告OR值嗎?

可以,但是......
RR值對(duì)于效應(yīng)值的估計(jì)更加準(zhǔn)確
RR對(duì)于臨床意義的解釋更加明確
Regression model中:對(duì)于結(jié)局是二分類變量的研究,logistics回歸智能提供OR值,不能提供OR值,
(之后會(huì)講:當(dāng)結(jié)局發(fā)生率高時(shí),應(yīng)該使用log-binomial回歸者使用帶有穩(wěn)健方差估計(jì)的泊松回歸,直接提供RR值)

代碼格式:
cc var_case var_exposed [if][in][weight][,cc_options]
cc case exp[fweight = pop]
cci #a #b #c #d [,cci_options]

cs case exp [fweight = pop], or
OR值

能提供RR值時(shí),(隊(duì)列研究、RCT)請(qǐng)不用提供OR值

范例
webuse ccxmpl, clear       //導(dǎo)入數(shù)據(jù)
list
數(shù)據(jù)格式
cc case exposed [fweight = pop]
image.png

五、單因素方差分析

作為回歸分析的“引子”
“單因素方差分析”與“單因素回歸分析”是相同的
“多因素方差分析”不如直接使用“多因素回歸分析”
回歸分析中能更加方便的看兩個(gè)變量是否存在交互作用(ANCOVA)

方差分析的假設(shè)

假設(shè)1:y變量為連續(xù)變量
假設(shè)2:有一個(gè)包含2個(gè)及以上分類、且組別間相互獨(dú)立的x變量
假設(shè)3:每組間和組內(nèi)的觀測(cè)值相互獨(dú)立
假設(shè)4:每組內(nèi)沒有明顯異常
假設(shè)5:每組內(nèi)y變量符合正態(tài)分布
假設(shè)6:進(jìn)行方差齊性檢驗(yàn),觀察每組的方差是否相等

導(dǎo)入數(shù)據(jù)
webuse systolic, clear // 關(guān)于雪茄的數(shù)據(jù)

數(shù)據(jù)格式

假設(shè)4:如何檢測(cè)每組內(nèi)沒有明顯異常值
Boxplot(箱體圖)
graph box drug disease systolic

箱體圖

假設(shè)5:每組內(nèi)y變量符合正態(tài)分布

對(duì)話框操作
codebook drug
查看drug變量數(shù)據(jù)
sum systolic, detail
image.png
graph box systolic, over(drug)
箱體圖中有一個(gè)異常值
sktest systolic
image.png

P值是大于0.05的,所以不能說它不符合正態(tài)分布

swilk systolic    //常用
image.png
sfrancia systolic
image.png
oneway systolic drug
通過了方差齊性檢驗(yàn)
oneway systolic drug, bonferroni
image.png
oneway systolic drug, bonferroni tabulate
image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容