統(tǒng)計(jì)學(xué)方法:方差分析實(shí)戰(zhàn)

影響事物的因子有很多,怎么才能確定哪個(gè)因子是對(duì)事物影響最顯著的呢,這個(gè)時(shí)候我們可以使用方差分析。

方差分析的基本思想是判斷樣本均值的變異是受因素的不同水平還是純粹由隨機(jī)因素造成的。根據(jù)影響因素的多少可以分為,單因素方差分析是檢驗(yàn)單一因素對(duì)因變量在不同水平上的影響是否顯著。多因素方差分析是對(duì)一個(gè)因變量是否受多個(gè)因素影響進(jìn)行分析。

本文重點(diǎn)就單因素方差分析進(jìn)行討論。

理論

方差分析的原理是認(rèn)為因素的不同水平(對(duì)因素按照某個(gè)維度進(jìn)行的分組)的均數(shù)間的差別基本來源組間差異和組內(nèi)差異。其中組間差異是由實(shí)驗(yàn)水平和隨機(jī)誤差構(gòu)成,而組內(nèi)誤差完全由隨機(jī)誤差構(gòu)成。

總體的離差平方和SST是組間離差平方和SSA與組內(nèi)離差平方和SSE構(gòu)成,將SSA與SSE分別與自己自由度之比就得出相應(yīng)的方差,在拿方差之比即可得出方差分析的統(tǒng)計(jì)量F,所以方差分析也成F檢驗(yàn)。


統(tǒng)計(jì)量F用來檢驗(yàn)因素對(duì)因變量的顯著性。如果因素對(duì)結(jié)果沒有影響則F接近于1。

Spass實(shí)戰(zhàn)


方差齊表:可行性檢驗(yàn)即,原假設(shè)各分組組內(nèi)無差異??梢钥吹斤@著性都是大于0.05的,也就是不能拒絕原假設(shè),即組內(nèi)是無差異的,可以進(jìn)行方差分析。

方差表:原假設(shè)是組間無差異??梢钥吹奖韕值小于0.05,說明是小概率事件,所以可以拒絕原假設(shè),接受H1假設(shè),即組件存在顯著差異。

python實(shí)戰(zhàn)

import statsmodels.api as sm  
import pandas as pd  
from statsmodels.formula.api import ols 

group1 = [29.6, 24.3, 28.5, 32.0]
group2 = [27.3, 32.6, 30.8, 34.8]
group3 = [5.8, 6.2,11.0, 8.3]
group4 = [21.6, 17.4, 18.3, 19.0]
group5 = [29.2, 32.8, 25.0, 24.2]

num = sorted(['g1', 'g2', 'g3','g4', 'g5']*4)  
data = group1 + group2 + group3 + group4 + group5  
df = pd.DataFrame({'num':num, 'data': data}) 
mod = ols('data ~ num', data=df).fit()          
ano_table = sm.stats.anova_lm(mod, typ=2)  
print(ano_table) 

可以看到統(tǒng)計(jì)庫中得出的值跟Spass一致。結(jié)論不再贅述。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容