擬合多重線性回歸模型

2019/3/24-星期日-陰晴天

好多天沒有看這本spss高級教程了,今天大致看了一下回歸模型章節(jié)的第一部分。做一下相關(guān)的記錄。

一、相關(guān)概念

多重線性回歸進行統(tǒng)計分析時需要滿足以下條件:

①自變量與因變量之間存在線性關(guān)系,這個可以通過繪制“散點矩陣”反映。

②各觀測間相互獨立,即任意兩個觀測殘差的協(xié)方差為0;

③殘差e_{i} 服從正態(tài)分布N(0,\sigma ^2 )。其方差=\sigma ^2 = var(e_{i} )反映了回歸模型的精度,\sigma 越小,所得到的回歸模型預(yù)測y的精確度越高。

e_{i} 的大小不隨所有變量取值水平的變化而變化。即方差齊次性。

順便提一下總平方和、回歸平方和、殘差平方和的區(qū)別。

二、實例問題

某專門面向年輕人制作肖像的公司計劃在國內(nèi)開設(shè)幾家分店,收集了目前已開設(shè)分店的銷售數(shù)據(jù)(y,萬元)及分店所在城市的16歲一下人數(shù)(x1,萬人),人均可支配收入(x2,元)。數(shù)據(jù)reg.sav。鏈接:https://pan.baidu.com/s/12Vk-7HAyeqNbtMMfoDG0Rw 提取碼:o7hs。

1、對數(shù)據(jù)的初步分析,問題中可知有兩個自變量x1,x2以及一個反應(yīng)變量y。所以問題是如何同時考慮x1,x2多個因素對同一結(jié)果y的影響。

圖1


圖2
圖3
圖4

從結(jié)果給出了回歸模型的常數(shù)項、16歲一下年輕人人數(shù)、人均可支配收入的偏回歸系數(shù),分別為-6.886、1.455、0.009。

回歸模型y=-6.886+1.455x_{1}+0.009x_{2}

回歸模型的假設(shè)檢驗

首先要考察模型中的自變量與因變量之間時是否存在線性關(guān)系,也就是檢驗各自變量的回歸系數(shù)是否均為0,此處采用方差分析的基本思想進行判斷。

建立假設(shè):

H_{0}:\beta _{1}=\beta_{2}=...=\beta_{p}=0

H_{1}:各\beta_{i}不等于0或不全等于0

反應(yīng)變量y的總變異為總平方和,表示為SS_{total}=\sum\nolimits_{a}^b (y_{i}-\bar{y} ), 表示反應(yīng)變量所有的變異。它由下面兩部分組成。

①回歸平方和,SSR表示反應(yīng)變量的變異中由回歸模型中所包含的p個自變量所能解釋的部分。

②誤差平方和SSE,表示反因變量的變異中沒有被回歸模型中所包含的變量解釋部分。

SS_{total}=SSR+SSE

圖5

上圖輸出的是對模型中所有自變量的回歸系數(shù)等于0的F檢驗結(jié)果。F=99.103、P值<0.01,說明至少有一個自變量的回歸系數(shù)不為0,所建立的回歸模型是有統(tǒng)計學(xué)意義的。

偏回歸系數(shù)的假設(shè)檢驗

在得到整個回歸模型有統(tǒng)計學(xué)意義以后,還需要具體檢驗?zāi)硞€自變量x_{i}與反應(yīng)變量之間是否存在線性關(guān)系,就是對其偏回歸系數(shù)b_{i}是否等于0進行統(tǒng)計學(xué)檢驗。通??梢杂胻檢驗來回答這個問題。

t=((b_{i}-0)/s_{b_{i}})

b_{i}是第i個自變量x_{i}的偏回歸系數(shù),S_{bi}是其標(biāo)準(zhǔn)誤。

下圖可以看出x1、x2的偏回歸系數(shù)是否等于0的t檢驗結(jié)果,t值分別等于6.868(=1.455/0.212)和2.305(=0.009/0.004),P值<0.01、P=0.33。按\alpha =0.05 水平,認為\beta _{1}\beta _{2} 全不為0。

圖6

標(biāo)準(zhǔn)化偏回歸系數(shù)

標(biāo)準(zhǔn)化回歸系數(shù)一般出自對模型中自變量(x_{1},x_{2},···,x_{p})對y的貢獻大小進行比較,以消除原始變量單位不同及量綱不同的影響。而實際上,計算標(biāo)準(zhǔn)偏回歸系數(shù)還可以減少在擬合回歸模型計算求解時的截斷誤差,從而提高模型的擬合精度。首先對原始變量按一下公式進行標(biāo)準(zhǔn)化。

圖7

從圖中可以看出16歲一下年輕人人數(shù)的標(biāo)準(zhǔn)化偏回歸系數(shù)為0.748,支配收入的標(biāo)準(zhǔn)化偏回歸系數(shù)為0.251,年輕人人數(shù)對銷售收入的影響大。

注意偏回歸系數(shù)大的自變量其標(biāo)準(zhǔn)化回歸系數(shù)可能大,也有可能小。

衡量多元線性回歸模型優(yōu)劣的標(biāo)準(zhǔn)

當(dāng)供建立回歸模型的自變量有p個時,僅考慮各因素的主效應(yīng),可以建立2^p 個模型。如何來衡量這些模型的好壞?常用有一下標(biāo)準(zhǔn):

圖8

1、復(fù)利相關(guān)系數(shù)R

表示模型中所有自變量與反應(yīng)變量之間線性回歸的密切程度大小,實際上它是y_{i}與其估計值的簡單相關(guān)系數(shù)。例子中R=0.957;但是需要注意的是多元相關(guān)系數(shù)R值多大才算好,沒有一個統(tǒng)一的標(biāo)準(zhǔn)。

2、決定系數(shù)R^2

模型的決定系數(shù)等于復(fù)相關(guān)系數(shù)的平方。它表示反應(yīng)變量y的總變異中可由回歸模型中自變量解釋的部分所占的比例,是衡量所建立模型效果好壞的指標(biāo)之一。

圖9

3、校正的決定系數(shù)R_{adj}^2

由于用R^2評價擬合模型的好壞具有一定的局限性,即使是向模型中增加的變量沒有統(tǒng)計學(xué)意義,R^2值仍會增大。因此需要校正,從而形成校正的決定系數(shù):

圖10

4、剩余標(biāo)準(zhǔn)差S_{y,x_{1},x_{2},x_{3}...,x_{p}}

Std它等于誤差均方MSE的算術(shù)平方根,就是殘差之標(biāo)準(zhǔn)差,其大小反應(yīng)了用建立的模型預(yù)測因變量時的精度。剩余標(biāo)準(zhǔn)差越小,建立的模型效果就越好。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容