第十五章 多元回歸

參考書目為安德森的《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)》,以下為個人的學(xué)習(xí)總結(jié),如果有錯誤歡迎指正。有需要本書pdf的,鏈接在本文末尾。(僅限個人學(xué)習(xí)使用,請勿牟利)

第十五章 多元回歸

15.1 多元回歸模型

用p表示自變量的數(shù)目。

15.1.1 回歸模型和回歸方程

多元回歸模型
y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots +\beta_px_p+\epsilon

多元回歸方程
E(y)=\beta_0+\beta_1x_1+\beta_2x_2+\cdots +\beta_px_p

15.1.2 估計(jì)的多元回歸方程

估計(jì)的多元回歸方程
\hat y=b_0+b_1x_1+b_2x_2+\cdots +b_px_p

15.2 最小二乘法

最小二乘法準(zhǔn)則
min\sum(y_i-\hat y_i)^2
通過讓殘差的平方和達(dá)到最小,求得b_0,b_1,\cdots,b_p,這些值很難計(jì)算(涉及矩陣代數(shù)),所以我們只需要會用計(jì)算機(jī)算就可以了。

15.2.1 一個例子:Butler運(yùn)輸公司

Butler運(yùn)輸公司管理人員想估計(jì)司機(jī)每天的行駛時間。


image

image

通過散點(diǎn)圖的觀察,我們可以先用簡單線性回歸模型來描述每天行駛的時間(y)和每天行駛的里程(x)之間的關(guān)系。利用計(jì)算機(jī)得出:\hat y=1.27+0.0678x_1
其中F為15.81,對應(yīng)的p-值為0.004<0.05,所以我們拒絕原假設(shè)H_0:\beta_1=0。這是一個不錯的結(jié)果,但是管理人員希望考慮第二個自變量去解釋應(yīng)變量中剩余的變異性。

管理人員把運(yùn)送貨物的次數(shù)(x_2)加入到自變量。得到回歸方程\hat y=-0.869+0.0611x_1+0.923x_2

image

15.2.2 關(guān)于回歸系數(shù)解釋的注釋

  • 簡單線性回歸:我們把b_j看作是當(dāng)自變量變化1個單位時,應(yīng)變量y變化程度的一個估計(jì)。
  • 多元回歸分析:當(dāng)所有其它自變量保持不變,b_j可以看作對應(yīng)x_j變化1個單位時,應(yīng)變量y變化程度的一個估計(jì)。

15.3 多元判定系數(shù)

  • SST=\sum(y_i-\bar y)^2總的平方和
  • SSR=\sum(\hat y_i-\bar y)^2回歸平方和
  • SSE=\sum(y_i-\hat y_i)^2

關(guān)系:SST=SSR+SSE
上述的計(jì)算很困難,我們可以使用計(jì)算機(jī)得到。

自變量個數(shù) SST SSR SSE
一個 23.9 15.871 8.029
兩個 23.9 21.601 2.299

可以看到不同自變量下,兩個自變量在SSR中貢獻(xiàn)更多,得到了更好的擬合。

多元判定系數(shù)
R^2=\frac{SSR}{SST}
理解:應(yīng)變量y中的變異性能被估計(jì)的多元回歸方程解釋的比例。

這個判定系數(shù)可以再上圖計(jì)算機(jī)的結(jié)果中,看R-Sq,修正后的為R-Sq(adj)(sq為平方,adj為adjust修正后的)

由于自變量個數(shù)增加,判定系數(shù)也會增加,我們使用下面的方法來修正。
修正多元判定系數(shù)
R_A^2=1-(1-R^2)\frac{n-1}{n-p-1}(p為自變量數(shù)目,n為觀測值數(shù)目)

當(dāng)R^2數(shù)值比較小,而模型的自變量數(shù)目多,則修正后可能變負(fù)數(shù)。這個時候Minitab會調(diào)整為0.

15.4 模型的假定

關(guān)于多元回歸模型y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots +\beta_px_p+\epsilon的誤差項(xiàng)\epsilon的假定:

  1. 誤差項(xiàng)E(\epsilon)=0,E(y)是給定所有自變量后的所有可能出現(xiàn)的值的期望。
  2. 對于自變量x_1,x_2,\cdots,x_p的所有值,\epsilon的方差(\sigma^2)都是相同的。
  3. \epsilon是相互獨(dú)立的,對于自變量x_1,x_2,\cdots,x_p的一組特定值對應(yīng)一個誤差項(xiàng)\epsilon。
  4. 誤差項(xiàng)\epsilon服從正態(tài)分布,這就意味著模型中y=\hat y+\epsilon由于\hat y預(yù)測值在一組自變量下是一定的,\epsilon服從正態(tài)分布,那么y的真實(shí)值也是服從正態(tài)分布的。

舉例:E(y)=\beta_0+\beta_1x_1+\beta_2x_2

image

E(y)是一個平面,叫響應(yīng)曲面。
響應(yīng)變量=應(yīng)變量

15.5 顯著性檢驗(yàn)

在簡單線性回歸中t檢驗(yàn)和F檢驗(yàn)在原假設(shè)被拒絕時給出同樣的結(jié)論,即\beta_1 \neq 0。而在多元回歸中。

  1. F檢驗(yàn)用于確定應(yīng)變量和所有自變量之間是否存在一個顯著性關(guān)系,稱作總體的顯著性檢驗(yàn)。
  2. 如果F檢驗(yàn)顯示模型總體的顯著性,那么用t檢驗(yàn)來確定每單個自變量是否為一個顯著的自變量。稱作單個的顯著性檢驗(yàn)。

15.5.1 F檢驗(yàn)

F檢驗(yàn)的假設(shè):H_0:\beta_1=\beta_2=\cdots=\beta_p=0,H_a:至少有一個參數(shù)不為0

概念回憶:均方=\frac{平方和}{自由度}
自由度:總平方和n-1,回歸平方和SSR為p個自由度,誤差平方和SSE為n-p-1個自由度。
因此:均方回歸MSR=\frac{SSR}{p},均方誤差MSE=\frac{SSE}{n-p-1}
其中MSE給出了誤差項(xiàng)\epsilon方差\sigma^2的無偏估計(jì)量。如果H_0成立,MSR也會給出\sigma^2的無偏估計(jì)量。但如果拒絕H_0則MSR會高估\sigma^2。

總體顯著性的F檢驗(yàn)

  • 假設(shè):H_0:\beta_1=\beta_2=\cdots=\beta_p=0,H_a:至少有一個參數(shù)不為0
  • 檢驗(yàn)統(tǒng)計(jì)量:F=\frac{MSR}{MSE}
  • 拒絕法則:
    • p-值法:如果p-值\leq \alpha,則拒絕H_0
    • 臨界值法:如果F \geq F_{\alpha},則拒絕H_0
      其中,F_{\alpha}代表分子自由度為p,分母自由度為n-p-1時,F(xiàn)分布上側(cè)面積為\alpha的F值。

回到Butler公司的案例,利用Minitab計(jì)算出F=\frac{MSR}{MSE}=\frac{10.8}{0.328}=32.9

image

計(jì)算得到F=32.9,分子分母自由度分別為2和7。的上側(cè)面積小于0.01,則我們拒絕H_0。同樣的臨界值法算出上側(cè)面積為0.01的F=9.55,也可以得到同樣的結(jié)論。

MSE是對\epsilon方差(\sigma^2)的無偏估計(jì)。則s=\sqrt{MSE}=0.573(Butler公司案例)

一般的方差分析表(ANOVA):


image

15.5.2 t檢驗(yàn)

t檢驗(yàn)幫助我們確定每一個參數(shù)的顯著性。
單個參數(shù)顯著性的t檢驗(yàn)

  • 對任一個參數(shù)\beta_i的假設(shè):H_0:\beta_i=0, H_a:\beta_i \neq 0
  • 檢驗(yàn)統(tǒng)計(jì)量:t=\frac{b_i}{s_{b_i}}
  • 拒絕法則:
    • p-值法:如果p-值\leq \alpha,則拒絕H_0
    • 臨界值法:如果t\leq -t_{\alpha/2}或者t\geq t_{\alpha/2},則拒絕H_0

其中,t_{\alpha/2}是自由度為n-p-1時,使t分布的上側(cè)面積為\alpha/2的t值。(要看t值的正負(fù))

回到Butler公司,求得b_1=0.061135,s_{b_1}0.009888,b_2=0.9234,s_{b_2}=0.2211
計(jì)算得到t分別為6.18和4.18。對應(yīng)p-值為0.000和0.004(p值是由單側(cè)面積乘2得到)。則我們拒絕兩個H_0,認(rèn)為兩個參數(shù)都是顯著的。
當(dāng)然也可以用臨界值法。

15.5.3 多重共線性

在多元回歸分析中,往往自變量和自變量也存在聯(lián)系,比如當(dāng)我們計(jì)算行駛里程(x_1)和運(yùn)送次數(shù)(x_2)的相關(guān)系數(shù)r_{x_1x_2}=0.16。我們把自變量之間的相關(guān)性稱為多重共線性

當(dāng)我們把自變量變?yōu)椋盒旭偫锍?x_1)和油耗(x_2)??赡茉趖檢驗(yàn)中出現(xiàn)不能拒絕H_0:\beta_1=0。這可能是因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=x_2" alt="x_2" mathimg="1">已經(jīng)在模型里了,導(dǎo)致x_1不再有顯著呃貢獻(xiàn)。

綜上所述:當(dāng)總體顯著性的F檢驗(yàn)表明有顯著關(guān)系時,可能得到單個參數(shù)沒有一個是顯著的不等于0。只有當(dāng)自變量之間的相關(guān)性非常小才能回避這個問題。

經(jīng)驗(yàn):當(dāng)相關(guān)系數(shù)絕對值>0.7,多重共線性可能稱為一個潛在的問題。

15.6 應(yīng)用估計(jì)的回歸方程進(jìn)行估計(jì)和預(yù)測

在14章說明了,對于給定的自變量,y的期望值的點(diǎn)估計(jì)和y的一個個別值得點(diǎn)估計(jì)都是\hat y=b_0+b_1x,在多元回歸分析中同樣如此。

問題:

  1. 對所有運(yùn)貨汽車,行駛100英里,運(yùn)送2次的情況下,求汽車平均行駛時間的置信區(qū)間。
  2. 對特定運(yùn)貨汽車,行駛100英里,運(yùn)送2次的情況下,求汽車行駛時間的預(yù)測區(qū)間。

利用估計(jì)的回歸方程\hat y=-0.869+0.0611x_1+0.923x_2計(jì)算得到在x_1=100,x_2=2時,\hat y=7.09。后續(xù)的計(jì)算用計(jì)算機(jī)軟件即可,下圖時Minitab的示例:

image

注意:預(yù)測區(qū)間往往比置信區(qū)間的范圍更大。也就是說預(yù)測的精準(zhǔn)度相比更低。

15.7 分類自變量

15.7.1 一個例子:約翰遜過濾股份公司

我們希望預(yù)測客戶提出水過濾系統(tǒng)的維修時間。

  • 應(yīng)變量:維修時間
  • 自變量:上次維修到這次保修的時間差(x_1),故障類型(x_2)

我們利用預(yù)測的回歸模型:y=\beta_0+\beta_1x_1+\epsilon算出x_1和y的簡單線性回歸。發(fā)現(xiàn)R-sq=53.4%表明x_1只能解釋維修時間變異性的53.4%。

image

我們引入自變量x_2=\begin{cases}0,& 如果故障維修類型是機(jī)械的\\1, &如果故障維修類型是電子的 \end{cases}
在回歸分析中,x_2虛擬變量指標(biāo)變量
我們把多元回歸模型寫成:y=\beta_0+\beta_1x_1+\beta_2x_2+\epsilon

利用Minitab計(jì)算得到\hat y=0.93+0.388x_1+1.26x_2

image

在0.05的顯著水平下,p-值為0.001,我們認(rèn)為回歸關(guān)系是顯著的。

15.7.2 解釋參數(shù)

當(dāng)已知機(jī)械故障類型時,可以分別計(jì)算兩個預(yù)測的回歸方程:


image

image

15.7.3 更復(fù)雜的分類變量

當(dāng)分類變量有k個水平,則需要定義k-1個虛擬變量。每個虛擬變量只能為0或1。
舉例:復(fù)印機(jī)制造商的銷售數(shù)量

  • 應(yīng)變量:銷售數(shù)量
  • 自變量:銷售地區(qū)(A、B、C),
image

設(shè)置方式,全為0代表一個分類,其中僅有一個為1代表一個分類。這樣k個分類,剛好需要k-1個虛擬變量。
對應(yīng)的回歸方程如下:


image

總結(jié):分類變量對于線性回歸相當(dāng)于時同一斜率下,上下平移一定舉例。

15.8 殘差分析

第i次觀測的標(biāo)準(zhǔn)化殘差\frac{y_i-\hat y_i}{s_{y_i-\hat y_i}}(分母為殘差的標(biāo)準(zhǔn)差)
第i次觀測的殘差的標(biāo)準(zhǔn)差s_{y_i-\hat y_i}=s\sqrt{1-h_i}h_i代表第i次觀測的杠桿率)

利用計(jì)算機(jī)我們可以輕松計(jì)算:


image

image

圖中反映的標(biāo)準(zhǔn)化殘差都在\pm 2之間,因此沒有理由懷疑誤差項(xiàng)\epsilon是正態(tài)分布的假定。
當(dāng)然也可以用正態(tài)概率圖。

15.8.1 檢測異常值

一般來說,如果數(shù)據(jù)集存在一個或以上的異常值,將導(dǎo)致估計(jì)的標(biāo)準(zhǔn)誤差s增加。從而使得第i次觀測的殘差的標(biāo)準(zhǔn)差s_{y_i-\hat y_i}增加。這就導(dǎo)致在標(biāo)準(zhǔn)化殘差中分母變大,讓原本大于2的值小于2了。那么這個標(biāo)準(zhǔn)化殘差規(guī)則就失效了。
我們可以用學(xué)生化刪除殘差的標(biāo)準(zhǔn)化殘差,來解決這個問題。

15.8.2 學(xué)生化刪除殘差和異常值

設(shè)s_{(i)}表示從數(shù)據(jù)集中刪除了第i次觀測值后得到的估計(jì)的標(biāo)準(zhǔn)誤差。如果我們用s_{(i)}代替s_{y_i-\hat y_i}=s\sqrt{1-h_i}中的s,這樣的到的標(biāo)準(zhǔn)化殘差稱為學(xué)生化刪除殘差如果第i次觀測是異常值,那么s_{(i)}將小于s。所以第i次觀測的學(xué)生化刪除殘差的絕對值大于標(biāo)準(zhǔn)化殘差的絕對值。也就是說,學(xué)生化刪除殘差可以檢測出標(biāo)準(zhǔn)化殘差不能檢測出的異常值。

image

我們利用t分布來確定學(xué)生化刪除殘差是否表明存在異常值。p表示自變量個數(shù),n表示觀測值個數(shù)。此時,誤差平方和自由度為(n-1)-p-1=6在自由度為6雙側(cè)分位數(shù)t_{0.025}=2.447
當(dāng)有學(xué)生化刪除殘差的絕對值大于2.447即為異常值,本表中顯示無異常值。

15.8.3 有影響的觀測值

前面講到如何利用杠桿率來識別有影響的觀測值。也可以用經(jīng)驗(yàn)法則:h_i>3(p+1)/n來識別有影響的觀測值。

image

15.8.4 利用庫克舉例測度識別有影響的觀測值

如圖所示,最后一個觀測值的杠桿率0.91>0.75(杠桿率的臨界值),所以這個觀測值被識別出來是一個有影響的觀測值。


image

但是我們看到散點(diǎn)圖,在圖中兩個回歸方程沒有明顯區(qū)別。盡管杠桿率認(rèn)為最后一個是異常值。


image

庫克距離測度,利用第i次觀測的杠桿率h_1和第i次觀測的殘差(y_i-\hat y_i)來確定這個觀測值是否是一個有影響的觀測值。
D_i=\frac{(y_i-\hat y_i)^2}{(p+1)s^2}\left[\frac{h_i}{(1-h_i)^2}\right]
其中,p代表自變量個數(shù),s代表估計(jì)的標(biāo)準(zhǔn)誤差。

經(jīng)驗(yàn)準(zhǔn)則:D_i>1時,表明第i次觀測值是一個有影響的觀測值。

15.9 logistic 回歸

例子:銀行希望建立一個估計(jì)回歸方程,符合條件的信用卡申請用戶應(yīng)變量y=1,拒絕批準(zhǔn)的y=0。利用logistic回歸就能估計(jì)批準(zhǔn)使用的信用卡的概率。

例子:Simmons經(jīng)營的婦女服飾連鎖店,想通過郵寄廣告冊(內(nèi)含滿200-50的優(yōu)惠券)的方式來增加銷量。但是廣告冊成本高,所以想通過下面兩個變量來判斷顧客是否會消費(fèi)200及以上的金額。

  • 在Simmons的年消費(fèi)支出
  • 是否有Simmons信用卡

現(xiàn)在抽取樣本容量n=100,其中有信用卡和無信用卡的各占50.優(yōu)惠券如果被使用,賦值為1,否則為0。


image

15.9.1 logistic回歸方程

logistic回歸方程
E(y)=\frac{e^{\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p}}{1+e^{\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p}}

logistic回歸中E(y)被解釋為概率
E(y)=P(y=1|x_1,x_2,\cdots,x_p)

image

15.9.2 估計(jì)logistic回歸方程

估計(jì)的logistic回歸方程
\hat y=P(y=1|x_1,x_2,\cdots,x_p)的估計(jì)=\frac{e^{b_0+b_1x_1+b_2x_2+\cdots+b_px_p}}{1+e^{b_0+b_1x_1+b_2x_2+\cdots+b_px_p}}

回到Simmons商店的例子:

image

利用Minitab的二進(jìn)制logistic回歸程序計(jì)算模型參數(shù)\beta_0,\beta_1,\beta_2的估計(jì)值。對應(yīng)b_0=-2.15,b_1=0.34,b_2=1.10
image

然后就可以使用公式判斷特定的一組自變量(x_1,x_2)使用優(yōu)惠券的概率了。

15.9.3 顯著性檢驗(yàn)

  • 總體顯著性檢驗(yàn)
    • 假設(shè):H_0:\beta_1=\beta_2=0,H_a:至少有一個參數(shù)不等于零
    • 檢驗(yàn)統(tǒng)計(jì)量:G檢驗(yàn)統(tǒng)計(jì)量服從自由度為模型中自變量個數(shù)的\chi^2分布。(圖15-13底部)
  • 單個自變量顯著性檢驗(yàn):
    • 假設(shè):H_0:\beta_1=0,\beta_1 \neq 0
    • 檢驗(yàn)統(tǒng)計(jì)量:z_i=b_i/s_{b_i}(服從標(biāo)準(zhǔn)正態(tài)分布)(圖15-13中間的spending和card,兩個p-值都小于0.05)

15.9.4 管理上的應(yīng)用

算出不同自變量組合的概率,如下圖


image

篩選出合適的概率進(jìn)行郵遞廣告冊即可。

15.9.5 解釋logistic回歸方程

由于自變量與y=1是非線性方程,但可以利用機(jī)會比率的概念間接解釋這個關(guān)系。
有利于一個時間發(fā)生的機(jī)會比(=\frac{P(y=1)}{P(y=0)}):被定義為事件將要發(fā)生的概率與該事件將不會發(fā)生的概率的比。
機(jī)會比率:度量了當(dāng)一組自變量中只有一個自變量增加了一個單位時,對機(jī)會比的影響。
機(jī)會比率=\frac{odds_1}{odds_0}
其中odds_1是該組自變量的一個增加了一個單位時,y=1的機(jī)會比(odds_1)除以沒有變化時y=1的機(jī)會比(odds_0)。

回到Simmons的例子,信用卡顧客年消費(fèi)2000美元(x_1=2,x_2=1),無信用卡顧客年消費(fèi)2000美元(x_1=2,x_2=0)。
對應(yīng)的odds_1點(diǎn)估計(jì)值=\frac{P(y=1|x_1=2,x_2=1)}{1-P(y=1|x_1=2,x_2=1)}=0.6946,odds_0的點(diǎn)估計(jì)值=\frac{P(y=1|x_1=2,x_2=0)}{1-P(y=1|x_1=2,x_2=0)}=0.2315;則估計(jì)的機(jī)會比率=\frac{0.6946}{0.2315}=3.00
結(jié)論:前一個顧客使用優(yōu)惠券的機(jī)會比是后一個顧客使用消費(fèi)券的機(jī)會的3倍。(不代表y的值是3倍。)

我們回到下圖,看到Odds Ratio對于spending和card分別是1.41和3.00


image

spending的1.41表示3000美元的顧客使用優(yōu)惠券的機(jī)會比是消費(fèi)2000美元的顧客使用消費(fèi)券的機(jī)會比的1.41倍。同理4000是3000的1.41倍。
card的3.00表示有信用卡的顧客使用優(yōu)惠券的機(jī)會比是無信用卡的顧客使用優(yōu)惠券的機(jī)會比的3倍。
上述都是針對自變量增加1個單位的機(jī)會比變化。每個自變量都能寫成:機(jī)會比率=e^{\beta_1}
那么:
- 估計(jì)的機(jī)會比率=e^{b_1}=e^{0.341643}=1.41
- 估計(jì)的機(jī)會比率=e^{b_1}=e^{1.09873}=3

那么現(xiàn)在我們就可以求得消費(fèi)5000美元顧客使用優(yōu)惠券的概率是2000美元顧客使用優(yōu)惠券概率的倍數(shù)。
- c=5-2=3
- e^{c\beta_1}=e^{3 \times 0.341643}=e^{1.0249}=2.79
則消費(fèi)5000美元顧客使用優(yōu)惠券的概率是2000美元顧客使用優(yōu)惠券概率的2.79倍。

一般來說軟件還會給出機(jī)會比率的95%的置信區(qū)間。且機(jī)會比率大于1,說明自變量增加對結(jié)果是正影響。

15.9.6 對數(shù)機(jī)會比(logit)變換

對數(shù)機(jī)會比g(x_1,x_2,\cdots,x_p)=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p
估計(jì)的對數(shù)機(jī)會比\hat g(x_1,x_2,\cdots,x_p)=b_0+b_1x_1+b_2x_2+\cdots+b_px_p

估計(jì)的logistic回歸方程:\hat y=\frac{e^{\hat g(x_1,x_2,\cdots,x_p)}}{1+e^{\hat g(x_1,x_2,\cdots,x_p)}}


鏈接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取碼: 333c 復(fù)制這段內(nèi)容后打開百度網(wǎng)盤手機(jī)App,操作更方便哦

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容