第十四章 簡(jiǎn)單線性回歸

參考書(shū)目為安德森的《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)》,以下為個(gè)人的學(xué)習(xí)總結(jié),如果有錯(cuò)誤歡迎指正。有需要本書(shū)pdf的,鏈接在本文末尾。(僅限個(gè)人學(xué)習(xí)使用,請(qǐng)勿牟利)

第十四章 簡(jiǎn)單線性回歸

用統(tǒng)計(jì)方法來(lái)建立一個(gè)表示變量之間的相互關(guān)系的方程,這種統(tǒng)計(jì)方法稱為回歸分析。
應(yīng)變量(dependent variable):被預(yù)測(cè)的變量(y)
自變量(independent variable):用來(lái)預(yù)測(cè)應(yīng)變量的一個(gè)或多個(gè)變量(x)

本章討論簡(jiǎn)單線性回歸:一個(gè)自變量,一個(gè)應(yīng)變量。

14.1 簡(jiǎn)單線性回歸模型

例子:Armand比薩餅連鎖店想探究學(xué)校附近的門店的學(xué)生人數(shù)(x)與連鎖店銷售收入(y)之間的關(guān)系。

14.1.1 回歸模型和回歸方程

描述y如何依賴于x和誤差項(xiàng)的方程被稱為回歸模型

簡(jiǎn)單線性回歸模型:y=\beta_0+\beta_1x+\epsilon
其中\beta_0\beta_1稱為模型參數(shù),\epsilon是一個(gè)隨機(jī)變量,稱為模型的誤差項(xiàng)。

回到Armand比薩餅連鎖店的總體可以看作若干子總體組成的集合。如8000名學(xué)生的門店構(gòu)成一個(gè)子總體。那么每一個(gè)子總體都有一個(gè)y值的分布。每一個(gè)自總體都有一個(gè)期望值。描述期望值E(y)如何依賴于x的方程稱為回歸方程。

簡(jiǎn)單線性回歸方程:E(y)=\beta_0+\beta_1x
也可以寫(xiě)成:E(y|x)=\beta_0+\beta_1x

image

14.1.2 估計(jì)的回歸方程

通常,我們只能把樣本統(tǒng)計(jì)量b_0b_1作為總體參數(shù)\beta_0\beta_1的估計(jì)量。

估計(jì)的簡(jiǎn)單線性回歸方程:\hat y=b_0+b_1x

14.2 最小二乘法

最小二乘法(least squares method):是利用樣本數(shù)據(jù)建立估計(jì)的回歸方程的一種方法。

image

image

為了讓估計(jì)的回歸直線能對(duì)樣本數(shù)據(jù)有一個(gè)好的擬合,我們希望觀測(cè)值y_i和預(yù)測(cè)值\hat y_i之前的差要小。

最小二乘法就是讓y_i和預(yù)測(cè)值\hat y_i之間的離差平方和達(dá)到最小的方法,求得b_0b_1
最小二乘法準(zhǔn)則:min\sum(y_i-\hat y_i)^2
估計(jì)的回歸方程的斜率和y軸截距
b_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}
b_0=\bar y-b_1\bar x

image

經(jīng)過(guò)計(jì)算得到:
b_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}=\frac{2840}{568}=5
b_0=\bar y-b_1\bar x=130-5\times14=60
于是估計(jì)的回歸方式:\hat y=60+5x
image

14.3 判定系數(shù)

估計(jì)的回歸方程是否很好地你和了樣本數(shù)據(jù)。判定系數(shù)(coefficient of determination)為估計(jì)的回歸方程提供了一個(gè)擬合優(yōu)度的度量。
y_i-\hat y_i稱為第i個(gè)殘差,殘差或誤差的平方和是用最小二乘法最小化的量
誤差平方和,SSE=\sum(y_i-\hat y_i)^2
經(jīng)過(guò)下圖的計(jì)算得到SSE=1530

image

總的平方和SST=\sum (y_i-\bar y)^2
經(jīng)過(guò)下圖的計(jì)算,得到SST=15730

image

回歸平方和SSR=\sum (\hat y_i-\bar y)^2

image

SST、SSR和SSE之間的關(guān)系SST=SSR+SSE

  • SST:總的平方和
  • SSR:回歸平方和
  • SSE:誤差平方和

我們可以把SSR理解為SST被解釋的部分,SSE理解為SST未被解釋的部分。三者知二求一。

判定系數(shù)r^2=\frac{SSR}{SST}
r^2在0~1之間,為1時(shí)稱作完全擬合,如Armand比薩餅連鎖店的例子:r^2=\frac{SSR}{SST}=\frac{14200}{15730}=0.9027
理解:可以把r^2理解為總平方和中能被估計(jì)的回歸方程解釋的百分比。即季度銷售收入變異性的90.27%能被學(xué)生人數(shù)和銷售收入之間的線性關(guān)系所解釋。

相關(guān)系數(shù)(correlation coefficient)的值介于-1~1之間。為-1、1和0分別代表完全負(fù)向的線性關(guān)系、完全正向的線性關(guān)系、沒(méi)有線性關(guān)系。
樣本相關(guān)系數(shù):r_{xy}=(b_1的符號(hào))\sqrt{判定系數(shù)}=(b_1的符號(hào))\sqrt{r^2}
這里的符號(hào)指的是正負(fù)。如ARmand比薩餅連鎖店r_{xy}=\sqrt{0.9027}=0.9501,可以得出結(jié)論人數(shù)和銷售額有強(qiáng)的正向線性關(guān)系。

總結(jié):

  • 相關(guān)系數(shù)的適用范圍被限制在兩變量之間存在線性關(guān)系的情況
  • 判定系數(shù)對(duì)非線性關(guān)系以及多個(gè)變量的相關(guān)關(guān)系都適用。(適用范圍廣)
  • 實(shí)際應(yīng)用中,在社會(huì)科學(xué)問(wèn)題中r^2低于0.25,但是也令人滿意;自然科學(xué)問(wèn)題中r^2常常大于0.6,有時(shí)大于0.9。具體應(yīng)用要看場(chǎng)景。

14.4 模型的假定

回歸分析中的顯著性檢驗(yàn)是以對(duì)誤差項(xiàng)\epsilon的下列假定為依據(jù)進(jìn)行的。

  1. 誤差項(xiàng)\epsilon是一個(gè)平均值或期望為0的隨機(jī)變量,E(\epsilon)=0
    E(\beta_0)=\beta_0 E(\beta_1)=\beta_1 E(y)=\beta_0+\beta_1x
  2. 對(duì)所有x值,\epsilon的方差都是相同的,用\sigma^2表示\epsilon的方差。
    即對(duì)所有x值,y的方差都是相等的。
  3. \epsilon的值是相互獨(dú)立的。每個(gè)特定的x與對(duì)應(yīng)的\epsilon與別的x值對(duì)應(yīng)的\epsilon不相關(guān)。
  4. 對(duì)所有x值,誤差項(xiàng)\epsilon是一個(gè)正態(tài)分布的隨機(jī)變量。這也意味著:因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=y" alt="y" mathimg="1">是\epsilon的一個(gè)線性函數(shù),對(duì)所有的x值,y也是一個(gè)正態(tài)分布的隨機(jī)變量。
image

14.5 顯著性檢驗(yàn)

y的期望值是關(guān)于x的一個(gè)線性函數(shù):E(y)=\beta_0+\beta_1x。

  • \beta_1為0,則不存在線性關(guān)系
  • \beta_1不為0,則存在線性關(guān)系

我們需要做一個(gè)假設(shè)檢驗(yàn),來(lái)判定\beta_1是否為0

14.5.1 \sigma^2的估計(jì)

殘差平方和SSE是實(shí)際觀測(cè)值關(guān)于估計(jì)的回歸直線變異性的度量。均方誤差MSE=\frac{SSE}{自由度}
因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Chat%20y_i%3Db_0%2Bb_1x_i" alt="\hat y_i=b_0+b_1x_i" mathimg="1">,所以SSE=\sum(y_i-\hat y_i)^2=\sum(y_i-b_0-b_1x_i)^2
由于計(jì)算SSe需要估計(jì)兩個(gè)參數(shù)(\beta_0\beta_1),所以SSE的自由度為n-2

均方誤差(\sigma^2的估計(jì)量)
s^2=MSE=\frac{SSE}{n-2}

估計(jì)的標(biāo)準(zhǔn)誤差
S=\sqrt{MSE}=\sqrt{\frac{SSE}{n-2}}

14.5.2 t檢驗(yàn)

要存在線性關(guān)系,必須\beta_1 \neq 0。假設(shè):H_0:\beta_1=0,H_a:\beta_1 \neq 0

再Armand比薩餅連鎖店的例子中,我們不斷地抽取10家店作為樣本??梢缘玫礁喙烙?jì)地回歸方程。
b_1地抽樣分布

  • 期望值:E(b_1)=\beta_1
  • 標(biāo)準(zhǔn)差:\sigma_{b_1}=\frac{\sigma}{\sqrt{\sum(x_i-\bar x)^2}}
  • 分布形式:正態(tài)分布

由于\sigma未知,我們可以用估計(jì)值s代入,得到b_1的估計(jì)的標(biāo)準(zhǔn)差s_{b_1}=\frac{s}{\sum(x_i-\bar x)^2}

簡(jiǎn)單線性回歸顯著性的t檢驗(yàn)
假設(shè):H_0:\beta_1=0,H_a:\beta_1 \neq 0
檢驗(yàn)統(tǒng)計(jì)量:t=\frac{b_1}{s_{b_1}}
拒絕法則:

  • p-值法:若p-值\leq \alpha,則拒絕H_0
  • 臨界值法:若t\leq -t_{\alpha/2}或者t /geq t_{\alpha/2},則拒絕H_0

其中,自由度為n-2,t_{\alpha/2}這里是上側(cè)面積為\alpha/2的t值。

在Armand比薩餅店的例子中:s_{b_1}=\frac{13.829}{\sqrt{568}}=0.5803,t=\frac{b_1}{s_{b_1}}=\frac{5}{0.5803}=8.62,此時(shí)p-值遠(yuǎn)遠(yuǎn)小于0.01,所以拒絕H_0認(rèn)為銷售收入和學(xué)生人數(shù)存在顯著關(guān)系。

14.5.3 \beta_1的置信區(qū)間

b_1 \pm t_{\alpha/2}s_{b_1}
這個(gè)置信區(qū)間的置信系數(shù)1-\alpha,t_{\alpha/2}為自由度為n-2時(shí),t分布上側(cè)面積為\alpha/2的t值。

例如:Armand比薩餅連鎖的例子,令置信系數(shù)\alpha=0.01,t_{0.005}=3.355
b_1 \pm t_{\alpha/2}s_{b_1}=5 \pm3.355\times 0.5803=5\pm 1.95

此時(shí),我們也可以通過(guò)置信區(qū)間來(lái)對(duì)\beta_1的顯著性進(jìn)行t檢驗(yàn),由于\beta_1的假設(shè)值時(shí)0,而0不在置信區(qū)間(3.05,6.95)里,所以我們也可以拒絕H_0

14.5.4 F檢驗(yàn)

在檢驗(yàn)回歸方程顯著性時(shí):

  • 如果只有一個(gè)自變量,F(xiàn)檢驗(yàn)和t檢驗(yàn)都能有一致的結(jié)論。
  • 如果有兩個(gè)及以上的自變量時(shí),F(xiàn)檢驗(yàn)只能被用來(lái)檢驗(yàn)回歸方程總體的顯著關(guān)系。

F檢驗(yàn)的基本原理:基于簡(jiǎn)歷\sigma^2的兩個(gè)獨(dú)立的估計(jì)量。已知MSE時(shí)\sigma^2的一個(gè)估計(jì)量,如果H_0成立,則回歸平方和SSR除以自由度就給出了\sigma^2的另一個(gè)獨(dú)立的估計(jì)量,被稱為來(lái)自于回歸的均方,簡(jiǎn)稱均方回歸(MSR)
MSR=\frac{SSR}{回歸自由度}
其中回歸自由度等于模型中自變量的個(gè)數(shù)

本章中回歸模型只有一個(gè)自變量,所以MSR=\frac{SSR}{1}=SSR

簡(jiǎn)單線性回歸顯著性的F檢驗(yàn)

  • 假設(shè):H_0:\beta_1=0,H_a:\beta_1 \neq 0
  • 檢驗(yàn)統(tǒng)計(jì)量:F=\frac{MSR}{MSE}
  • 拒絕法則:
    • p-值法:p \leq \alpha,拒絕H_0
    • 臨界值法:F\geq F_{\alpha},拒絕H_0

其中,F_{\alpha}是分子自由度為1,分母自由度為n-2時(shí),F(xiàn)分布上側(cè)面積為\alpha的F值。如果H_0不成立,MSE仍然是\sigma^2的一個(gè)無(wú)偏估計(jì)量,而MSR會(huì)高估\sigma^2。如果H_0成立,則MSR和MSE都是無(wú)偏估計(jì)量,比值趨向于1。

可以用ANOVA表來(lái)簡(jiǎn)練地概括方差分析地運(yùn)算過(guò)程。


image

14.5.5 關(guān)于顯著性檢驗(yàn)解釋的幾點(diǎn)注意

  1. 拒絕H_0,只能說(shuō)明x和y存在顯著性關(guān)系,但不能說(shuō)明有因果關(guān)系。

  2. 要做出因果關(guān)系,需要?jiǎng)e的理論上的充分證據(jù)。

  3. 證實(shí)x和y有統(tǒng)計(jì)顯著性關(guān)系,但并不能確定時(shí)線性關(guān)系;只能說(shuō)觀測(cè)值范圍內(nèi)相關(guān)。


    image
  4. 利用估計(jì)的回歸方程可以對(duì)觀測(cè)值范圍內(nèi)的x值進(jìn)行預(yù)測(cè)。但是超出范圍的要謹(jǐn)慎考慮。

14.6 應(yīng)用估計(jì)的回歸方程進(jìn)行估計(jì)和預(yù)測(cè)

  • x^*表示自變量x的一個(gè)給定值
  • y^*表示x=x^*時(shí),應(yīng)變量y的可能值,是一個(gè)隨機(jī)變量。
  • E(y^*)表示當(dāng)x=x^*時(shí),應(yīng)變量y的期望值
  • \hat y^*=b_)+B_1x^*表示E(y^*)的點(diǎn)估計(jì)值,或者叫預(yù)測(cè)值。

14.6.1 區(qū)間估計(jì)

置信區(qū)間是對(duì)x的一個(gè)給定值,y的平均值的一個(gè)區(qū)間估計(jì)。
預(yù)測(cè)區(qū)間是對(duì)x的一個(gè)給定值,對(duì)應(yīng)y的一個(gè)新的觀測(cè)值。也即y的一個(gè)個(gè)別值進(jìn)行預(yù)測(cè)的一個(gè)區(qū)間估計(jì)。
預(yù)測(cè)區(qū)間的邊際誤差較大。

14.6.2 y的平均值和置信區(qū)間

要計(jì)算\hat y^*是如何接近真實(shí)的平均值E(y^*),我們需要估計(jì)\hat y^*的方差。
方差點(diǎn)估計(jì)值:s_{\hat y^*}^2=s^2\left[\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}\right]
標(biāo)準(zhǔn)差點(diǎn)估計(jì)值:s_{\hat y^*}=s^2\sqrt{\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}}

E(y^*)的置信區(qū)間
\hat y^* \pm t_{\alpha/2}s_{\hat y^*}
其中,1-\alpha為置信系數(shù),t_{\alpha/2}為自由度n-2時(shí),使t分布的上側(cè)面積\alpha/2的t值。

回到Armand比薩餅連鎖店,已知\alpha/2=0.025,自由度為n-2=8,在有10000名學(xué)生時(shí),\hat y^*=110,邊際誤差t_{\alpha/2}s_{\hat y^*}=2.306\times 4.95=11.415
因此置信水平為95%的置信區(qū)間估計(jì)為:110 \pm 11.415

特殊情況:當(dāng)x^*=\bar x\hat y^*的估計(jì)的標(biāo)準(zhǔn)差最小。在這種情形下:s_{\hat y^*}=s^2\sqrt{\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}}=s\sqrt{\frac{1}{n}}
這也就意味著,當(dāng)x^*=\bar x時(shí),能得到y(tǒng)的平均值最精確的估計(jì)量。如下圖。

image

14.6.3 y的一個(gè)個(gè)別值得預(yù)測(cè)區(qū)間

當(dāng)我們想要預(yù)測(cè)x^*=10時(shí),季度銷售收入的預(yù)測(cè)值為\hat y^*=60+5\times 10=110
這個(gè)預(yù)測(cè)值和x=10的所有店鋪的季度銷售收入的平均值得點(diǎn)估計(jì)值是相同得。(這句話不太明白)

為了建立預(yù)測(cè)區(qū)間,當(dāng)x=x^*,y得一個(gè)預(yù)測(cè)值\hat y^*得方差由以下兩部分組成。

  1. y^*關(guān)于平均值E(y^*)的方差,它的估計(jì)量由s^2給出。
  2. 利用\hat y^*估計(jì)E(y^*)的方差,它的估計(jì)量由s_{\hat y^*}^2給出。

當(dāng)x=x^*時(shí),應(yīng)變量y的預(yù)測(cè)值是\hat y^*,我們用s_{pred}^2表示y^*的預(yù)測(cè)值\hat y^*的估計(jì)的方差,計(jì)算方式如下:
s_{pred}^2=s^2+s_{\hat y^*}^2=s^2+s^2\left[\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}\right]=s^2\left[1+\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}\right]
s_{pred}=s\sqrt{1+\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}}

y^*的預(yù)測(cè)區(qū)間
\hat y^* \pm t_{\alpha/2}s_{pred}
其中,1-\alpha為置信系數(shù);t_{\alpha/2}為自由度為n-2時(shí),t分布上側(cè)面積為\alpha/2的t值。

回到Armand比薩餅店,當(dāng)x=10時(shí),t_{\alpha/2}=t_{0.025}=2.306,s_{pred}=14.69,邊際誤差t_{\alpha/2}s_{pred}=2.306 \times 14.69=33.875

預(yù)測(cè)區(qū)間比置信區(qū)間更寬,當(dāng)x^*越接近\bar x時(shí),置信區(qū)間和預(yù)測(cè)區(qū)間就約精確。形狀如下圖所示:

image

14.7 計(jì)算機(jī)解法

書(shū)上介紹的Minitab

14.8 殘差分析:證實(shí)模型假定

第i次觀測(cè)的殘差y_i-\hat y_i

image

回到本章第四節(jié),我們對(duì)y=\beta_0+\beta_1x+\epsilon中誤差項(xiàng)\epsilon的假定如下:

  1. E(\epsilon)=0
  2. 對(duì)所有的x值,\epsilon的方差(\sigma^2)都是相同的,
  3. \epsilon的值相互獨(dú)立
  4. \epsilon服從正態(tài)分布

基于這個(gè)假定,才能使用t檢驗(yàn)和F檢驗(yàn)來(lái)確定x和y之間的關(guān)系是否顯著,置信區(qū)間和置信區(qū)間的估計(jì)。殘差提供了有關(guān)\epsilon的最重要的信息。
殘差分析就是確定誤差項(xiàng)\epsilon的假定是否成立的重要步驟。許多殘差分析都是對(duì)殘差圖形的仔細(xì)考察基礎(chǔ)上完成的,下面介紹這四種殘差圖。

14.8.1 關(guān)于x的殘差圖

自變量x殘差圖

  • 橫軸:x
  • 縱軸:殘差y_i-\hat y_i

如Armand比薩餅連鎖店的關(guān)于自變量x的殘差圖如下:


image

image

我們看Armand比薩餅連鎖店的殘差圖,感覺(jué)和a比較像,因此我們通過(guò)目測(cè)得到結(jié)論:殘差圖沒(méi)有提供足夠的證據(jù),讓我們對(duì)回歸模型所作的假定表示懷疑。

14.8.2 關(guān)于\hat y的殘差圖

  • 橫軸:應(yīng)變量預(yù)測(cè)值\hat y
  • 縱軸:殘差值y-\hat y
image

這個(gè)圖和關(guān)于x的殘差圖模式相同,不過(guò)這個(gè)殘差圖主要針對(duì)的時(shí)由多個(gè)自變量的多元回歸分析。

14.8.3 標(biāo)準(zhǔn)化殘差

i個(gè)殘差的標(biāo)準(zhǔn)差
s_{y_i-\hat y_i}=s\sqrt{1-h_i}
其中,s_{y_i-\hat y_i}代表第i個(gè)殘差的標(biāo)準(zhǔn)差;s代表估計(jì)的標(biāo)準(zhǔn)誤差。h_i=\frac{1}{n}+\frac{(x_i-\bar x)^2}{\sum (x_i-\bar x)^2}

i個(gè)觀測(cè)的標(biāo)準(zhǔn)化殘差
\frac{y_i-\hat y_i}{s_{y_i-\hat y_i}}

回到Armand比薩餅連鎖店的例子,下表為標(biāo)準(zhǔn)化殘差的計(jì)算過(guò)程和關(guān)于自變量x的標(biāo)準(zhǔn)化殘差圖:


image

image

標(biāo)準(zhǔn)化殘差圖能對(duì)隨機(jī)誤差項(xiàng)\epsilon服從正態(tài)分布的假定提供一種直觀的人事。如果假定滿足,那么標(biāo)準(zhǔn)化殘差的分布看起來(lái)也應(yīng)該服從一個(gè)標(biāo)準(zhǔn)正態(tài)分布。即95%的標(biāo)準(zhǔn)化殘差介于-2~2之間,所以我們沒(méi)理由懷疑\epsilon服從正態(tài)分布的假定。

14.8.4 正態(tài)概率圖 (這一節(jié)看不懂,需要重看)

正態(tài)概率圖是確定誤差項(xiàng)\epsilon服從正態(tài)分布的假定成立的另一個(gè)方法。
先介紹正態(tài)分?jǐn)?shù)的概念,假設(shè)在一個(gè)標(biāo)準(zhǔn)正態(tài)分布中,我們隨機(jī)抽取10個(gè)數(shù),并且反復(fù)進(jìn)行。然后把每個(gè)樣本中的10個(gè)數(shù)從小到大排序,那么每個(gè)樣本中最小值是一個(gè)隨機(jī)變量,稱作一階順序統(tǒng)計(jì)量。

統(tǒng)計(jì)學(xué)家已經(jīng)證明,來(lái)自樣本容量為10的樣本,一階順序統(tǒng)計(jì)量的期望值為-1.55,這個(gè)期望值被稱作正態(tài)分?jǐn)?shù)。如下圖10個(gè)順序統(tǒng)計(jì)量對(duì)應(yīng)10個(gè)正態(tài)分?jǐn)?shù)。(一般n個(gè)觀測(cè)值組成的數(shù)據(jù)集,就有n個(gè)順序統(tǒng)計(jì)量和n個(gè)正態(tài)分?jǐn)?shù))(這個(gè)地方看不懂)

image

14.9 殘差分析:異常值和有影響的觀測(cè)值

本節(jié)介紹如何利用殘差分析識(shí)別異常值或特別有影響的觀測(cè)值。

14.9.1 檢測(cè)異常值

如下圖,有一個(gè)異常值。通常意味著數(shù)據(jù)錯(cuò)誤(修正)或違背了模型假定的情形(保留)。


image

一般根據(jù)散點(diǎn)圖就能探明異常值。

14.9.2 檢測(cè)有影響的觀測(cè)值

有時(shí),個(gè)別觀測(cè)值對(duì)我們得到的回歸結(jié)果產(chǎn)生一個(gè)強(qiáng)影響,稱作有影響的觀測(cè)值,

image

有影響的觀測(cè)值可能是一個(gè)異常值(y值與去十有相當(dāng)大的偏離),也可能是一個(gè)遠(yuǎn)離自變量x平均值的觀測(cè)值,也可能兩者共同決定。
遇到的解決方法:

  1. 檢查觀測(cè)值的采集過(guò)程是否出問(wèn)題
  2. 如果為有效觀測(cè)值,那我們需要進(jìn)一步認(rèn)識(shí)x和y的關(guān)系。

自變量是極端值的觀測(cè)值被稱為高杠桿率點(diǎn),第i次觀測(cè)的杠桿率(h_i表示):
h_i=\frac{1}{n}+\frac{(x_i-\bar x)^2}{\sum(x_i-\bar x)^2}

image

我們可以計(jì)算上表第7個(gè)觀測(cè)值的杠桿率:h_7=0.94,對(duì)于簡(jiǎn)單線性回歸情形,在Minitab中如果h_i >[6/n,0.99]則將會(huì)被識(shí)別稱具有高杠桿率的觀測(cè)值,此時(shí)h_7滿足。會(huì)在右圖的Unusual Observations標(biāo)出。
image

有影響的觀測(cè)值是由于大的殘差和高杠桿率的交互作用產(chǎn)生的。識(shí)別時(shí)只要考慮下面兩方面就能判斷。

  • 大的殘差
  • 高杠桿率

鏈接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取碼: 333c 復(fù)制這段內(nèi)容后打開(kāi)百度網(wǎng)盤手機(jī)App,操作更方便哦

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容