參考書(shū)目為安德森的《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)》,以下為個(gè)人的學(xué)習(xí)總結(jié),如果有錯(cuò)誤歡迎指正。有需要本書(shū)pdf的,鏈接在本文末尾。(僅限個(gè)人學(xué)習(xí)使用,請(qǐng)勿牟利)
第十四章 簡(jiǎn)單線性回歸
用統(tǒng)計(jì)方法來(lái)建立一個(gè)表示變量之間的相互關(guān)系的方程,這種統(tǒng)計(jì)方法稱為回歸分析。
應(yīng)變量(dependent variable):被預(yù)測(cè)的變量(y)
自變量(independent variable):用來(lái)預(yù)測(cè)應(yīng)變量的一個(gè)或多個(gè)變量(x)
本章討論簡(jiǎn)單線性回歸:一個(gè)自變量,一個(gè)應(yīng)變量。
14.1 簡(jiǎn)單線性回歸模型
例子:Armand比薩餅連鎖店想探究學(xué)校附近的門店的學(xué)生人數(shù)(x)與連鎖店銷售收入(y)之間的關(guān)系。
14.1.1 回歸模型和回歸方程
描述y如何依賴于x和誤差項(xiàng)的方程被稱為回歸模型
簡(jiǎn)單線性回歸模型:
其中和
稱為模型參數(shù),
是一個(gè)隨機(jī)變量,稱為模型的誤差項(xiàng)。
回到Armand比薩餅連鎖店的總體可以看作若干子總體組成的集合。如8000名學(xué)生的門店構(gòu)成一個(gè)子總體。那么每一個(gè)子總體都有一個(gè)值的分布。每一個(gè)自總體都有一個(gè)期望值。描述期望值
如何依賴于
的方程稱為回歸方程。
簡(jiǎn)單線性回歸方程:
也可以寫(xiě)成:

14.1.2 估計(jì)的回歸方程
通常,我們只能把樣本統(tǒng)計(jì)量和
作為總體參數(shù)
和
的估計(jì)量。
估計(jì)的簡(jiǎn)單線性回歸方程:
14.2 最小二乘法
最小二乘法(least squares method):是利用樣本數(shù)據(jù)建立估計(jì)的回歸方程的一種方法。


為了讓估計(jì)的回歸直線能對(duì)樣本數(shù)據(jù)有一個(gè)好的擬合,我們希望觀測(cè)值
最小二乘法就是讓和預(yù)測(cè)值
之間的離差平方和達(dá)到最小的方法,求得
和
即最小二乘法準(zhǔn)則:min
估計(jì)的回歸方程的斜率和軸截距:

經(jīng)過(guò)計(jì)算得到:
于是估計(jì)的回歸方式:

14.3 判定系數(shù)
估計(jì)的回歸方程是否很好地你和了樣本數(shù)據(jù)。判定系數(shù)(coefficient of determination)為估計(jì)的回歸方程提供了一個(gè)擬合優(yōu)度的度量。
稱為第i個(gè)殘差,殘差或誤差的平方和是用最小二乘法最小化的量
誤差平方和,
經(jīng)過(guò)下圖的計(jì)算得到

總的平方和:
經(jīng)過(guò)下圖的計(jì)算,得到SST=15730

回歸平方和:

SST、SSR和SSE之間的關(guān)系:
- SST:總的平方和
- SSR:回歸平方和
- SSE:誤差平方和
我們可以把SSR理解為SST被解釋的部分,SSE理解為SST未被解釋的部分。三者知二求一。
判定系數(shù):
在0~1之間,為1時(shí)稱作完全擬合,如Armand比薩餅連鎖店的例子:
理解:可以把理解為總平方和中能被估計(jì)的回歸方程解釋的百分比。即季度銷售收入變異性的90.27%能被學(xué)生人數(shù)和銷售收入之間的線性關(guān)系所解釋。
相關(guān)系數(shù)(correlation coefficient)的值介于-1~1之間。為-1、1和0分別代表完全負(fù)向的線性關(guān)系、完全正向的線性關(guān)系、沒(méi)有線性關(guān)系。
樣本相關(guān)系數(shù):
這里的符號(hào)指的是正負(fù)。如ARmand比薩餅連鎖店,可以得出結(jié)論人數(shù)和銷售額有強(qiáng)的正向線性關(guān)系。
總結(jié):
- 相關(guān)系數(shù)的適用范圍被限制在兩變量之間存在線性關(guān)系的情況
- 判定系數(shù)對(duì)非線性關(guān)系以及多個(gè)變量的相關(guān)關(guān)系都適用。(適用范圍廣)
- 實(shí)際應(yīng)用中,在社會(huì)科學(xué)問(wèn)題中
低于0.25,但是也令人滿意;自然科學(xué)問(wèn)題中
常常大于0.6,有時(shí)大于0.9。具體應(yīng)用要看場(chǎng)景。
14.4 模型的假定
回歸分析中的顯著性檢驗(yàn)是以對(duì)誤差項(xiàng)的下列假定為依據(jù)進(jìn)行的。
- 誤差項(xiàng)
是一個(gè)平均值或期望為0的隨機(jī)變量,
- 對(duì)所有
值,
的方差都是相同的,用
表示
的方差。
即對(duì)所有值,
的方差都是相等的。
-
的值是相互獨(dú)立的。每個(gè)特定的
與對(duì)應(yīng)的
與別的
值對(duì)應(yīng)的
不相關(guān)。
- 對(duì)所有
值,誤差項(xiàng)
是一個(gè)正態(tài)分布的隨機(jī)變量。這也意味著:因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=y" alt="y" mathimg="1">是
的一個(gè)線性函數(shù),對(duì)所有的
值,
也是一個(gè)正態(tài)分布的隨機(jī)變量。

14.5 顯著性檢驗(yàn)
的期望值是關(guān)于
的一個(gè)線性函數(shù):
。
-
為0,則不存在線性關(guān)系
-
不為0,則存在線性關(guān)系
我們需要做一個(gè)假設(shè)檢驗(yàn),來(lái)判定是否為0
14.5.1
的估計(jì)
殘差平方和SSE是實(shí)際觀測(cè)值關(guān)于估計(jì)的回歸直線變異性的度量。均方誤差
因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Chat%20y_i%3Db_0%2Bb_1x_i" alt="\hat y_i=b_0+b_1x_i" mathimg="1">,所以
由于計(jì)算SSe需要估計(jì)兩個(gè)參數(shù)(和
),所以SSE的自由度為n-2
均方誤差(的估計(jì)量)
估計(jì)的標(biāo)準(zhǔn)誤差
14.5.2 t檢驗(yàn)
要存在線性關(guān)系,必須。假設(shè):
,
再Armand比薩餅連鎖店的例子中,我們不斷地抽取10家店作為樣本??梢缘玫礁喙烙?jì)地回歸方程。
地抽樣分布
- 期望值:
- 標(biāo)準(zhǔn)差:
- 分布形式:正態(tài)分布
由于未知,我們可以用估計(jì)值
代入,得到
的估計(jì)的標(biāo)準(zhǔn)差:
簡(jiǎn)單線性回歸顯著性的t檢驗(yàn)
假設(shè):,
檢驗(yàn)統(tǒng)計(jì)量:
拒絕法則:
- p-值法:若p-值
,則拒絕
- 臨界值法:若
或者
,則拒絕
其中,自由度為n-2,這里是上側(cè)面積為
的t值。
在Armand比薩餅店的例子中:,
,此時(shí)p-值遠(yuǎn)遠(yuǎn)小于0.01,所以拒絕
認(rèn)為銷售收入和學(xué)生人數(shù)存在顯著關(guān)系。
14.5.3
的置信區(qū)間
這個(gè)置信區(qū)間的置信系數(shù),
為自由度為n-2時(shí),t分布上側(cè)面積為
的t值。
例如:Armand比薩餅連鎖的例子,令置信系數(shù),
此時(shí),我們也可以通過(guò)置信區(qū)間來(lái)對(duì)的顯著性進(jìn)行t檢驗(yàn),由于
的假設(shè)值時(shí)0,而0不在置信區(qū)間
里,所以我們也可以拒絕
14.5.4 F檢驗(yàn)
在檢驗(yàn)回歸方程顯著性時(shí):
- 如果只有一個(gè)自變量,F(xiàn)檢驗(yàn)和t檢驗(yàn)都能有一致的結(jié)論。
- 如果有兩個(gè)及以上的自變量時(shí),F(xiàn)檢驗(yàn)只能被用來(lái)檢驗(yàn)回歸方程總體的顯著關(guān)系。
F檢驗(yàn)的基本原理:基于簡(jiǎn)歷的兩個(gè)獨(dú)立的估計(jì)量。已知MSE時(shí)
的一個(gè)估計(jì)量,如果
成立,則回歸平方和SSR除以自由度就給出了
的另一個(gè)獨(dú)立的估計(jì)量,被稱為來(lái)自于回歸的均方,簡(jiǎn)稱均方回歸(MSR)
其中回歸自由度等于模型中自變量的個(gè)數(shù)
本章中回歸模型只有一個(gè)自變量,所以
簡(jiǎn)單線性回歸顯著性的F檢驗(yàn)
- 假設(shè):
,
- 檢驗(yàn)統(tǒng)計(jì)量:
- 拒絕法則:
- p-值法:
,拒絕
- 臨界值法:
,拒絕
- p-值法:
其中,是分子自由度為1,分母自由度為n-2時(shí),F(xiàn)分布上側(cè)面積為
的F值。如果
不成立,MSE仍然是
的一個(gè)無(wú)偏估計(jì)量,而MSR會(huì)高估
。如果
成立,則MSR和MSE都是無(wú)偏估計(jì)量,比值趨向于1。
可以用ANOVA表來(lái)簡(jiǎn)練地概括方差分析地運(yùn)算過(guò)程。

14.5.5 關(guān)于顯著性檢驗(yàn)解釋的幾點(diǎn)注意
拒絕
,只能說(shuō)明x和y存在顯著性關(guān)系,但不能說(shuō)明有因果關(guān)系。
要做出因果關(guān)系,需要?jiǎng)e的理論上的充分證據(jù)。
-
證實(shí)x和y有統(tǒng)計(jì)顯著性關(guān)系,但并不能確定時(shí)線性關(guān)系;只能說(shuō)觀測(cè)值范圍內(nèi)相關(guān)。
image 利用估計(jì)的回歸方程可以對(duì)觀測(cè)值范圍內(nèi)的x值進(jìn)行預(yù)測(cè)。但是超出范圍的要謹(jǐn)慎考慮。
14.6 應(yīng)用估計(jì)的回歸方程進(jìn)行估計(jì)和預(yù)測(cè)
-
表示自變量x的一個(gè)給定值
-
表示
時(shí),應(yīng)變量y的可能值,是一個(gè)隨機(jī)變量。
-
表示當(dāng)
時(shí),應(yīng)變量y的期望值
-
表示
的點(diǎn)估計(jì)值,或者叫預(yù)測(cè)值。
14.6.1 區(qū)間估計(jì)
置信區(qū)間是對(duì)x的一個(gè)給定值,y的平均值的一個(gè)區(qū)間估計(jì)。
預(yù)測(cè)區(qū)間是對(duì)x的一個(gè)給定值,對(duì)應(yīng)y的一個(gè)新的觀測(cè)值。也即y的一個(gè)個(gè)別值進(jìn)行預(yù)測(cè)的一個(gè)區(qū)間估計(jì)。
預(yù)測(cè)區(qū)間的邊際誤差較大。
14.6.2 y的平均值和置信區(qū)間
要計(jì)算是如何接近真實(shí)的平均值
,我們需要估計(jì)
的方差。
方差點(diǎn)估計(jì)值:
標(biāo)準(zhǔn)差點(diǎn)估計(jì)值:
的置信區(qū)間
其中,為置信系數(shù),
為自由度n-2時(shí),使t分布的上側(cè)面積
的t值。
回到Armand比薩餅連鎖店,已知,自由度為n-2=8,在有10000名學(xué)生時(shí),
,邊際誤差
因此置信水平為95%的置信區(qū)間估計(jì)為:
特殊情況:當(dāng),
的估計(jì)的標(biāo)準(zhǔn)差最小。在這種情形下:
這也就意味著,當(dāng)時(shí),能得到y(tǒng)的平均值最精確的估計(jì)量。如下圖。

14.6.3 y的一個(gè)個(gè)別值得預(yù)測(cè)區(qū)間
當(dāng)我們想要預(yù)測(cè)時(shí),季度銷售收入的預(yù)測(cè)值為
這個(gè)預(yù)測(cè)值和x=10的所有店鋪的季度銷售收入的平均值得點(diǎn)估計(jì)值是相同得。(這句話不太明白)
為了建立預(yù)測(cè)區(qū)間,當(dāng),y得一個(gè)預(yù)測(cè)值
得方差由以下兩部分組成。
-
關(guān)于平均值
的方差,它的估計(jì)量由
給出。
- 利用
估計(jì)
的方差,它的估計(jì)量由
給出。
當(dāng)時(shí),應(yīng)變量y的預(yù)測(cè)值是
,我們用
表示
的預(yù)測(cè)值
的估計(jì)的方差,計(jì)算方式如下:
:
其中,為置信系數(shù);
為自由度為n-2時(shí),t分布上側(cè)面積為
的t值。
回到Armand比薩餅店,當(dāng)x=10時(shí),,
,邊際誤差
預(yù)測(cè)區(qū)間比置信區(qū)間更寬,當(dāng)越接近
時(shí),置信區(qū)間和預(yù)測(cè)區(qū)間就約精確。形狀如下圖所示:

14.7 計(jì)算機(jī)解法
書(shū)上介紹的Minitab
14.8 殘差分析:證實(shí)模型假定
第i次觀測(cè)的殘差:

回到本章第四節(jié),我們對(duì)中誤差項(xiàng)
的假定如下:
- 對(duì)所有的x值,
的方差(
)都是相同的,
-
的值相互獨(dú)立
-
服從正態(tài)分布
基于這個(gè)假定,才能使用t檢驗(yàn)和F檢驗(yàn)來(lái)確定x和y之間的關(guān)系是否顯著,置信區(qū)間和置信區(qū)間的估計(jì)。殘差提供了有關(guān)的最重要的信息。
殘差分析就是確定誤差項(xiàng)的假定是否成立的重要步驟。許多殘差分析都是對(duì)殘差圖形的仔細(xì)考察基礎(chǔ)上完成的,下面介紹這四種殘差圖。
14.8.1 關(guān)于x的殘差圖
自變量的殘差圖:
- 橫軸:
- 縱軸:殘差
如Armand比薩餅連鎖店的關(guān)于自變量x的殘差圖如下:


我們看Armand比薩餅連鎖店的殘差圖,感覺(jué)和a比較像,因此我們通過(guò)目測(cè)得到結(jié)論:殘差圖沒(méi)有提供足夠的證據(jù),讓我們對(duì)回歸模型所作的假定表示懷疑。
14.8.2 關(guān)于
的殘差圖
- 橫軸:應(yīng)變量預(yù)測(cè)值
- 縱軸:殘差值

這個(gè)圖和關(guān)于x的殘差圖模式相同,不過(guò)這個(gè)殘差圖主要針對(duì)的時(shí)由多個(gè)自變量的多元回歸分析。
14.8.3 標(biāo)準(zhǔn)化殘差
第個(gè)殘差的標(biāo)準(zhǔn)差:
其中,代表第
個(gè)殘差的標(biāo)準(zhǔn)差;s代表估計(jì)的標(biāo)準(zhǔn)誤差。
第個(gè)觀測(cè)的標(biāo)準(zhǔn)化殘差:
回到Armand比薩餅連鎖店的例子,下表為標(biāo)準(zhǔn)化殘差的計(jì)算過(guò)程和關(guān)于自變量x的標(biāo)準(zhǔn)化殘差圖:


標(biāo)準(zhǔn)化殘差圖能對(duì)隨機(jī)誤差項(xiàng)服從正態(tài)分布的假定提供一種直觀的人事。如果假定滿足,那么標(biāo)準(zhǔn)化殘差的分布看起來(lái)也應(yīng)該服從一個(gè)標(biāo)準(zhǔn)正態(tài)分布。即95%的標(biāo)準(zhǔn)化殘差介于-2~2之間,所以我們沒(méi)理由懷疑
服從正態(tài)分布的假定。
14.8.4 正態(tài)概率圖 (這一節(jié)看不懂,需要重看)
正態(tài)概率圖是確定誤差項(xiàng)服從正態(tài)分布的假定成立的另一個(gè)方法。
先介紹正態(tài)分?jǐn)?shù)的概念,假設(shè)在一個(gè)標(biāo)準(zhǔn)正態(tài)分布中,我們隨機(jī)抽取10個(gè)數(shù),并且反復(fù)進(jìn)行。然后把每個(gè)樣本中的10個(gè)數(shù)從小到大排序,那么每個(gè)樣本中最小值是一個(gè)隨機(jī)變量,稱作一階順序統(tǒng)計(jì)量。
統(tǒng)計(jì)學(xué)家已經(jīng)證明,來(lái)自樣本容量為10的樣本,一階順序統(tǒng)計(jì)量的期望值為-1.55,這個(gè)期望值被稱作正態(tài)分?jǐn)?shù)。如下圖10個(gè)順序統(tǒng)計(jì)量對(duì)應(yīng)10個(gè)正態(tài)分?jǐn)?shù)。(一般n個(gè)觀測(cè)值組成的數(shù)據(jù)集,就有n個(gè)順序統(tǒng)計(jì)量和n個(gè)正態(tài)分?jǐn)?shù))(這個(gè)地方看不懂)

14.9 殘差分析:異常值和有影響的觀測(cè)值
本節(jié)介紹如何利用殘差分析識(shí)別異常值或特別有影響的觀測(cè)值。
14.9.1 檢測(cè)異常值
如下圖,有一個(gè)異常值。通常意味著數(shù)據(jù)錯(cuò)誤(修正)或違背了模型假定的情形(保留)。

一般根據(jù)散點(diǎn)圖就能探明異常值。
14.9.2 檢測(cè)有影響的觀測(cè)值
有時(shí),個(gè)別觀測(cè)值對(duì)我們得到的回歸結(jié)果產(chǎn)生一個(gè)強(qiáng)影響,稱作有影響的觀測(cè)值,

有影響的觀測(cè)值可能是一個(gè)異常值(y值與去十有相當(dāng)大的偏離),也可能是一個(gè)遠(yuǎn)離自變量x平均值的觀測(cè)值,也可能兩者共同決定。
遇到的解決方法:
- 檢查觀測(cè)值的采集過(guò)程是否出問(wèn)題
- 如果為有效觀測(cè)值,那我們需要進(jìn)一步認(rèn)識(shí)x和y的關(guān)系。
自變量是極端值的觀測(cè)值被稱為高杠桿率點(diǎn),第次觀測(cè)的杠桿率(
表示):

我們可以計(jì)算上表第7個(gè)觀測(cè)值的杠桿率:

有影響的觀測(cè)值是由于大的殘差和高杠桿率的交互作用產(chǎn)生的。識(shí)別時(shí)只要考慮下面兩方面就能判斷。
- 大的殘差
- 高杠桿率
鏈接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取碼: 333c 復(fù)制這段內(nèi)容后打開(kāi)百度網(wǎng)盤手機(jī)App,操作更方便哦
