三级视频,九。。,日本第一不卡三四五区

參考書(shū)目為安德森的《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)》，以下為個(gè)人的學(xué)習(xí)總結(jié)，如果有錯(cuò)誤歡迎指正。有需要本書(shū)pdf的，鏈接在本文末尾。（僅限個(gè)人學(xué)習(xí)使用，請(qǐng)勿牟利）

第十四章簡(jiǎn)單線性回歸

用統(tǒng)計(jì)方法來(lái)建立一個(gè)表示變量之間的相互關(guān)系的方程，這種統(tǒng)計(jì)方法稱為回歸分析。
應(yīng)變量（dependent variable）：被預(yù)測(cè)的變量（y）
自變量（independent variable）：用來(lái)預(yù)測(cè)應(yīng)變量的一個(gè)或多個(gè)變量（x）

本章討論簡(jiǎn)單線性回歸：一個(gè)自變量，一個(gè)應(yīng)變量。

14.1 簡(jiǎn)單線性回歸模型

例子：Armand比薩餅連鎖店想探究學(xué)校附近的門店的學(xué)生人數(shù)（x）與連鎖店銷售收入（y）之間的關(guān)系。

14.1.1 回歸模型和回歸方程

描述y如何依賴于x和誤差項(xiàng)的方程被稱為回歸模型

簡(jiǎn)單線性回歸模型： $y=\beta_0+\beta_1x+\epsilon$
其中 $\beta_0$ 和 $\beta_1$ 稱為模型參數(shù)， $\epsilon$ 是一個(gè)隨機(jī)變量，稱為模型的誤差項(xiàng)。

回到Armand比薩餅連鎖店的總體可以看作若干子總體組成的集合。如8000名學(xué)生的門店構(gòu)成一個(gè)子總體。那么每一個(gè)子總體都有一個(gè) $y$ 值的分布。每一個(gè)自總體都有一個(gè)期望值。描述期望值 $E(y)$ 如何依賴于 $x$ 的方程稱為回歸方程。

簡(jiǎn)單線性回歸方程: $E(y)=\beta_0+\beta_1x$
也可以寫(xiě)成： $E(y|x)=\beta_0+\beta_1x$

image

14.1.2 估計(jì)的回歸方程

通常，我們只能把樣本統(tǒng)計(jì)量 $b_0$ 和 $b_1$ 作為總體參數(shù) $\beta_0$ 和 $\beta_1$ 的估計(jì)量。

估計(jì)的簡(jiǎn)單線性回歸方程： $\hat y=b_0+b_1x$

14.2 最小二乘法

最小二乘法（least squares method）：是利用樣本數(shù)據(jù)建立估計(jì)的回歸方程的一種方法。

image

為了讓估計(jì)的回歸直線能對(duì)樣本數(shù)據(jù)有一個(gè)好的擬合，我們希望觀測(cè)值

y_i

和預(yù)測(cè)值

\hat y_i

之前的差要小。

最小二乘法就是讓 $y_i$ 和預(yù)測(cè)值 $\hat y_i$ 之間的離差平方和達(dá)到最小的方法，求得 $b_0$ 和 $b_1$
即最小二乘法準(zhǔn)則：min $\sum(y_i-\hat y_i)^2$
估計(jì)的回歸方程的斜率和 $y$ 軸截距：
$b_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}$
$b_0=\bar y-b_1\bar x$

image

經(jīng)過(guò)計(jì)算得到：

b_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}=\frac{2840}{568}=5

b_0=\bar y-b_1\bar x=130-5\times14=60

于是估計(jì)的回歸方式：

\hat y=60+5x

image

14.3 判定系數(shù)

估計(jì)的回歸方程是否很好地你和了樣本數(shù)據(jù)。判定系數(shù)(coefficient of determination)為估計(jì)的回歸方程提供了一個(gè)擬合優(yōu)度的度量。
$y_i-\hat y_i$ 稱為第i個(gè)殘差，殘差或誤差的平方和是用最小二乘法最小化的量
誤差平方和， $SSE=\sum(y_i-\hat y_i)^2$
經(jīng)過(guò)下圖的計(jì)算得到 $SSE=1530$

image

總的平方和： $SST=\sum (y_i-\bar y)^2$
經(jīng)過(guò)下圖的計(jì)算，得到SST=15730

image

回歸平方和： $SSR=\sum (\hat y_i-\bar y)^2$

image

SST、SSR和SSE之間的關(guān)系： $SST=SSR+SSE$

SST：總的平方和
SSR：回歸平方和
SSE：誤差平方和

我們可以把SSR理解為SST被解釋的部分，SSE理解為SST未被解釋的部分。三者知二求一。

判定系數(shù)： $r^2=\frac{SSR}{SST}$
$r^2$ 在0~1之間，為1時(shí)稱作完全擬合，如Armand比薩餅連鎖店的例子： $r^2=\frac{SSR}{SST}=\frac{14200}{15730}=0.9027$
理解：可以把 $r^2$ 理解為總平方和中能被估計(jì)的回歸方程解釋的百分比。即季度銷售收入變異性的90.27%能被學(xué)生人數(shù)和銷售收入之間的線性關(guān)系所解釋。

相關(guān)系數(shù)（correlation coefficient）的值介于-1~1之間。為-1、1和0分別代表完全負(fù)向的線性關(guān)系、完全正向的線性關(guān)系、沒(méi)有線性關(guān)系。
樣本相關(guān)系數(shù): $r_{xy}=(b_1的符號(hào))\sqrt{判定系數(shù)}=(b_1的符號(hào))\sqrt{r^2}$
這里的符號(hào)指的是正負(fù)。如ARmand比薩餅連鎖店 $r_{xy}=\sqrt{0.9027}=0.9501$ ，可以得出結(jié)論人數(shù)和銷售額有強(qiáng)的正向線性關(guān)系。

總結(jié)：

相關(guān)系數(shù)的適用范圍被限制在兩變量之間存在線性關(guān)系的情況
判定系數(shù)對(duì)非線性關(guān)系以及多個(gè)變量的相關(guān)關(guān)系都適用。（適用范圍廣）
實(shí)際應(yīng)用中，在社會(huì)科學(xué)問(wèn)題中 $r^2$ 低于0.25，但是也令人滿意；自然科學(xué)問(wèn)題中 $r^2$ 常常大于0.6，有時(shí)大于0.9。具體應(yīng)用要看場(chǎng)景。

14.4 模型的假定

回歸分析中的顯著性檢驗(yàn)是以對(duì)誤差項(xiàng) $\epsilon$ 的下列假定為依據(jù)進(jìn)行的。

誤差項(xiàng) $\epsilon$ 是一個(gè)平均值或期望為0的隨機(jī)變量， $E(\epsilon)=0$
$E(\beta_0)=\beta_0$ $E(\beta_1)=\beta_1$ $E(y)=\beta_0+\beta_1x$
對(duì)所有 $x$ 值， $\epsilon$ 的方差都是相同的，用 $\sigma^2$ 表示 $\epsilon$ 的方差。
即對(duì)所有 $x$ 值， $y$ 的方差都是相等的。
$\epsilon$ 的值是相互獨(dú)立的。每個(gè)特定的 $x$ 與對(duì)應(yīng)的 $\epsilon$ 與別的 $x$ 值對(duì)應(yīng)的 $\epsilon$ 不相關(guān)。
對(duì)所有 $x$ 值，誤差項(xiàng) $\epsilon$ 是一個(gè)正態(tài)分布的隨機(jī)變量。這也意味著：因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=y" alt="y" mathimg="1">是 $\epsilon$ 的一個(gè)線性函數(shù)，對(duì)所有的 $x$ 值， $y$ 也是一個(gè)正態(tài)分布的隨機(jī)變量。

image

14.5 顯著性檢驗(yàn)

$y$ 的期望值是關(guān)于 $x$ 的一個(gè)線性函數(shù)： $E(y)=\beta_0+\beta_1x$ 。

$\beta_1$ 為0，則不存在線性關(guān)系
$\beta_1$ 不為0，則存在線性關(guān)系

我們需要做一個(gè)假設(shè)檢驗(yàn)，來(lái)判定 $\beta_1$ 是否為0

14.5.1 $\sigma^2$ 的估計(jì)

殘差平方和SSE是實(shí)際觀測(cè)值關(guān)于估計(jì)的回歸直線變異性的度量。均方誤差 $MSE=\frac{SSE}{自由度}$
因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Chat%20y_i%3Db_0%2Bb_1x_i" alt="\hat y_i=b_0+b_1x_i" mathimg="1">，所以 $SSE=\sum(y_i-\hat y_i)^2=\sum(y_i-b_0-b_1x_i)^2$
由于計(jì)算SSe需要估計(jì)兩個(gè)參數(shù)( $\beta_0$ 和 $\beta_1$ )，所以SSE的自由度為n-2

均方誤差（ $\sigma^2$ 的估計(jì)量）
$s^2=MSE=\frac{SSE}{n-2}$

估計(jì)的標(biāo)準(zhǔn)誤差
$S=\sqrt{MSE}=\sqrt{\frac{SSE}{n-2}}$

14.5.2 t檢驗(yàn)

要存在線性關(guān)系，必須 $\beta_1 \neq 0$ 。假設(shè)： $H_0:\beta_1=0$ , $H_a:\beta_1 \neq 0$

再Armand比薩餅連鎖店的例子中，我們不斷地抽取10家店作為樣本?？梢缘玫礁喙烙?jì)地回歸方程。
$b_1$ 地抽樣分布

期望值： $E(b_1)=\beta_1$
標(biāo)準(zhǔn)差： $\sigma_{b_1}=\frac{\sigma}{\sqrt{\sum(x_i-\bar x)^2}}$
分布形式：正態(tài)分布

由于 $\sigma$ 未知，我們可以用估計(jì)值 $s$ 代入，得到 $b_1$ 的估計(jì)的標(biāo)準(zhǔn)差： $s_{b_1}=\frac{s}{\sum(x_i-\bar x)^2}$

簡(jiǎn)單線性回歸顯著性的t檢驗(yàn)
假設(shè)： $H_0:\beta_1=0$ , $H_a:\beta_1 \neq 0$
檢驗(yàn)統(tǒng)計(jì)量： $t=\frac{b_1}{s_{b_1}}$
拒絕法則：

p-值法：若p-值 $\leq \alpha$ ，則拒絕 $H_0$
臨界值法：若 $t\leq -t_{\alpha/2}$ 或者 $t /geq t_{\alpha/2}$ ，則拒絕 $H_0$

其中，自由度為n-2， $t_{\alpha/2}$ 這里是上側(cè)面積為 $\alpha/2$ 的t值。

在Armand比薩餅店的例子中： $s_{b_1}=\frac{13.829}{\sqrt{568}}=0.5803$ ， $t=\frac{b_1}{s_{b_1}}=\frac{5}{0.5803}=8.62$ ，此時(shí)p-值遠(yuǎn)遠(yuǎn)小于0.01，所以拒絕 $H_0$ 認(rèn)為銷售收入和學(xué)生人數(shù)存在顯著關(guān)系。

14.5.3 $\beta_1$ 的置信區(qū)間

$b_1 \pm t_{\alpha/2}s_{b_1}$
這個(gè)置信區(qū)間的置信系數(shù) $1-\alpha$ ， $t_{\alpha/2}$ 為自由度為n-2時(shí)，t分布上側(cè)面積為 $\alpha/2$ 的t值。

例如：Armand比薩餅連鎖的例子，令置信系數(shù) $\alpha=0.01$ ， $t_{0.005}=3.355$
$b_1 \pm t_{\alpha/2}s_{b_1}=5 \pm3.355\times 0.5803=5\pm 1.95$

此時(shí)，我們也可以通過(guò)置信區(qū)間來(lái)對(duì) $\beta_1$ 的顯著性進(jìn)行t檢驗(yàn)，由于 $\beta_1$ 的假設(shè)值時(shí)0，而0不在置信區(qū)間 $(3.05,6.95)$ 里，所以我們也可以拒絕 $H_0$

14.5.4 F檢驗(yàn)

在檢驗(yàn)回歸方程顯著性時(shí)：

如果只有一個(gè)自變量，F(xiàn)檢驗(yàn)和t檢驗(yàn)都能有一致的結(jié)論。
如果有兩個(gè)及以上的自變量時(shí)，F(xiàn)檢驗(yàn)只能被用來(lái)檢驗(yàn)回歸方程總體的顯著關(guān)系。

F檢驗(yàn)的基本原理：基于簡(jiǎn)歷 $\sigma^2$ 的兩個(gè)獨(dú)立的估計(jì)量。已知MSE時(shí) $\sigma^2$ 的一個(gè)估計(jì)量，如果 $H_0$ 成立，則回歸平方和SSR除以自由度就給出了 $\sigma^2$ 的另一個(gè)獨(dú)立的估計(jì)量，被稱為來(lái)自于回歸的均方，簡(jiǎn)稱均方回歸（MSR）
$MSR=\frac{SSR}{回歸自由度}$
其中回歸自由度等于模型中自變量的個(gè)數(shù)

本章中回歸模型只有一個(gè)自變量，所以 $MSR=\frac{SSR}{1}=SSR$

簡(jiǎn)單線性回歸顯著性的F檢驗(yàn)

假設(shè)： $H_0:\beta_1=0$ , $H_a:\beta_1 \neq 0$
檢驗(yàn)統(tǒng)計(jì)量： $F=\frac{MSR}{MSE}$
拒絕法則：
- p-值法： $p \leq \alpha$ ，拒絕 $H_0$
- 臨界值法： $F\geq F_{\alpha}$ ，拒絕 $H_0$

其中， $F_{\alpha}$ 是分子自由度為1，分母自由度為n-2時(shí)，F(xiàn)分布上側(cè)面積為 $\alpha$ 的F值。如果 $H_0$ 不成立，MSE仍然是 $\sigma^2$ 的一個(gè)無(wú)偏估計(jì)量，而MSR會(huì)高估 $\sigma^2$ 。如果 $H_0$ 成立，則MSR和MSE都是無(wú)偏估計(jì)量，比值趨向于1。

可以用ANOVA表來(lái)簡(jiǎn)練地概括方差分析地運(yùn)算過(guò)程。

image

14.5.5 關(guān)于顯著性檢驗(yàn)解釋的幾點(diǎn)注意

拒絕 $H_0$ ，只能說(shuō)明x和y存在顯著性關(guān)系，但不能說(shuō)明有因果關(guān)系。
要做出因果關(guān)系，需要?jiǎng)e的理論上的充分證據(jù)。
證實(shí)x和y有統(tǒng)計(jì)顯著性關(guān)系，但并不能確定時(shí)線性關(guān)系；只能說(shuō)觀測(cè)值范圍內(nèi)相關(guān)。

image
利用估計(jì)的回歸方程可以對(duì)觀測(cè)值范圍內(nèi)的x值進(jìn)行預(yù)測(cè)。但是超出范圍的要謹(jǐn)慎考慮。

14.6 應(yīng)用估計(jì)的回歸方程進(jìn)行估計(jì)和預(yù)測(cè)

$x^*$ 表示自變量x的一個(gè)給定值
$y^*$ 表示 $x=x^*$ 時(shí)，應(yīng)變量y的可能值，是一個(gè)隨機(jī)變量。
$E(y^*)$ 表示當(dāng) $x=x^*$ 時(shí)，應(yīng)變量y的期望值
$\hat y^*=b_)+B_1x^*$ 表示 $E(y^*)$ 的點(diǎn)估計(jì)值，或者叫預(yù)測(cè)值。

14.6.1 區(qū)間估計(jì)

置信區(qū)間是對(duì)x的一個(gè)給定值，y的平均值的一個(gè)區(qū)間估計(jì)。
預(yù)測(cè)區(qū)間是對(duì)x的一個(gè)給定值，對(duì)應(yīng)y的一個(gè)新的觀測(cè)值。也即y的一個(gè)個(gè)別值進(jìn)行預(yù)測(cè)的一個(gè)區(qū)間估計(jì)。
預(yù)測(cè)區(qū)間的邊際誤差較大。

14.6.2 y的平均值和置信區(qū)間

要計(jì)算 $\hat y^*$ 是如何接近真實(shí)的平均值 $E(y^*)$ ，我們需要估計(jì) $\hat y^*$ 的方差。
方差點(diǎn)估計(jì)值： $s_{\hat y^*}^2=s^2\left[\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}\right]$
標(biāo)準(zhǔn)差點(diǎn)估計(jì)值： $s_{\hat y^*}=s^2\sqrt{\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}}$

$E(y^*)$ 的置信區(qū)間
$\hat y^* \pm t_{\alpha/2}s_{\hat y^*}$
其中， $1-\alpha$ 為置信系數(shù)， $t_{\alpha/2}$ 為自由度n-2時(shí)，使t分布的上側(cè)面積 $\alpha/2$ 的t值。

回到Armand比薩餅連鎖店，已知 $\alpha/2=0.025$ ，自由度為n-2=8，在有10000名學(xué)生時(shí)， $\hat y^*=110$ ，邊際誤差 $t_{\alpha/2}s_{\hat y^*}=2.306\times 4.95=11.415$
因此置信水平為95%的置信區(qū)間估計(jì)為： $110 \pm 11.415$

特殊情況：當(dāng) $x^*=\bar x$ ， $\hat y^*$ 的估計(jì)的標(biāo)準(zhǔn)差最小。在這種情形下： $s_{\hat y^*}=s^2\sqrt{\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}}=s\sqrt{\frac{1}{n}}$
這也就意味著，當(dāng) $x^*=\bar x$ 時(shí)，能得到y(tǒng)的平均值最精確的估計(jì)量。如下圖。

image

14.6.3 y的一個(gè)個(gè)別值得預(yù)測(cè)區(qū)間

當(dāng)我們想要預(yù)測(cè) $x^*=10$ 時(shí)，季度銷售收入的預(yù)測(cè)值為 $\hat y^*=60+5\times 10=110$
這個(gè)預(yù)測(cè)值和x=10的所有店鋪的季度銷售收入的平均值得點(diǎn)估計(jì)值是相同得。（這句話不太明白）

為了建立預(yù)測(cè)區(qū)間，當(dāng) $x=x^*$ ，y得一個(gè)預(yù)測(cè)值 $\hat y^*$ 得方差由以下兩部分組成。

$y^*$ 關(guān)于平均值 $E(y^*)$ 的方差，它的估計(jì)量由 $s^2$ 給出。
利用 $\hat y^*$ 估計(jì) $E(y^*)$ 的方差，它的估計(jì)量由 $s_{\hat y^*}^2$ 給出。

當(dāng) $x=x^*$ 時(shí)，應(yīng)變量y的預(yù)測(cè)值是 $\hat y^*$ ，我們用 $s_{pred}^2$ 表示 $y^*$ 的預(yù)測(cè)值 $\hat y^*$ 的估計(jì)的方差，計(jì)算方式如下：
$s_{pred}^2=s^2+s_{\hat y^*}^2=s^2+s^2\left[\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}\right]=s^2\left[1+\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}\right]$
$s_{pred}=s\sqrt{1+\frac{1}{n}+\frac{(x^*-\bar x)^2}{\sum(x_i-\bar x)^2}}$

$y^*的預(yù)測(cè)區(qū)間$ ：
$\hat y^* \pm t_{\alpha/2}s_{pred}$
其中， $1-\alpha$ 為置信系數(shù)； $t_{\alpha/2}$ 為自由度為n-2時(shí)，t分布上側(cè)面積為 $\alpha/2$ 的t值。

回到Armand比薩餅店，當(dāng)x=10時(shí)， $t_{\alpha/2}=t_{0.025}=2.306$ , $s_{pred}=14.69$ ,邊際誤差 $t_{\alpha/2}s_{pred}=2.306 \times 14.69=33.875$

預(yù)測(cè)區(qū)間比置信區(qū)間更寬，當(dāng) $x^*$ 越接近 $\bar x$ 時(shí)，置信區(qū)間和預(yù)測(cè)區(qū)間就約精確。形狀如下圖所示：

image

14.7 計(jì)算機(jī)解法

書(shū)上介紹的Minitab

14.8 殘差分析：證實(shí)模型假定

第i次觀測(cè)的殘差： $y_i-\hat y_i$

image

回到本章第四節(jié)，我們對(duì) $y=\beta_0+\beta_1x+\epsilon$ 中誤差項(xiàng) $\epsilon$ 的假定如下：

$E(\epsilon)=0$
對(duì)所有的x值， $\epsilon$ 的方差( $\sigma^2$ )都是相同的，
$\epsilon$ 的值相互獨(dú)立
$\epsilon$ 服從正態(tài)分布

基于這個(gè)假定，才能使用t檢驗(yàn)和F檢驗(yàn)來(lái)確定x和y之間的關(guān)系是否顯著，置信區(qū)間和置信區(qū)間的估計(jì)。殘差提供了有關(guān) $\epsilon$ 的最重要的信息。
殘差分析就是確定誤差項(xiàng) $\epsilon$ 的假定是否成立的重要步驟。許多殘差分析都是對(duì)殘差圖形的仔細(xì)考察基礎(chǔ)上完成的，下面介紹這四種殘差圖。

14.8.1 關(guān)于x的殘差圖

自變量 $x$ 的殘差圖：

橫軸： $x$
縱軸：殘差 $y_i-\hat y_i$

如Armand比薩餅連鎖店的關(guān)于自變量x的殘差圖如下：

image

我們看Armand比薩餅連鎖店的殘差圖，感覺(jué)和a比較像，因此我們通過(guò)目測(cè)得到結(jié)論：殘差圖沒(méi)有提供足夠的證據(jù)，讓我們對(duì)回歸模型所作的假定表示懷疑。

14.8.2 關(guān)于 $\hat y$ 的殘差圖

橫軸：應(yīng)變量預(yù)測(cè)值 $\hat y$
縱軸：殘差值 $y-\hat y$

image

這個(gè)圖和關(guān)于x的殘差圖模式相同，不過(guò)這個(gè)殘差圖主要針對(duì)的時(shí)由多個(gè)自變量的多元回歸分析。

14.8.3 標(biāo)準(zhǔn)化殘差

第 $i$ 個(gè)殘差的標(biāo)準(zhǔn)差：
$s_{y_i-\hat y_i}=s\sqrt{1-h_i}$
其中， $s_{y_i-\hat y_i}$ 代表第 $i$ 個(gè)殘差的標(biāo)準(zhǔn)差；s代表估計(jì)的標(biāo)準(zhǔn)誤差。 $h_i=\frac{1}{n}+\frac{(x_i-\bar x)^2}{\sum (x_i-\bar x)^2}$

第 $i$ 個(gè)觀測(cè)的標(biāo)準(zhǔn)化殘差：
$\frac{y_i-\hat y_i}{s_{y_i-\hat y_i}}$

回到Armand比薩餅連鎖店的例子，下表為標(biāo)準(zhǔn)化殘差的計(jì)算過(guò)程和關(guān)于自變量x的標(biāo)準(zhǔn)化殘差圖：

image

標(biāo)準(zhǔn)化殘差圖能對(duì)隨機(jī)誤差項(xiàng) $\epsilon$ 服從正態(tài)分布的假定提供一種直觀的人事。如果假定滿足，那么標(biāo)準(zhǔn)化殘差的分布看起來(lái)也應(yīng)該服從一個(gè)標(biāo)準(zhǔn)正態(tài)分布。即95%的標(biāo)準(zhǔn)化殘差介于-2~2之間，所以我們沒(méi)理由懷疑 $\epsilon$ 服從正態(tài)分布的假定。

14.8.4 正態(tài)概率圖（這一節(jié)看不懂，需要重看）

正態(tài)概率圖是確定誤差項(xiàng) $\epsilon$ 服從正態(tài)分布的假定成立的另一個(gè)方法。
先介紹正態(tài)分?jǐn)?shù)的概念，假設(shè)在一個(gè)標(biāo)準(zhǔn)正態(tài)分布中，我們隨機(jī)抽取10個(gè)數(shù)，并且反復(fù)進(jìn)行。然后把每個(gè)樣本中的10個(gè)數(shù)從小到大排序，那么每個(gè)樣本中最小值是一個(gè)隨機(jī)變量，稱作一階順序統(tǒng)計(jì)量。

統(tǒng)計(jì)學(xué)家已經(jīng)證明，來(lái)自樣本容量為10的樣本，一階順序統(tǒng)計(jì)量的期望值為-1.55，這個(gè)期望值被稱作正態(tài)分?jǐn)?shù)。如下圖10個(gè)順序統(tǒng)計(jì)量對(duì)應(yīng)10個(gè)正態(tài)分?jǐn)?shù)。（一般n個(gè)觀測(cè)值組成的數(shù)據(jù)集，就有n個(gè)順序統(tǒng)計(jì)量和n個(gè)正態(tài)分?jǐn)?shù)）（這個(gè)地方看不懂）

image

14.9 殘差分析：異常值和有影響的觀測(cè)值

本節(jié)介紹如何利用殘差分析識(shí)別異常值或特別有影響的觀測(cè)值。

14.9.1 檢測(cè)異常值

如下圖，有一個(gè)異常值。通常意味著數(shù)據(jù)錯(cuò)誤（修正）或違背了模型假定的情形（保留）。

image

一般根據(jù)散點(diǎn)圖就能探明異常值。

14.9.2 檢測(cè)有影響的觀測(cè)值

有時(shí)，個(gè)別觀測(cè)值對(duì)我們得到的回歸結(jié)果產(chǎn)生一個(gè)強(qiáng)影響，稱作有影響的觀測(cè)值，

image

有影響的觀測(cè)值可能是一個(gè)異常值（y值與去十有相當(dāng)大的偏離），也可能是一個(gè)遠(yuǎn)離自變量x平均值的觀測(cè)值，也可能兩者共同決定。
遇到的解決方法：

檢查觀測(cè)值的采集過(guò)程是否出問(wèn)題
如果為有效觀測(cè)值，那我們需要進(jìn)一步認(rèn)識(shí)x和y的關(guān)系。

自變量是極端值的觀測(cè)值被稱為高杠桿率點(diǎn)，第 $i$ 次觀測(cè)的杠桿率( $h_i$ 表示)：
$h_i=\frac{1}{n}+\frac{(x_i-\bar x)^2}{\sum(x_i-\bar x)^2}$

image

我們可以計(jì)算上表第7個(gè)觀測(cè)值的杠桿率：

h_7=0.94

，對(duì)于簡(jiǎn)單線性回歸情形，在Minitab中如果

h_i >[6/n,0.99]

則將會(huì)被識(shí)別稱具有高杠桿率的觀測(cè)值，此時(shí)

h_7

滿足。會(huì)在右圖的Unusual Observations標(biāo)出。

image

有影響的觀測(cè)值是由于大的殘差和高杠桿率的交互作用產(chǎn)生的。識(shí)別時(shí)只要考慮下面兩方面就能判斷。

大的殘差
高杠桿率

鏈接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取碼: 333c 復(fù)制這段內(nèi)容后打開(kāi)百度網(wǎng)盤手機(jī)App，操作更方便哦

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第十四章簡(jiǎn)單線性回歸

第十四章簡(jiǎn)單線性回歸

第十四章簡(jiǎn)單線性回歸

14.1 簡(jiǎn)單線性回歸模型

14.1.1 回歸模型和回歸方程

14.1.2 估計(jì)的回歸方程

14.2 最小二乘法

14.3 判定系數(shù)

14.4 模型的假定

14.5 顯著性檢驗(yàn)

14.5.1 $\sigma^2$ 的估計(jì)

14.5.2 t檢驗(yàn)

14.5.3 $\beta_1$ 的置信區(qū)間

14.5.4 F檢驗(yàn)

14.5.5 關(guān)于顯著性檢驗(yàn)解釋的幾點(diǎn)注意

14.6 應(yīng)用估計(jì)的回歸方程進(jìn)行估計(jì)和預(yù)測(cè)

14.6.1 區(qū)間估計(jì)

14.6.2 y的平均值和置信區(qū)間

14.6.3 y的一個(gè)個(gè)別值得預(yù)測(cè)區(qū)間

14.7 計(jì)算機(jī)解法

14.8 殘差分析：證實(shí)模型假定

14.8.1 關(guān)于x的殘差圖

14.8.2 關(guān)于 $\hat y$ 的殘差圖

14.8.3 標(biāo)準(zhǔn)化殘差

14.8.4 正態(tài)概率圖（這一節(jié)看不懂，需要重看）

14.9 殘差分析：異常值和有影響的觀測(cè)值

14.9.1 檢測(cè)異常值

14.9.2 檢測(cè)有影響的觀測(cè)值

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

第十四章 簡(jiǎn)單線性回歸

第十四章 簡(jiǎn)單線性回歸

14.1 簡(jiǎn)單線性回歸模型

14.1.1 回歸模型和回歸方程

14.1.2 估計(jì)的回歸方程

14.2 最小二乘法

14.3 判定系數(shù)

14.4 模型的假定

14.5 顯著性檢驗(yàn)

14.5.1 的估計(jì)

14.5.2 t檢驗(yàn)

14.5.3 的置信區(qū)間

14.5.4 F檢驗(yàn)

14.5.5 關(guān)于顯著性檢驗(yàn)解釋的幾點(diǎn)注意

14.6 應(yīng)用估計(jì)的回歸方程進(jìn)行估計(jì)和預(yù)測(cè)

14.6.1 區(qū)間估計(jì)

14.6.2 y的平均值和置信區(qū)間

14.6.3 y的一個(gè)個(gè)別值得預(yù)測(cè)區(qū)間

14.7 計(jì)算機(jī)解法

14.8 殘差分析：證實(shí)模型假定

14.8.1 關(guān)于x的殘差圖

14.8.2 關(guān)于的殘差圖

14.8.3 標(biāo)準(zhǔn)化殘差

14.8.4 正態(tài)概率圖 （這一節(jié)看不懂，需要重看）

14.9 殘差分析：異常值和有影響的觀測(cè)值

14.9.1 檢測(cè)異常值

14.9.2 檢測(cè)有影響的觀測(cè)值

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第十四章簡(jiǎn)單線性回歸

第十四章簡(jiǎn)單線性回歸

14.5.1 $\sigma^2$ 的估計(jì)

14.5.3 $\beta_1$ 的置信區(qū)間

14.8.2 關(guān)于 $\hat y$ 的殘差圖

14.8.4 正態(tài)概率圖（這一節(jié)看不懂，需要重看）