一元回歸模型
回歸模型
- y = β1 * x + β2 + ε
- ε ~ N(0,σ^2)
模型解釋:
β1:斜率、β2:截距、 ε:隨機(jī)變量
注: 每一個(gè)x都有一個(gè)對(duì)應(yīng)的隨機(jī)變量ε
模型假設(shè)
- E(ε) = 0
- D(ε) = σ^2
- Cov(ε1,ε2) = 0
- ε ~ N
回歸模型是一個(gè)多總體的模型x的水平不同,因變量y的分布也不同
參數(shù)估計(jì)
我們希望最后回歸出來(lái)的直線能夠比較好的描述問題,即散點(diǎn)均勻的分布在回歸的直線左右。這里會(huì)引入一個(gè)概念——‘殘差’。
- 殘差
我們回歸出來(lái)的方程是一條確定的直線,但現(xiàn)實(shí)是隨機(jī)的。所以實(shí)際的(x,y)總是落在回歸方程附近。那么實(shí)際值記為y1,理論值記為y2。那么殘差=y1-y2。 - 最小二乘估計(jì)
考慮到殘差有正有負(fù),我們將殘差的平方進(jìn)行求和。那么最小的殘差平方和對(duì)應(yīng)的 β1、β2是我們希望回歸出來(lái)的參數(shù),記作Q( β1,β2)。這種方法也叫做最小二乘法。
Q( β1,β2) = sum((y1 - y1)^2) = sum((y1 - β1 * x + β2)^2)- β1 = sum((x - x_mean) * (y - y_mean)) / sum((x - x_mean)^2)
- β2 = y_mean - β1 * x_mean
名詞解釋:sum()是求和、x_mean、y_mean是x、y的均值。
今天先就這樣,明天學(xué)習(xí)β1、β2參數(shù)的性質(zhì),極大似然估計(jì),顯著性檢驗(yàn)和殘差分析。