一区二区三区黄色,Av一区日韩无码二区,日韩九月婷婷

什么是線性回歸

??相對于其他算法來說線性回歸的原理相對簡單，而且它的表現(xiàn)形式與我們數(shù)學(xué)中的線性方程較為相似，更加利于大家所理解。所以線性回歸一般會作為機器學(xué)習(xí)愛好者學(xué)習(xí)機器學(xué)習(xí)時要學(xué)的第一個算法。

??線性回歸直白的理解就是尋找?guī)讉€自變量（ $x_{1},x_{2},\cdots,x_{n}$ ）與因變量（ $y$ ）之間的線性關(guān)系，之所以稱之為“線性”是因為自變量都是一次冪的形式?jīng)]有出現(xiàn)二次或更高形式的自變量。

??比如下面的例子：

圖1

??上圖所示是身高與體重的關(guān)系（體重很可能與身高有關(guān)系，自變量有一個：身高，因變量是體重），很明顯身高與體重可能存在圖中直線所示的關(guān)系。像這種關(guān)系便可以應(yīng)線性回歸進行分析。

??再例如：

圖2

一個人的可貸款金額可能與他的住房面積和工資等因素有關(guān)系（房屋面積與工資這兩個因素共同決定了貸款金額，自變量有兩個房屋面積、工資，可貸款金額是因變量），通過圖中的數(shù)據(jù)尋找工資、住房面積與可貸款金額之間的關(guān)系便可認為是一個線性回歸問題。

??線性回歸有一個特別需要注意的特點就是它研究的是連續(xù)的自變量與連續(xù)的因變量之間的關(guān)系，這個要與邏輯回歸相區(qū)別。就像上兩個例子中所示的住房面積和工資都是可以連續(xù)連續(xù)變化的，可能取到任何現(xiàn)實中合理的值，而相對應(yīng)的貸款金額也會連續(xù)的變化；身高、體重同樣也是連續(xù)的。邏輯回歸中的 $h(x)$ 是非連續(xù)的，其只有兩個取值的可能。這也是一個問題選擇邏輯回歸還是線性回歸進行分析的重要的條件。

線性回歸模型

??回歸分析可以相對簡單的理解成如下的形式：
$h_{w}(x)=w _{0}+w _{1}x_{1}+w _{2}x_{2}+w _{3}x_{3}+\cdots +w _{n}x_{n}=\sum_{i=0}^{n}w _{i}x_{i}$
??其中 $w _{0},w _{1},w _{2},\cdots,w _{n}$ 為自變量（因子）對于因變量 $y$ 的權(quán)重。在線性代數(shù)中，其也可寫成如下的形式：
$\begin{bmatrix} w_{0} & w_{1} & w_{2} & \cdots & w_{n} \end{bmatrix}\begin{bmatrix} 1\\ x_{1}\\ x_{2}\\ \vdots \\ x_{n}\end{bmatrix}=w^{T}x=h_{w}(x)$
??有了上述的模型，我們的目的是找到或求出權(quán)重 $w_{0},w_{1},w_{2},\cdots,w_{n}$ 的值，以便找到 $x_{1},x_{2},\cdots,x_{n}$ 與 $h(x)$ 之間的映射（函數(shù)）關(guān)系。從圖1中我們可以看出，一般情況下自變量與因變量不太可能滿足一個嚴格的線性關(guān)系。比較理想的情況是數(shù)據(jù)點都比較均勻的分布在直線的兩側(cè)，也就是誤差比較小。我們的目標便是找到一組 $w_{0},w_{1},w_{2},\cdots,w_{n}$ 使模型與實際的誤差最小。

??線性回歸得出的結(jié)果與實際的結(jié)果應(yīng)該滿足如下的關(guān)系：

$y^{(i)}=w^{T}x^{i}+\varepsilon ^{(i)}$
??上式中 $y^{(i)}$ 是實際值， $w^{T}x^{i}$ 是模型的輸出值也就是預(yù)測值， $\varepsilon ^{(i)}$ 是二者之間的誤差。
??在理想情況下，或者說我們想讓誤差最好最好滿足獨立同分布的，也就是說每一條數(shù)據(jù)的誤差相互之間沒有影響而且他們都滿足相同的分布。通常情況下，誤差應(yīng)該滿足高斯分布（正態(tài)分布）如圖3，即誤差大的數(shù)據(jù)很少，誤差都集中在某一個值的附近。那么理想情況下我們希望誤差都集中在0的附近，而且數(shù)據(jù)點在模型產(chǎn)生的線兩側(cè)均勻的分布。那么就是希望誤差滿足均值為0，標準差為1的標準正態(tài)分布。

3.jpg

??則誤差

w^{T}x^{i}

的概率分布密度函數(shù)可以寫作：

p(\varepsilon ^{(i)})=\frac{1}{\sqrt{2 \pi}}exp(-\frac{\varepsilon ^{(i)}}{\sqrt{2}})^{2}

即：

p(y^{(i)}|x^{(i)};w)=\frac{1}{\sqrt{2\pi }}exp(-(\frac{\varepsilon ^{(i)}}{\sqrt{}2})^{2})=\frac{1}{\sqrt{2\pi }}exp(-(\frac{y^{(i)}-w^{T}x^{(i)}}{\sqrt{2}})^{2})

??上式可以理解為一個關(guān)于“

x^{(i)}

”對應(yīng)下的“

y^{(i)}

”與權(quán)重“

w

”的函數(shù)。因為已知

x^{(i)}

與

y^{(i)}

，所以上式可以看作是一個關(guān)于參數(shù)

w

的函數(shù)，即是一個似然函數(shù)。求上式的極大值也意味著求一個合適的

w

，是

w^{T}x^{i}=y^{(i)}

的概率最大，也就是求上式極大似然估計。
??則極大似然函數(shù)為：

L(w)=\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};w)

L(w)=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi }}exp(-(\frac{y^{(i)}-w^{T}x^{(i)}}{\sqrt{2}})^{2})

??轉(zhuǎn)化為對數(shù)似然函數(shù)：

log(L(w))=log(\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}}exp(-(\frac{y^{(i)}-w^{T}x^{(i)}}{\sqrt{2}})^{2}))

log(L(w))=\sum_{i=1}^{m}log(\frac{1}{\sqrt{2\pi}}exp(-(\frac{y^{(i)}-w^{T}x^{(i)}}{\sqrt{2}})^{2}))

log(L(w))=mlog(\frac{1}{\sqrt{2\pi}})-\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-w^{T}x^{(i)})^{2}

??其中

mlog(\frac{1}{\sqrt{2\pi}})

是常量，求上式關(guān)于

w

的最大值，相當于求下面式

J(w)

的最小值。式

J(w)

與上式的后面的減數(shù)等價，相當于上式的減數(shù)去負再除

m

，只有這樣

J(w)

才有實際的意義，即表示模型的平均誤差的平方。

J(w)=\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-w^{T}x^{(i)})^{2}

??上式中的

J(w)

也就是線性回歸的懲罰函數(shù)（或目標函數(shù)）。求目標函數(shù)的取極小值時對應(yīng)的

w

即是我們需要的解。下面分別用矩陣的方法和梯度下降的方法對其進行化簡。

矩陣化簡求解

$J(w)=\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-w^{T}x^{(i)})^{2}$ ??可以用矩陣的方式表達如下：
$\begin{align*} J(w) &= \frac{1}{2}(xw-y)^{T}(xw-y) \\ &= \frac{1}{2}(w^{T}x^{T}-y^{T})(xw-y) \\ &= \frac{1}{2}(w^{T}x^{T}xw-w^{T}x^{T}y-y^{T}xw+y^{T}y) \end{align*}$

??對上式取 $w$ 的偏導(dǎo)：
$\begin{align*} \frac{\partial J(w)}{\partial w}&= \frac{1}{2}(\frac{\partial (w^{T}x^{T}xw)}{\partial w}-\frac{\partial (w^{T}x^{T}y)}{\partial w}-\frac{\partial (y^{T}xw)}{\partial w}+\frac{\partial (y^{T}y)}{\partial w}) \end{align*}$
??在我之前的文章《機器學(xué)習(xí)——常見的矩陣求導(dǎo)公式》中對矩陣的導(dǎo)數(shù)進行了總結(jié)，根據(jù)文章中的公式7（ $x$ 可看作列向量，那么 $x^{^{T}}x$ 是一個常數(shù)）可得： $\frac{\partial w^{T}x^{T}xw}{\partial w}=2x^{T}xw$
??則上式可得： $\frac{\partial J(w)}{\partial w}=\frac{1}{2}(2x^{T}xw-x^{T}y-y^{T}x)$
??因為 $x^{T}y=y^{T}x$ 所以上式可得： $\frac{\partial J(w)}{\partial w}=x^{T}xw-x^{T}y$