機器學(xué)習(xí)——線性回歸(一)矩陣求解

什么是線性回歸

??相對于其他算法來說線性回歸的原理相對簡單,而且它的表現(xiàn)形式與我們數(shù)學(xué)中的線性方程較為相似,更加利于大家所理解。所以線性回歸一般會作為機器學(xué)習(xí)愛好者學(xué)習(xí)機器學(xué)習(xí)時要學(xué)的第一個算法。

??線性回歸直白的理解就是尋找?guī)讉€自變量(x_{1},x_{2},\cdots,x_{n})與因變量(y)之間的線性關(guān)系,之所以稱之為“線性”是因為自變量都是一次冪的形式?jīng)]有出現(xiàn)二次或更高形式的自變量。

??比如下面的例子:
圖1

??上圖所示是身高與體重的關(guān)系(體重很可能與身高有關(guān)系,自變量有一個:身高,因變量是體重),很明顯身高與體重可能存在圖中直線所示的關(guān)系。像這種關(guān)系便可以應(yīng)線性回歸進行分析。

??再例如:
圖2

一個人的可貸款金額可能與 他的住房面積和工資等因素有關(guān)系(房屋面積與工資這兩個因素共同決定了貸款金額,自變量有兩個房屋面積、工資,可貸款金額是因變量),通過圖中的數(shù)據(jù)尋找工資、住房面積與可貸款金額之間的關(guān)系便可認為是一個線性回歸問題。

??線性回歸有一個特別需要注意的特點就是它研究的是連續(xù)的自變量與連續(xù)的因變量之間的關(guān)系,這個要與邏輯回歸相區(qū)別。就像上兩個例子中所示的住房面積和工資都是可以連續(xù)連續(xù)變化的,可能取到任何現(xiàn)實中合理的值,而相對應(yīng)的貸款金額也會連續(xù)的變化;身高、體重同樣也是連續(xù)的。邏輯回歸中的h(x)是非連續(xù)的,其只有兩個取值的可能。這也是一個問題選擇邏輯回歸還是線性回歸進行分析的重要的條件。

線性回歸模型

??回歸分析可以相對簡單的理解成如下的形式:
h_{w}(x)=w _{0}+w _{1}x_{1}+w _{2}x_{2}+w _{3}x_{3}+\cdots +w _{n}x_{n}=\sum_{i=0}^{n}w _{i}x_{i}
??其中w _{0},w _{1},w _{2},\cdots,w _{n}為自變量(因子)對于因變量y的權(quán)重。在線性代數(shù)中,其也可寫成如下的形式:
\begin{bmatrix} w_{0} & w_{1} & w_{2} & \cdots & w_{n} \end{bmatrix}\begin{bmatrix} 1\\ x_{1}\\ x_{2}\\ \vdots \\ x_{n}\end{bmatrix}=w^{T}x=h_{w}(x)
??有了上述的模型,我們的目的是找到或求出權(quán)重w_{0},w_{1},w_{2},\cdots,w_{n}的值,以便找到x_{1},x_{2},\cdots,x_{n}h(x)之間的映射(函數(shù))關(guān)系。從圖1中我們可以看出,一般情況下自變量與因變量不太可能滿足一個嚴格的線性關(guān)系。比較理想的情況是數(shù)據(jù)點都比較均勻的分布在直線的兩側(cè),也就是誤差比較小。我們的目標便是找到一組w_{0},w_{1},w_{2},\cdots,w_{n}使模型與實際的誤差最小。

??線性回歸得出的結(jié)果與實際的結(jié)果應(yīng)該滿足如下的關(guān)系:

y^{(i)}=w^{T}x^{i}+\varepsilon ^{(i)}
??上式中y^{(i)}是實際值,w^{T}x^{i}是模型的輸出值也就是預(yù)測值,\varepsilon ^{(i)}是二者之間的誤差。
??在理想情況下,或者說我們想讓誤差最好最好滿足獨立同分布的,也就是說每一條數(shù)據(jù)的誤差相互之間沒有影響而且他們都滿足相同的分布。通常情況下,誤差應(yīng)該滿足高斯分布(正態(tài)分布)如圖3,即誤差大的數(shù)據(jù)很少,誤差都集中在某一個值的附近。那么理想情況下我們希望誤差都集中在0的附近,而且數(shù)據(jù)點在模型產(chǎn)生的線兩側(cè)均勻的分布。那么就是希望誤差滿足均值為0,標準差為1的標準正態(tài)分布。

3.jpg

??則誤差
w^{T}x^{i}
的概率分布密度函數(shù)可以寫作:
p(\varepsilon ^{(i)})=\frac{1}{\sqrt{2 \pi}}exp(-\frac{\varepsilon ^{(i)}}{\sqrt{2}})^{2}

即:
p(y^{(i)}|x^{(i)};w)=\frac{1}{\sqrt{2\pi }}exp(-(\frac{\varepsilon ^{(i)}}{\sqrt{}2})^{2})=\frac{1}{\sqrt{2\pi }}exp(-(\frac{y^{(i)}-w^{T}x^{(i)}}{\sqrt{2}})^{2})

??上式可以理解為一個關(guān)于“
x^{(i)}
”對應(yīng)下的“
y^{(i)}
”與權(quán)重“
w
”的函數(shù)。因為已知
x^{(i)}
y^{(i)}
,所以上式可以看作是一個關(guān)于參數(shù)
w
的函數(shù),即是一個似然函數(shù)。求上式的極大值也意味著求一個合適的
w
,是
w^{T}x^{i}=y^{(i)}
的概率最大,也就是求上式極大似然估計。
??則極大似然函數(shù)為:
L(w)=\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};w)

L(w)=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi }}exp(-(\frac{y^{(i)}-w^{T}x^{(i)}}{\sqrt{2}})^{2})

??轉(zhuǎn)化為對數(shù)似然函數(shù):
log(L(w))=log(\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}}exp(-(\frac{y^{(i)}-w^{T}x^{(i)}}{\sqrt{2}})^{2}))

log(L(w))=\sum_{i=1}^{m}log(\frac{1}{\sqrt{2\pi}}exp(-(\frac{y^{(i)}-w^{T}x^{(i)}}{\sqrt{2}})^{2}))

log(L(w))=mlog(\frac{1}{\sqrt{2\pi}})-\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-w^{T}x^{(i)})^{2}

??其中
mlog(\frac{1}{\sqrt{2\pi}})
是常量,求上式關(guān)于
w
的最大值,相當于求下面式
J(w)
的最小值。式
J(w)
與上式的后面的減數(shù)等價,相當于上式的減數(shù)去負再除
m
,只有這樣
J(w)
才有實際的意義,即表示模型的平均誤差的平方。
J(w)=\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-w^{T}x^{(i)})^{2}

??上式中的
J(w)
也就是線性回歸的懲罰函數(shù)(或目標函數(shù))。求目標函數(shù)的取極小值時對應(yīng)的
w
即是我們需要的解。下面分別用矩陣的方法和梯度下降的方法對其進行化簡。

矩陣化簡求解

J(w)=\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-w^{T}x^{(i)})^{2}??可以用矩陣的方式表達如下:
\begin{align*} J(w) &= \frac{1}{2}(xw-y)^{T}(xw-y) \\ &= \frac{1}{2}(w^{T}x^{T}-y^{T})(xw-y) \\ &= \frac{1}{2}(w^{T}x^{T}xw-w^{T}x^{T}y-y^{T}xw+y^{T}y) \end{align*}

??對上式取w的偏導(dǎo):
\begin{align*} \frac{\partial J(w)}{\partial w}&= \frac{1}{2}(\frac{\partial (w^{T}x^{T}xw)}{\partial w}-\frac{\partial (w^{T}x^{T}y)}{\partial w}-\frac{\partial (y^{T}xw)}{\partial w}+\frac{\partial (y^{T}y)}{\partial w}) \end{align*}
??在我之前的文章《機器學(xué)習(xí)——常見的矩陣求導(dǎo)公式》中對矩陣的導(dǎo)數(shù)進行了總結(jié),根據(jù)文章中的公式7(x可看作列向量,那么x^{^{T}}x是一個常數(shù))可得:\frac{\partial w^{T}x^{T}xw}{\partial w}=2x^{T}xw
??則上式可得:\frac{\partial J(w)}{\partial w}=\frac{1}{2}(2x^{T}xw-x^{T}y-y^{T}x)
??因為x^{T}y=y^{T}x所以上式可得:\frac{\partial J(w)}{\partial w}=x^{T}xw-x^{T}y

??令\frac{\partial J(w)}{\partial w}=0解得:w=(x^{T}x)^{-1}x^{T}y

??上面利用矩陣運算解得最佳的w,接下來將用梯度下降方法求解最佳w,并對結(jié)果進行分析。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容