線性回歸+梯度下降

例子:
假設存在以下數(shù)據(jù)
工資 年齡 額度
4000 25 20000
8000 30 70000
5000 28 35000
7500 33 50000
12000 40 85000
上表中,將工資{x_1}和年齡{x_2}看作兩個特征,將額度看作標簽,現(xiàn)在需要計算出工資和年齡分別對貸款額度產(chǎn)生多大的影響(參數(shù))
首先,給出預測值的擬合公式
{h_\theta }(x) = {\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2}{\rm{ = }}\sum\limits_{i = 0}^2 {{\theta _i}{x_i}} = {{\bf{\theta }}^{\bf{T}}}{\bf{X}}
但是,一般來說,預測值和真實值之間存在差異,為了將差異考慮進來。對于第i個樣本,通常有如下式子成立
{y^{(i)}} = {{\bf{\theta }}^{\bf{T}}}{{\bf{X}}^{(i)}} + {\varepsilon ^{(i)}}
其中,{\varepsilon ^{(i)}}被稱為誤差項,每個樣本的誤差項獨立且服從相同的分布(均值為0,方差為{\sigma ^2}的正態(tài)分布),所以有以下式子成立
f({\varepsilon ^{(i)}}) = \frac{1}{{\sqrt {2\pi } \sigma }}\exp ( - {({\varepsilon ^{(i)}})^2}/2{\sigma ^2})

f({y^{(i)}}|{{\bf{X}}^{(i)}};{\bf{\theta }}) = \frac{1}{{\sqrt {2\pi } \sigma }}\exp ( - {({y^{(i)}} - {{\bf{\theta }}^{\bf{T}}}{{\bf{X}}^{(i)}})^2}/2{\sigma ^2})
下面需要說的是怎么估計出參數(shù){\bf{\theta }}最合理的值
第一步,引入似然函數(shù)【用數(shù)據(jù)推參數(shù),計算出參數(shù)值是多少時與我們的數(shù)據(jù){\bf{X}}結合恰好為真實值y,主要目標是使得得到的數(shù)據(jù)為真實值的可能性越大越好】。對于同一個似然函數(shù),如果存在一個參數(shù)值,使得它的函數(shù)達到最大的話,這個值就是最為合理的參數(shù)值,在已知觀測數(shù)據(jù)的情況下,參數(shù){\bf{\theta }}的似然函數(shù)為,懶得轉latex了直接截圖了

image.png

第二步,取對數(shù)似然,直接算乘積不好算,用對數(shù)的話可以分解成加法
image.png

為了使似然函數(shù)達到最大,必須使
image.png
達到最小,因此令
image.png

上式實際就是殘差平方和的一半,求該式的最小值就是求使得殘差平方和最小的參數(shù)值,即最小二乘估計
第三步,求導
首先把上式展開
image.png

此處涉及到矩陣求導的問題,常用的矩陣求導公式如下
image.png

求導如下
image.png

令導數(shù)等于0,得到
image.png

此外,可用以下指標來評估模型預測性能
image.png

當殘差平方和越小,上述指標越大【越接近1】,預測性能越好。
但是并不是所有的數(shù)據(jù)都恰好能用這種方法求解出參數(shù),線性回歸只能當做一個特例,下面引入梯度下降方法,
假設現(xiàn)在的目標函數(shù)是
image.png

其中現(xiàn)在需要找到上述目標函數(shù)的最小值,利用梯度下降來實現(xiàn),首先,需要找到偏導的方向(梯度上升),求偏導【存在多個參數(shù)的情況下,參數(shù)各自求偏導,各自優(yōu)化】
image.png

1)批量梯度下降
image.png

這種方法容易得到最優(yōu)解(過度收斂),但是由于每次都考慮所有樣本,迭代速度會非常慢
2)隨機梯度下降
image.png

這種方法每次只隨機使用一個樣本,迭代速度快,但是不一定每次都朝著收斂的方向(比如離群點,收斂過程不穩(wěn)定)
3)小批量梯度下降
image.png

其中表示學習率(步長),一般較小。這種方法每次采用部分樣本,避免了采用全部樣本的耗時慢和一個樣本的收斂結果不穩(wěn)定問題。在迭代過程中,學習率可以改變,比如第1-10000次迭代,學習率設為0.01(稍大),10001-20000次迭代中,學習率設為0.005,20001-100000次迭代中,學習率設為0.001,即在離最低點比較遠的時候,可以設定稍大的步長,越靠近最低點,步長越小,越要一步步走,避免錯失合理的參數(shù)值。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容