例子:
假設存在以下數(shù)據(jù)
工資 年齡 額度
4000 25 20000
8000 30 70000
5000 28 35000
7500 33 50000
12000 40 85000
上表中,將工資和年齡
看作兩個特征,將額度看作標簽,現(xiàn)在需要計算出工資和年齡分別對貸款額度產(chǎn)生多大的影響(參數(shù))
首先,給出預測值的擬合公式
但是,一般來說,預測值和真實值之間存在差異,為了將差異考慮進來。對于第個樣本,通常有如下式子成立
其中,被稱為誤差項,每個樣本的誤差項獨立且服從相同的分布(均值為0,方差為
的正態(tài)分布),所以有以下式子成立
得
下面需要說的是怎么估計出參數(shù)最合理的值
第一步,引入似然函數(shù)【用數(shù)據(jù)推參數(shù),計算出參數(shù)值是多少時與我們的數(shù)據(jù)結合恰好為真實值
,主要目標是使得得到的數(shù)據(jù)為真實值的可能性越大越好】。對于同一個似然函數(shù),如果存在一個參數(shù)值,使得它的函數(shù)達到最大的話,這個值就是最為合理的參數(shù)值,在已知觀測數(shù)據(jù)的情況下,參數(shù)
的似然函數(shù)為,懶得轉latex了直接截圖了

image.png
第二步,取對數(shù)似然,直接算乘積不好算,用對數(shù)的話可以分解成加法

image.png
為了使似然函數(shù)達到最大,必須使

image.png

image.png
上式實際就是殘差平方和的一半,求該式的最小值就是求使得殘差平方和最小的參數(shù)值,即最小二乘估計
第三步,求導
首先把上式展開

image.png
此處涉及到矩陣求導的問題,常用的矩陣求導公式如下

image.png
求導如下

image.png
令導數(shù)等于0,得到

image.png
此外,可用以下指標來評估模型預測性能

image.png
當殘差平方和越小,上述指標越大【越接近1】,預測性能越好。
但是并不是所有的數(shù)據(jù)都恰好能用這種方法求解出參數(shù),線性回歸只能當做一個特例,下面引入梯度下降方法,
假設現(xiàn)在的目標函數(shù)是

image.png
其中現(xiàn)在需要找到上述目標函數(shù)的最小值,利用梯度下降來實現(xiàn),首先,需要找到偏導的方向(梯度上升),求偏導【存在多個參數(shù)的情況下,參數(shù)各自求偏導,各自優(yōu)化】

image.png
1)批量梯度下降

image.png
這種方法容易得到最優(yōu)解(過度收斂),但是由于每次都考慮所有樣本,迭代速度會非常慢
2)隨機梯度下降

image.png
這種方法每次只隨機使用一個樣本,迭代速度快,但是不一定每次都朝著收斂的方向(比如離群點,收斂過程不穩(wěn)定)
3)小批量梯度下降

image.png
其中表示學習率(步長),一般較小。這種方法每次采用部分樣本,避免了采用全部樣本的耗時慢和一個樣本的收斂結果不穩(wěn)定問題。在迭代過程中,學習率可以改變,比如第1-10000次迭代,學習率設為0.01(稍大),10001-20000次迭代中,學習率設為0.005,20001-100000次迭代中,學習率設為0.001,即在離最低點比較遠的時候,可以設定稍大的步長,越靠近最低點,步長越小,越要一步步走,避免錯失合理的參數(shù)值。