最小二乘法Least Squares

1. 核心思想

最小二乘法是勒讓德( A. M. Legendre)于1805年在其著作《計算慧星軌道的新方法》中提出的。其核心的思想就是說求解未知參數(shù),使得理論值與觀測值之差(誤差,或者說殘差)的平方和(一般叫做損失函數(shù))達到最小:

最小二乘法的損失函數(shù)

其中 y_i 就是我們的觀測樣本,\hat y 就是我們的理論值(也叫你和函數(shù)),目標函數(shù)就是我們說的損失函數(shù) E ,我們的目標就是得到使得 E 最小時候的參數(shù)取值。

所謂最小二乘,其實也可以叫做最小平方和,其目的就是通過最小化誤差的平方和,使得擬合對象無限接近目標對象。換句話說,最小二乘法可以用于對函數(shù)的擬合。

2. 通用解法

  • 列出損失函數(shù)E,樣本值用 x_i 來表示
  • 求損失函數(shù)關(guān)于參數(shù)的導(dǎo)數(shù),使導(dǎo)數(shù)為0,代表損失函數(shù)最小
  • 此時的參數(shù)即為我們所求解得未知參數(shù)

3. 對真值的估計

這里看一個例子理解一下上面所說的1/2兩點。
我們用最小二乘法來解釋 為什么多次測量取平均值的結(jié)果就接近于真值,比如說我們測身高時候取三次平均。
我們對某個未知量 θ 觀測 m 次,記錄每次結(jié)果為 x_i。則寫出其損失函數(shù) E
E= \sum_{i=1}^m e_i^2= \sum_{i=1}^m(x_i-a)^2
其中 a 是未知量的真實值。根據(jù)上面的計算過程,我們令導(dǎo)數(shù)為0,可得:
\sum_{i=1}^m-(x_i-a)=0
最終解得:\theta=a={{\sum x_i} \over m}
即多次的算術(shù)平均就是真實值。

4. 多元線性回歸

上面我們提到了,求導(dǎo)計算是最通用的解法,但實際上,矩陣法要比代數(shù)法簡單很多。而且,矩陣法可以取代循環(huán),所以現(xiàn)在很多書和機器學(xué)習庫都是用矩陣法來做最小二乘。
對于函數(shù) h_\theta(x_1,x_2,...,x_n)=\theta_0+\theta_1x_1+...+\theta_nx_n,我們將其矩陣形式計為:

多元線性函數(shù)的矩陣形式

損失函數(shù)定義為:(1/2系數(shù)是為了簡化運算的)

矩陣跡計算公式:

令上式為0,求解可得
\theta = (X^TX)^{-1}X^TY

這里所謂的跡計算公式我不太懂,不過知道是這樣來的就行了。

5. 最小二乘法的適用場景

這里需要考慮一下樣本數(shù)量 m 和特征數(shù)量 n 之間的大小關(guān)系。如果 m<n,則上一小節(jié)中解得的 X^TX矩陣的逆是不存在的,這時候需要做正則化(這一部分和西瓜書對應(yīng)的部分是一致的)。m=n,直接解方程組即可。m>n,這時候用最小二乘法。

局限性

  • 第一,最小二乘法需要計算 (XTX) 逆矩陣,有可能逆矩陣不存在,這樣就沒有辦法直接用最小二乘法。
  • 第二,當樣本特征n非常的大的時候,計算逆矩陣是一個非常耗時的工作,甚至不可行。建議不超過10000個特征。
  • 第三,如果擬合函數(shù)不是線性的,這時無法使用最小二乘法,需要通過一些技巧轉(zhuǎn)化為線性才能使用。

6. 總結(jié)

最小二乘法用最小化損失函數(shù)的方法,來擬合線性函數(shù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容