1. 核心思想
最小二乘法是勒讓德( A. M. Legendre)于1805年在其著作《計算慧星軌道的新方法》中提出的。其核心的思想就是說求解未知參數(shù),使得理論值與觀測值之差(誤差,或者說殘差)的平方和(一般叫做損失函數(shù))達到最小:

最小二乘法的損失函數(shù)
其中 y_i 就是我們的觀測樣本,\hat y 就是我們的理論值(也叫你和函數(shù)),目標函數(shù)就是我們說的損失函數(shù) E ,我們的目標就是得到使得 E 最小時候的參數(shù)取值。
所謂最小二乘,其實也可以叫做最小平方和,其目的就是通過最小化誤差的平方和,使得擬合對象無限接近目標對象。換句話說,最小二乘法可以用于對函數(shù)的擬合。
2. 通用解法
- 列出損失函數(shù)E,樣本值用 x_i 來表示
- 求損失函數(shù)關(guān)于參數(shù)的導(dǎo)數(shù),使導(dǎo)數(shù)為0,代表損失函數(shù)最小
- 此時的參數(shù)即為我們所求解得未知參數(shù)
3. 對真值的估計
這里看一個例子理解一下上面所說的1/2兩點。
我們用最小二乘法來解釋 為什么多次測量取平均值的結(jié)果就接近于真值,比如說我們測身高時候取三次平均。
我們對某個未知量 θ 觀測 m 次,記錄每次結(jié)果為 x_i。則寫出其損失函數(shù) E:
其中 a 是未知量的真實值。根據(jù)上面的計算過程,我們令導(dǎo)數(shù)為0,可得:
最終解得:
即多次的算術(shù)平均就是真實值。
4. 多元線性回歸
上面我們提到了,求導(dǎo)計算是最通用的解法,但實際上,矩陣法要比代數(shù)法簡單很多。而且,矩陣法可以取代循環(huán),所以現(xiàn)在很多書和機器學(xué)習庫都是用矩陣法來做最小二乘。
對于函數(shù) ,我們將其矩陣形式計為:

多元線性函數(shù)的矩陣形式
損失函數(shù)定義為:(1/2系數(shù)是為了簡化運算的)

矩陣跡計算公式:

令上式為0,求解可得
這里所謂的跡計算公式我不太懂,不過知道是這樣來的就行了。
5. 最小二乘法的適用場景
這里需要考慮一下樣本數(shù)量 m 和特征數(shù)量 n 之間的大小關(guān)系。如果 m<n,則上一小節(jié)中解得的 矩陣的逆是不存在的,這時候需要做正則化(這一部分和西瓜書對應(yīng)的部分是一致的)。m=n,直接解方程組即可。m>n,這時候用最小二乘法。
局限性
- 第一,最小二乘法需要計算 (XTX) 逆矩陣,有可能逆矩陣不存在,這樣就沒有辦法直接用最小二乘法。
- 第二,當樣本特征n非常的大的時候,計算逆矩陣是一個非常耗時的工作,甚至不可行。建議不超過10000個特征。
- 第三,如果擬合函數(shù)不是線性的,這時無法使用最小二乘法,需要通過一些技巧轉(zhuǎn)化為線性才能使用。
6. 總結(jié)
最小二乘法用最小化損失函數(shù)的方法,來擬合線性函數(shù)。