在線性回歸(Linear Regression)問題中,我們可以通過梯度下降(Gradient Descent)來求解到最優(yōu)參數(shù)。使用正規(guī)方程(Normal Equation)同樣可以達到這一目的,正規(guī)方程不依靠迭代,可以一次性精準的求解最優(yōu)參數(shù)。此文章證明過程參考自吳恩達斯坦福CSS229課程講義note1。
1. 代價函數(shù)(Cost Function)
代價函數(shù)的向量形式
-
為輸入特征(feature)
-
為參數(shù)
-
為訓練數(shù)據(jù)真實值
2. 關于矩陣求導的基本公式
源自note1第9頁
由上式1與3可推導出
3. 證明
- 對代價函數(shù)求關于
的導數(shù)
- 展開
- 由一個實數(shù)的跡是它本身,可得
- 由于對
求關于
的導數(shù)為0,及基本公式1,可得
- 將
,結合基本公式5可得
- 令
即可得到正規(guī)方程
最后兩邊左乘得
證明完成
4. 正規(guī)方程與梯度下降的對比
| 梯度下降 | 正規(guī)方程 |
|---|---|
| 需要選擇超參數(shù)a | 無超參數(shù)選擇 |
| 多次迭代 | 一次求解 |
| 特征數(shù)比較大時,算法無太大影響 | 特征數(shù)大,算法運行時間長 |