向量、矩陣求導其實就兩個內容
- 分子每個元素對分母每個元素求導
- 將結果以一定方式布局
對于 1,沒什么特別的,就是標量之間的求導。
對于 2,我們需要分情況討論。
求導布局
求導結果的布局根據定義不同有所不同,沒有統(tǒng)一。所以經常在不同的書上看到不一樣的公式,使人產生困惑。
常見的求導類型如下:
| 分母 \ 分子 | 標量 | 向量 | 矩陣 |
|---|---|---|---|
| 標量 | |||
| 向量 | / | ||
| 矩陣 | / | / |
我們劃掉的類型是因為其結果無法在二維矩陣中很好地表示,在優(yōu)化問題中也不常見。
未劃掉的類型中,唯一布局有歧義的就是向量對向量的求導:
向量對向量求導
歧義在于,假設 是一個
維向量,
是一個
維向量,那求導結果是一個
矩陣還是
矩陣呢?
- 分子布局,即以分子
的元素數(shù)作為行數(shù)。結果是一個
矩陣,也稱為雅可比(Jacobian)矩陣。
- 分母布局,即以分母
的元素數(shù)作為行數(shù)。結果是一個
矩陣,也稱為梯度(Gradient)矩陣。
兩種布局均可,在一本書中一般是一致的。
標量對向量求導
標量常見的有以下幾種形式:
從定義上看,1 和 2 類似:
首先定義:
得出:
因此:
3 稍微復雜:
即求導后向量的第 k 個元素是 A 的第 k 行與 x 的內積 + 第 k 列與 x 的內積。這其實就是矩陣與向量乘法的定義。
例:最小二乘法
最小二乘法是最流行的線性模型擬合方法。它的目的是找出系數(shù) 使
(residual sum of squares, RSS)最?。?/p>
其中 代表訓練數(shù)據的序號。一共有
組訓練數(shù)據。
用矩陣形式表示為:
這里需要用 對
求導,得出二次函數(shù)最值點。
套用上面的結論,可以得到:
令其為 0 可以解出: