向量和矩陣求導

向量、矩陣求導其實就兩個內容

  1. 分子每個元素對分母每個元素求導
  2. 將結果以一定方式布局

對于 1,沒什么特別的,就是標量之間的求導。

對于 2,我們需要分情況討論。

求導布局

求導結果的布局根據定義不同有所不同,沒有統(tǒng)一。所以經常在不同的書上看到不一樣的公式,使人產生困惑。

常見的求導類型如下:

分母 \ 分子 標量 向量 矩陣
標量 \frac{\partial y}{ \partial x} \frac{ \partial \boldsymbol{y} }{ \partial x } \frac{\partial \boldsymbol{Y}}{\partial x}
向量 \frac{\partial y}{ \partial \boldsymbol{x}} \frac{\partial \boldsymbol{y} }{ \partial \boldsymbol{x}} /
矩陣 \frac{ \partial y }{ \partial \boldsymbol{X} } / /

我們劃掉的類型是因為其結果無法在二維矩陣中很好地表示,在優(yōu)化問題中也不常見。

未劃掉的類型中,唯一布局有歧義的就是向量對向量的求導:\frac{ \partial \boldsymbol{y} }{ \partial \boldsymbol{x} }

向量對向量求導

歧義在于,假設 \boldsymbol{y} 是一個 m 維向量,\boldsymbol{x} 是一個 n 維向量,那求導結果是一個 m \times n 矩陣還是 n \times m 矩陣呢?

  • 分子布局,即以分子 \boldsymbol{y} 的元素數(shù)作為行數(shù)。結果是一個 m \times n 矩陣,也稱為雅可比(Jacobian)矩陣。

\frac{ \partial \boldsymbol{ y } }{ \partial \boldsymbol{ x } } = \begin{bmatrix} \frac{ \partial {y_1} }{ \partial {x_1} } & \frac{\partial {y_1} }{\partial {x_2} } & \cdots &\frac{\partial {y_1} }{\partial {x_n} } \\ \frac{\partial {y_2} }{\partial {x_1} } & \frac{\partial {y_2} }{\partial {x_2} } & \cdots &\frac{\partial {y_2} }{\partial {x_n} } \\ \vdots & \vdots & & \vdots \\ \frac{\partial {y_m} }{\partial {x_1} } & \frac{\partial {y_m} }{\partial {x_2} } & \cdots &\frac{\partial {y_m} }{\partial {x_n} } \\ \end{bmatrix}_{m \times n}

  • 分母布局,即以分母 \boldsymbol{x} 的元素數(shù)作為行數(shù)。結果是一個 n \times m 矩陣,也稱為梯度(Gradient)矩陣。

\frac{\partial \boldsymbol{ y }}{\partial \boldsymbol{ x } } = \begin{bmatrix} \frac{\partial {y_1} }{\partial {x_1} } & \frac{\partial {y_2} }{\partial {x_1} } & \cdots &\frac{\partial {y_m} }{\partial {x_1} } \\ \frac{\partial {y_1} }{\partial {x_2} } & \frac{\partial {y_2} }{\partial {x_2} } & \cdots &\frac{\partial {y_m } }{\partial {x_2} } \\ \vdots & \vdots & & \vdots \\ \frac{\partial {y_1} }{\partial {x_n} } & \frac{\partial {y_2} }{\partial {x_n} } & \cdots &\frac{\partial {y_m} }{\partial {x_n} } \\ \end{bmatrix}_{n \times m}

兩種布局均可,在一本書中一般是一致的。

標量對向量求導

標量常見的有以下幾種形式:

  1. a^T x
  2. x^T a
  3. x^T A x

從定義上看,1 和 2 類似:

首先定義:

S = a^T x = x^T a = \sum_{i=1}^n a_ix_i
得出:
\frac{\partial S}{\partial x_i} = a_i
因此:
\frac{\partial a^Tx}{\partial x} = \frac{\partial x^Ta}{\partial x} = [ \frac{\partial S}{\partial x_1}, \frac{\partial S}{\partial x_2}, \cdots, \frac{\partial S}{\partial x_n}]^T = a

3 稍微復雜:
S = \sum_{i=1}^n \sum_{j=1}^n x_iA_{i,j}x_j

\frac{\partial S}{\partial x_k} = \sum_{j=1}^n A_{k,j}x_j + \sum_{i=1}^n x_iA_{i,k} = (A_{k,i} + A_{i,k})x_i

即求導后向量的第 k 個元素是 A 的第 k 行與 x 的內積 + 第 k 列與 x 的內積。這其實就是矩陣與向量乘法的定義。

\frac{\partial x^TAx}{\partial x} = [ \frac{\partial S}{\partial x_1}, \frac{\partial S}{\partial x_2}, \cdots, \frac{\partial S}{\partial x_n}]^T = Ax + A^Tx

例:最小二乘法

最小二乘法是最流行的線性模型擬合方法。它的目的是找出系數(shù) \boldsymbol{\beta} 使 ||Y-\hat Y||_2 (residual sum of squares, RSS)最?。?/p>

\text{RSS}(\boldsymbol{\beta} ) = \sum_{j=1}^N (y_j - X_j^T\boldsymbol{\beta} )^2

其中 j 代表訓練數(shù)據的序號。一共有 N 組訓練數(shù)據。
用矩陣形式表示為:

\text{RSS}(\boldsymbol{\beta}) = (\boldsymbol{y} - \boldsymbol{X}\boldsymbol{\beta} )^T(\boldsymbol{y} - \boldsymbol{X}\boldsymbol{\beta} )

這里需要用 \text{RSS}(\boldsymbol{\beta})\boldsymbol{\beta} 求導,得出二次函數(shù)最值點。

\text{RSS}(\boldsymbol{\beta}) = \boldsymbol{y}^T\boldsymbol{y} -\boldsymbol{y}^T \boldsymbol{X} \boldsymbol{\beta} - \boldsymbol{\beta}^T \boldsymbol{X}^T \boldsymbol{y} + \boldsymbol{\beta}^T \boldsymbol{X}^T \boldsymbol{X}\boldsymbol{\beta}

套用上面的結論,可以得到:

\frac{ \partial \text{RSS}(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = - 2\boldsymbol{X}^T\boldsymbol{y} + 2\boldsymbol{X}^T\boldsymbol{X}\boldsymbol{\beta}

令其為 0 可以解出:

\hat{\boldsymbol{\beta}} = (\boldsymbol{X}^T \boldsymbol{X})^{-1} \boldsymbol{X}^T \boldsymbol{y}

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 本文整理自李建平機器學習中的矩陣向量求導系列和長軀鬼俠的矩陣求導術。 1. 符號說明 默認符號: :標量 : ...
    qzlydao閱讀 3,898評論 0 0
  • 對一個數(shù)求導大家都比較熟悉,那么對向量求導呢?看如下的例子:假設有矩陣和向量: 很容易求出, 現(xiàn)在令,則向量對向量...
    Jarkata閱讀 4,427評論 0 2
  • title: 閑話矩陣求導原始文件沒有辦法把latex公式正常顯示,所以一個一個弄出來了,保留了原來的公式。原始文...
    kylinxue閱讀 20,435評論 3 21
  • 【注】參考邱錫鵬《神經網絡與深度學習》。 1. 簡介 在數(shù)學中, 矩陣微積分是多元微積分的一種特殊表達,尤其是在矩...
    BlueHeart0621閱讀 1,891評論 0 2
  • old Table of Contents 1. 布局(Layout) 2. 基本的求導規(guī)則(定義) 3. 維度分...
    場景為王閱讀 6,092評論 2 1

友情鏈接更多精彩內容