矩陣求導(dǎo)與最小二乘法

一、矩陣求導(dǎo)

  1. 矩陣求導(dǎo)就是對(duì)內(nèi)部每一項(xiàng)求導(dǎo)
    F \in R^{a*b}, X \in R^{m*n}
    \frac{\partial{F}}{\partial{X}} = \left[\frac{\partial{F}}{\partial{x_{ij}}}\right]_{m*n} , \frac{\partial{F}}{\partial{x}} = \left[\frac{\partial{f_{ij}}}{\partial{x}}\right]_{a*b}

  2. 矩陣的跡有如下性質(zhì):

    • tr(AB)=tr(BA)
    • tr(A^T)=tr(A)

因而可推出如下性質(zhì):設(shè)x=(x_{ij})_{m*1}

  1. \frac{\partial{x^TA}}{\partial{x}} = A
  2. \frac{\partial{tr(AB)}}{\partial{A}} = B^T
  3. \frac{\partial{tr(ABA^TC)}}{\partial{A}} = C^TAB^T+CAB,相當(dāng)于分別對(duì)AA^T取偏導(dǎo)后相加
  4. \frac{\partial{x^TAy}}{\partial{A}} = \frac{\partial{tr(x^TAy)}}{\partial{A}} = xy^T,分子為標(biāo)量可看做矩陣的跡

二、最小二乘法

已知X \in R^{m*n}為參數(shù)矩陣,對(duì)應(yīng)標(biāo)簽值為y \in R^{m*1}
引入?yún)?shù)\theta \in R^{n*1},構(gòu)造\hat{y}=X\theta,令最小化目標(biāo)函數(shù)為L=\frac{1}{2}(y-X\theta)^T(y-X\theta),可求出\theta=(X^TX)^{-1}X^Ty.
推導(dǎo)方法:
\begin{align} \frac{\partial{L}}{\partial\theta} & = \frac{\partial{tr((y-X\theta)^T(y-X\theta))}}{2\partial{\theta}} \\ & = \frac{\partial{tr(\theta^TX^TX\theta)}-\partial{tr(2\theta^TX^Ty)}}{2\partial{\theta}} \\ & = X^TX\theta - X^Ty \\ let & = 0 \\ \theta & =(X^TX)^{-1}X^Ty \end{align}

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容