深度學(xué)習(xí)(二)從統(tǒng)計(jì)學(xué)角度看Loss公式

損失函數(shù)(Loss function)可以用來衡量模型在給定數(shù)據(jù)上的表現(xiàn)。

一、 似然函數(shù)

假設(shè)有一個(gè)訓(xùn)練集

  • 樣本X = x_{1},..., x_{M}
  • 對應(yīng)的標(biāo)簽Y = y_{1},...,y_{M}
  • 條件概率密度公式為p(y|x),給定輸入x_{m},得到y_{m}的概率是p(y_{m}|x_{m})
  • 兩個(gè)事件的聯(lián)合概率密度是兩個(gè)條件概率的乘積,如果他們互相獨(dú)立且均勻分布的話

所有觀察到標(biāo)簽Y的概率為\prod_{m=1}^Mp(y_{m}|x_{m}),這個(gè)就是似然函數(shù)。
在神經(jīng)網(wǎng)絡(luò)里這個(gè)概率也與權(quán)值有關(guān),訓(xùn)練的目的是為了讓觀察到正確標(biāo)簽的概率最大,即
\mathop{\max}_{w}\left\{\prod_{m=1}^Mp(y_{m}|x_{m},w) \right\}
出于數(shù)學(xué)計(jì)算上的考慮,算最大值不如算最小值,所以我們的目標(biāo)變成了\mathop{\min}_{w}\left\{\sum_{m=1}^M -ln(p(y_{m}|x_{m},w))\right\}

二、回歸

回歸分析(Regresion)是建立因變量Y與自變量間X關(guān)系的模型,假設(shè)現(xiàn)在有一個(gè)單變量的高斯模型
\begin{equation} p(y|x,w,\beta) = \mathcal{N} (\hat{y}(x,w),\frac{1}{\beta}) \\ = \frac{\sqrt{\beta}}{\sqrt{2\pi}}e^{\beta\frac{-(y_{m}-\hat{y}(x_{m},w))^2}{2}} \end{equation}
把這個(gè)概率公式代入上面的目標(biāo)公式,可以得到
\begin{equation} L(w) = \sum_{m=1}^M -ln(\frac{\sqrt{\beta}}{\sqrt{2\pi}} e^{\beta\frac{-(y_{m}-\hat{y}(x_{m},w))^2}{2}}) \\ = ...\\ =\frac{M}{2}ln(2\pi) - \frac{M}{2}ln(\beta)+\frac{\beta}{2}\sum_{m=1}^{M}(y_{m}-\hat{y}(x_{m},w))^2 \end{equation}
這個(gè)式子里除去常數(shù)和系數(shù),剩下的就是
\frac{1}{2}\sum_{m=1}^{M}(y_{m}-\hat{y}(x_{m},w))^2
平方也可以寫成L2范數(shù)(L2 Norm), 這也就是L2 loss的樣子:
\frac{1}{2}\sum_{m=1}^{M}\|y_{m}-\hat{y}(x_{m},w)\|^2_{2}

三、分類

分類問題就是給輸入X歸到最適合的類別Y里。假設(shè)神經(jīng)網(wǎng)絡(luò)的輸出是輸入歸為某類的概率p。對于多分類的問題,假設(shè)滿足多項(xiàng)分布\mathcal{C} (y|p)
= \begin{cases} \prod_{k=0}^{K}p_{k}^{y_{k}} \quad if y_{k} \in {0,1}\ \\ 0 \quad otherwise \end{cases}
帶入到上面的目標(biāo)公式里
\begin{equation} L(w) = \sum_{m=1}^M -ln(p(y_{m}|x_{m},w)) = - \sum_{m=1}^M ln\prod_{k=0}^{K}\hat{y_{k}}(x_{m},w)^{y_{k,m}}\\ = - \sum_{m=1}^M \sum_{k=0}^K ln(\hat{y_{k}}(x_{m},w)^{y_{k,m}}) = - \sum_{m=1}^M \sum_{k=0}^K y_{k,m}ln(\hat{y_{k,m}}) \end{equation}
得到了y\hat{y}的交叉熵,也就是交叉熵?fù)p失函數(shù)(cross-entopy loss)。

四、總結(jié)

  • L2 loss一般用于回歸問題
  • 交叉熵?fù)p失函數(shù)一般用于分類問題
  • 這兩種都可以看做是來自一定概率假設(shè)的極大似然估計(jì)
  • 適用于多變量

五、附帶

1、范數(shù)是什么
2、其他的loss公式以及數(shù)學(xué)背景

深度學(xué)習(xí)天坑系列,覺得還行就點(diǎn)個(gè)贊吧

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容