損失函數(shù)（Loss function）可以用來衡量模型在給定數(shù)據(jù)上的表現(xiàn)。

一、似然函數(shù)

假設(shè)有一個(gè)訓(xùn)練集

樣本 $X = x_{1},..., x_{M}$
對應(yīng)的標(biāo)簽 $Y = y_{1},...,y_{M}$
條件概率密度公式為 $p(y|x)$ ，給定輸入 $x_{m}$ ，得到 $y_{m}$ 的概率是 $p(y_{m}|x_{m})$
兩個(gè)事件的聯(lián)合概率密度是兩個(gè)條件概率的乘積，如果他們互相獨(dú)立且均勻分布的話

所有觀察到標(biāo)簽 $Y$ 的概率為 $\prod_{m=1}^Mp(y_{m}|x_{m})$ ，這個(gè)就是似然函數(shù)。
在神經(jīng)網(wǎng)絡(luò)里這個(gè)概率也與權(quán)值有關(guān)，訓(xùn)練的目的是為了讓觀察到正確標(biāo)簽的概率最大，即
$\mathop{\max}_{w}\left\{\prod_{m=1}^Mp(y_{m}|x_{m},w) \right\}$
出于數(shù)學(xué)計(jì)算上的考慮，算最大值不如算最小值，所以我們的目標(biāo)變成了 $\mathop{\min}_{w}\left\{\sum_{m=1}^M -ln(p(y_{m}|x_{m},w))\right\}$

二、回歸

回歸分析（Regresion）是建立因變量Y與自變量間X關(guān)系的模型，假設(shè)現(xiàn)在有一個(gè)單變量的高斯模型
$\begin{equation} p(y|x,w,\beta) = \mathcal{N} (\hat{y}(x,w),\frac{1}{\beta}) \\ = \frac{\sqrt{\beta}}{\sqrt{2\pi}}e^{\beta\frac{-(y_{m}-\hat{y}(x_{m},w))^2}{2}} \end{equation}$
把這個(gè)概率公式代入上面的目標(biāo)公式，可以得到
$\begin{equation} L(w) = \sum_{m=1}^M -ln(\frac{\sqrt{\beta}}{\sqrt{2\pi}} e^{\beta\frac{-(y_{m}-\hat{y}(x_{m},w))^2}{2}}) \\ = ...\\ =\frac{M}{2}ln(2\pi) - \frac{M}{2}ln(\beta)+\frac{\beta}{2}\sum_{m=1}^{M}(y_{m}-\hat{y}(x_{m},w))^2 \end{equation}$
這個(gè)式子里除去常數(shù)和系數(shù)，剩下的就是
$\frac{1}{2}\sum_{m=1}^{M}(y_{m}-\hat{y}(x_{m},w))^2$
平方也可以寫成L2范數(shù)（L2 Norm），這也就是L2 loss的樣子：
$\frac{1}{2}\sum_{m=1}^{M}\|y_{m}-\hat{y}(x_{m},w)\|^2_{2}$

三、分類

分類問題就是給輸入X歸到最適合的類別Y里。假設(shè)神經(jīng)網(wǎng)絡(luò)的輸出是輸入歸為某類的概率 $p$ 。對于多分類的問題，假設(shè)滿足多項(xiàng)分布 $\mathcal{C} (y|p)$
$= \begin{cases} \prod_{k=0}^{K}p_{k}^{y_{k}} \quad if y_{k} \in {0,1}\ \\ 0 \quad otherwise \end{cases}$
帶入到上面的目標(biāo)公式里
$\begin{equation} L(w) = \sum_{m=1}^M -ln(p(y_{m}|x_{m},w)) = - \sum_{m=1}^M ln\prod_{k=0}^{K}\hat{y_{k}}(x_{m},w)^{y_{k,m}}\\ = - \sum_{m=1}^M \sum_{k=0}^K ln(\hat{y_{k}}(x_{m},w)^{y_{k,m}}) = - \sum_{m=1}^M \sum_{k=0}^K y_{k,m}ln(\hat{y_{k,m}}) \end{equation}$
得到了 $y$ 和 $\hat{y}$ 的交叉熵，也就是交叉熵?fù)p失函數(shù)（cross-entopy loss）。