損失函數(shù)(Loss function)可以用來衡量模型在給定數(shù)據(jù)上的表現(xiàn)。
一、 似然函數(shù)
假設(shè)有一個(gè)訓(xùn)練集
- 樣本
- 對應(yīng)的標(biāo)簽
- 條件概率密度公式為
,給定輸入
,得到
的概率是
- 兩個(gè)事件的聯(lián)合概率密度是兩個(gè)條件概率的乘積,如果他們互相獨(dú)立且均勻分布的話
所有觀察到標(biāo)簽的概率為
,這個(gè)就是似然函數(shù)。
在神經(jīng)網(wǎng)絡(luò)里這個(gè)概率也與權(quán)值有關(guān),訓(xùn)練的目的是為了讓觀察到正確標(biāo)簽的概率最大,即
出于數(shù)學(xué)計(jì)算上的考慮,算最大值不如算最小值,所以我們的目標(biāo)變成了
二、回歸
回歸分析(Regresion)是建立因變量Y與自變量間X關(guān)系的模型,假設(shè)現(xiàn)在有一個(gè)單變量的高斯模型
把這個(gè)概率公式代入上面的目標(biāo)公式,可以得到
這個(gè)式子里除去常數(shù)和系數(shù),剩下的就是
平方也可以寫成L2范數(shù)(L2 Norm), 這也就是L2 loss的樣子:
三、分類
分類問題就是給輸入X歸到最適合的類別Y里。假設(shè)神經(jīng)網(wǎng)絡(luò)的輸出是輸入歸為某類的概率。對于多分類的問題,假設(shè)滿足多項(xiàng)分布
帶入到上面的目標(biāo)公式里
得到了和
的交叉熵,也就是交叉熵?fù)p失函數(shù)(cross-entopy loss)。
四、總結(jié)
- L2 loss一般用于回歸問題
- 交叉熵?fù)p失函數(shù)一般用于分類問題
- 這兩種都可以看做是來自一定概率假設(shè)的極大似然估計(jì)
- 適用于多變量
五、附帶
1、范數(shù)是什么
2、其他的loss公式以及數(shù)學(xué)背景
深度學(xué)習(xí)天坑系列,覺得還行就點(diǎn)個(gè)贊吧