1. 損失函數(shù)、代價(jià)函數(shù)與目標(biāo)函數(shù)
損失函數(shù)(Loss Function):是定義在單個(gè)樣本上的,是指一個(gè)樣本的誤差。
代價(jià)函數(shù)(Cost Function):是定義在整個(gè)訓(xùn)練集上的,是所有樣本誤差的平均,也就是所有損失函數(shù)值的平均。
目標(biāo)函數(shù)(Object Function):是指最終需要優(yōu)化的函數(shù),一般來(lái)說(shuō)是經(jīng)驗(yàn)風(fēng)險(xiǎn)+結(jié)構(gòu)風(fēng)險(xiǎn),也就是(代價(jià)函數(shù)+正則化項(xiàng))。
2. 常用的損失函數(shù)
這一節(jié)轉(zhuǎn)載自博客
(1)0-1損失函數(shù)(0-1 loss function)
也就是說(shuō),當(dāng)預(yù)測(cè)錯(cuò)誤時(shí),損失函數(shù)為1,當(dāng)預(yù)測(cè)正確時(shí),損失函數(shù)值為0。該損失函數(shù)不考慮預(yù)測(cè)值和真實(shí)值的誤差程度。只要錯(cuò)誤,就是1。
(2)平方損失函數(shù)(quadratic loss function)
是指預(yù)測(cè)值與實(shí)際值差的平方。
(3)絕對(duì)值損失函數(shù)(absolute loss function)
該損失函數(shù)的意義和上面差不多,只不過(guò)是取了絕對(duì)值而不是求絕對(duì)值,差距不會(huì)被平方放大。
(4)對(duì)數(shù)損失函數(shù)(logarithmic loss function)
這個(gè)損失函數(shù)就比較難理解了。事實(shí)上,該損失函數(shù)用到了極大似然估計(jì)的思想。P(Y|X)通俗的解釋就是:在當(dāng)前模型的基礎(chǔ)上,對(duì)于樣本X,其預(yù)測(cè)值為Y,也就是預(yù)測(cè)正確的概率。由于概率之間的同時(shí)滿足需要使用乘法,為了將其轉(zhuǎn)化為加法,我們將其取對(duì)數(shù)。最后由于是損失函數(shù),所以預(yù)測(cè)正確的概率越高,其損失值應(yīng)該是越小,因此再加個(gè)負(fù)號(hào)取個(gè)反。
(5)Hinge loss
Hinge loss一般分類算法中的損失函數(shù),尤其是SVM,其定義為:
其中 或
y,
,當(dāng)為SVM的線性核時(shí)。
3. 常用的代價(jià)函數(shù)
(1)均方誤差(Mean Squared Error)
均方誤差是指參數(shù)估計(jì)值與參數(shù)真值之差平方的期望值; MSE可以評(píng)價(jià)數(shù)據(jù)的變化程度,MSE的值越小,說(shuō)明預(yù)測(cè)模型描述實(shí)驗(yàn)數(shù)據(jù)具有更好的精確度。(i表示第 i 個(gè)樣本,N 表示樣本總數(shù))
通常用來(lái)做回歸問(wèn)題的代價(jià)函數(shù)。
(2)均方根誤差
均方根誤差是均方誤差的算術(shù)平方根,能夠直觀觀測(cè)預(yù)測(cè)值與實(shí)際值的離散程度。
通常用來(lái)作為回歸算法的性能指標(biāo)。
(3)平均絕對(duì)誤差(Mean Absolute Error)
平均絕對(duì)誤差是絕對(duì)誤差的平均值 ,平均絕對(duì)誤差能更好地反映預(yù)測(cè)值誤差的實(shí)際情況。
通常用來(lái)作為回歸算法的性能指標(biāo)。
(4)交叉熵代價(jià)函數(shù)(Cross Entry)
交叉熵是用來(lái)評(píng)估當(dāng)前訓(xùn)練得到的概率分布與真實(shí)分布的差異情況,減少交叉熵?fù)p失就是在提高模型的預(yù)測(cè)準(zhǔn)確率。其中 p(x)p(x) 是指真實(shí)分布的概率, q(x) 是模型通過(guò)數(shù)據(jù)計(jì)算出來(lái)的概率估計(jì)。
比如對(duì)于二分類模型的交叉熵代價(jià)函數(shù)(可參考邏輯回歸一節(jié)):
其中
可以是sigmoid函數(shù)?;蛏疃葘W(xué)習(xí)中的其它激活函數(shù)。而
。
通常用做分類問(wèn)題的代價(jià)函數(shù)。