損失函數(shù)

一、基礎(chǔ)定義

==損失函數(shù)是用于刻畫 預(yù)期模型 和 實(shí)際模型的誤差,用于指導(dǎo)模型優(yōu)化的方向==,是一種將模型誤差量化的方式。

loss = f(x) - Y;

在機(jī)器學(xué)習(xí)中,訓(xùn)練的目的,就是尋找loss極小值。

二、回歸問題的損失函數(shù)

1. 平均絕對(duì)誤差(L1)

也是線性問題中用到的,衡量的也是和真實(shí)值的誤差。 ==但是它會(huì)忽略異常數(shù)據(jù)帶來的問題==。

image
image

2 均方誤差(L2)

在線性問題中最常用的損失函數(shù)。 計(jì)算方法是預(yù)測(cè)值和真實(shí)值
之間的距離平方和,==如果存在異常數(shù)值,會(huì)將它放大==, 次放越大,越會(huì)放大異常數(shù)值。

在線性中選用這種是最好的,獲得的loss是放大的,可以很快的調(diào)整模型,但是要注意的是,需要處理掉異常數(shù)值。

image
image

3.smooth損失函數(shù)

在神經(jīng)網(wǎng)絡(luò)中,更新梯度始終相同,也就是說,即使很小的損失也會(huì)在成模型大幅度調(diào)整,這樣不利于模型的學(xué)習(xí),所以在損失接近最小值時(shí), 可以降低學(xué)習(xí)率。

首先我們先分析一下,上面兩種損失函數(shù)各自的優(yōu)缺點(diǎn)

L1: 不容易被異常數(shù)據(jù)影響,但是學(xué)習(xí)速率是固定的。
L2: 容易被異常數(shù)據(jù)影響,但是學(xué)習(xí)速率在趨于0是會(huì)減速。

綜合上述的兩個(gè)優(yōu)缺點(diǎn),smooth L1 就此誕生


image
image

三、分類問題的損失函數(shù)

交叉熵基礎(chǔ)知識(shí)

1.交叉熵

M: 類別數(shù)量
yc: 期望輸出
pc: 真實(shí)輸出

image

在二分類中, 可以得到如下公式:
y:正的期望輸出
p:當(dāng)前模型輸出

image

假設(shè) y 的輸出恒等于1 的模型是我們訓(xùn)練的目標(biāo),得到損失函數(shù)如下

image
image

根據(jù)凸顯我們可以得到結(jié)論,模型輸出 y 越接近 1 時(shí),損失函數(shù)越小, 符合實(shí)際情況。

假設(shè) y 的輸出恒等于0 的模型是我們訓(xùn)練的目標(biāo),得到損失函數(shù)如下

image
image

根據(jù)凸顯我們可以得到結(jié)論,模型輸出 y 越接近 0 時(shí),損失函數(shù)越小, 符合實(shí)際情況。

看一下曲線圖,當(dāng) 輸出大的時(shí)候,損失L是以指數(shù)上升的,說明對(duì)當(dāng)前模型的“懲罰”越大(w調(diào)整越大),有利于模型學(xué)習(xí)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容