色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

登錄注冊寫文章

損失函數(shù)

損失函數(shù)

損失函數(shù)與評價指標(biāo)之間的關(guān)系

1 PointWise Loss

輸入：單個文檔 $d_1$ ，文檔是否和query匹配。

輸出：分?jǐn)?shù)/分類

應(yīng)用：Subset Ranking、 OC SVM、 McRank、Prank

損失函數(shù)：回歸Loss、分類Loss、有序回歸Loss。

優(yōu)缺點(diǎn)
Pointwise算法實(shí)現(xiàn)簡單，易于理解，但是它只對給定Query單個文檔的相關(guān)度進(jìn)行建模，僅僅考慮了單個文檔的相關(guān)度，Pointwise值學(xué)習(xí)到文檔和 Query 的全局相關(guān)性，對排序先后順序有一定的影響。在某一些場景下，排在最前面的幾個文檔對排序結(jié)果的影響非常重要，如搜索引擎的第一頁的內(nèi)容非常重要，而 Pointwise 沒有考慮這方面的影響，不對排序的先后順序優(yōu)劣做懲罰。

image-20210602160453562

1.1 Regression Loss

1.1.1 Mean Square Error / Quadratic Loss

也稱L2損失函數(shù)，求預(yù)測值與真實(shí)值之間距離的平方和

img

下圖是MSE函數(shù)的圖像，其中目標(biāo)值是100，預(yù)測值的范圍從-10000到10000，Y軸代表的MSE取值范圍是從0到正無窮，并且在預(yù)測值為100處達(dá)到最小。

img

1.1.2 Mean Absolute Error

平均絕對值誤差 MAE，也稱為L1損失，MAE是目標(biāo)值和預(yù)測值之差的絕對值之和。

img

其只衡量了預(yù)測值誤差的平均模長，而不考慮方向，取值范圍也是從0到正無窮（如果考慮方向，則是殘差/誤差的總和——平均偏差（MBE））。

img

下面讓我們觀察MAE和RMSE（即MSE的平方根，同MAE在同一量級中）在兩個例子中的計算結(jié)果。第一個例子中，預(yù)測值和真實(shí)值很接近，而且誤差的方差也較小。第二個例子中，因?yàn)榇嬖谝粋€異常點(diǎn)，而導(dǎo)致誤差非常大。

img

對于使用MAE計算損失，使用MSE的模型會賦予異常點(diǎn)更大的權(quán)重。在第二個例子中，用MSE計算損失的模型會以犧牲了其他樣本的誤差為代價，朝著減小異常點(diǎn)誤差的方向更新。然而這就會降低模型的整體性能。

如果訓(xùn)練數(shù)據(jù)被異常點(diǎn)所污染，那么MAE損失就更好用（比如，在訓(xùn)練數(shù)據(jù)中存在大量錯誤的反例和正例標(biāo)記，但是在測試集中沒有這個問題）。

直觀上可以這樣理解：如果我們最小化MSE來對所有的樣本點(diǎn)只給出一個預(yù)測值，那么這個值一定是所有目標(biāo)值的平均值。但如果是最小化MAE，那么這個值，則會是所有樣本點(diǎn)目標(biāo)值的中位數(shù)。眾所周知，對異常值而言，中位數(shù)比均值更加魯棒，因此MAE對于異常值也比MSE更穩(wěn)定。

然而MAE存在一個嚴(yán)重的問題（特別是對于神經(jīng)網(wǎng)絡(luò)）：更新的梯度始終相同，也就是說，即使對于很小的損失值，梯度也很大。為了解決這個缺陷，我們可以使用變化的學(xué)習(xí)率，在損失接近最小值時降低學(xué)習(xí)率。

而MSE在這種情況下的表現(xiàn)就很好，即便使用固定的學(xué)習(xí)率也可以有效收斂。MSE損失的梯度隨損失增大而增大，而損失趨于0時則會減小。這使得在訓(xùn)練結(jié)束時，使用MSE模型的結(jié)果會更精確。

img

如果異常點(diǎn)代表在商業(yè)中很重要的異常情況，并且需要被檢測出來，則應(yīng)選用MSE損失函數(shù)。相反，如果只把異常值當(dāng)作受損數(shù)據(jù)，則應(yīng)選用MAE損失函數(shù)。

1.1.3 Huber Loss / Smooth Mean Absolute Error

總而言之，處理異常點(diǎn)時，L1損失函數(shù)更穩(wěn)定，但它的導(dǎo)數(shù)不連續(xù)，因此求解效率較低。L2損失函數(shù)對異常點(diǎn)更敏感，但通過令其導(dǎo)數(shù)為0，可以得到更穩(wěn)定的封閉解。

二者兼有的問題是：在某些情況下，上述兩種損失函數(shù)都不能滿足需求。例如，若數(shù)據(jù)中90%的樣本對應(yīng)的目標(biāo)值為150，剩下10%在0到30之間。那么使用MAE作為損失函數(shù)的模型可能會忽視10%的異常點(diǎn)，而對所有樣本的預(yù)測值都為150。

這是因?yàn)槟Ｐ蜁粗形粩?shù)來預(yù)測。而使用MSE的模型則會給出很多介于0到30的預(yù)測值，因?yàn)槟Ｐ蜁虍惓｜c(diǎn)偏移。上述兩種結(jié)果在許多商業(yè)場景中都是不可取的。

這些情況下應(yīng)該怎么辦呢？最簡單的辦法是對目標(biāo)變量進(jìn)行變換。而另一種辦法則是換一個損失函數(shù)，這就引出了下面要講的第三種損失函數(shù)，即Huber損失函數(shù)。

Huber損失對數(shù)據(jù)中的異常點(diǎn)沒有平方誤差損失那么敏感。它在0也可微分。本質(zhì)上，Huber損失是絕對誤差，只是在誤差很小時，就變?yōu)槠椒秸`差。誤差降到多小時變?yōu)槎握`差由超參數(shù)δ（delta）來控制。當(dāng)Huber損失在[0-δ,0+δ]之間時，等價為MSE，而在[-∞,δ]和[δ,+∞]時為MAE。

img

img

它會由于梯度的減小而落在最小值附近。比起MSE，它對異常點(diǎn)更加魯棒。因此，Huber損失結(jié)合了MSE和MAE的優(yōu)點(diǎn)。但是，Huber損失的問題是我們可能需要不斷調(diào)整超參數(shù)delta。

1.1.4 Log cosh Loss

Log-cosh是另一種應(yīng)用于回歸問題中的，且比L2更平滑的的損失函數(shù)。它的計算方式是預(yù)測誤差的雙曲余弦的對數(shù)。

img

$cosh(x) = \frac{e^x+e^{-x}}{2}$

優(yōu)點(diǎn)：對于較小的x，log(cosh(x))近似等于(x^2)/2，對于較大的x，近似等于abs(x)-log(2)。這意味著‘logcosh’基本類似于均方誤差，但不易受到異常點(diǎn)的影響。它具有Huber損失所有的優(yōu)點(diǎn)，但不同于Huber損失的是，Log-cosh二階處處可微。

為什么需要二階導(dǎo)數(shù)？許多機(jī)器學(xué)習(xí)模型如XGBoost，就是采用牛頓法來尋找最優(yōu)點(diǎn)。而牛頓法就需要求解二階導(dǎo)數(shù)（Hessian）。因此對于諸如XGBoost這類機(jī)器學(xué)習(xí)框架，損失函數(shù)的二階可微是很有必要的。

1.1.5 Quantile Loss

如何選取合適的分位值取決于我們對正誤差和反誤差的重視程度。損失函數(shù)通過分位值（γ）對高估和低估給予不同的懲罰。例如，當(dāng)分位數(shù)損失函數(shù)γ=0.25時，對高估的懲罰更大，使得預(yù)測值略低于中值。

img

γ是所需的分位數(shù)，其值介于0和1之間。

img

1.2 Classification Loss

1.2.1 Log Loss

從極大似然的角度出發(fā)，我們希望極大化如下似然函數(shù)：

[圖片上傳失敗...(image-aaaad9-1629883070126)]%3Dlog+%2C+\prod_{i%3D1}^{n%2C+p_{y_i}(x_i%3B\theta)%3D\sum_{i%3D1}}{n}log+%2C+p_{y_i}(x_i%3B\theta))

其中 [圖片上傳失敗...(image-8986f9-1629883070126)] 。當(dāng)y=1時， [圖片上傳失敗...(image-91e3e-1629883070126)] ;當(dāng)y=0時， [圖片上傳失敗...(image-4b4ad5-1629883070126)]。于是，

[圖片上傳失敗...(image-87a2b3-1629883070126)]

最大化(1)等價于極小化下式

[圖片上傳失敗...(image-7e332f-1629883070126)]

(2)被稱為負(fù)對數(shù)似然損失。

邏輯回歸也是log loss
$L(y,f(x)) = log(1+e^{-yf(x)})$
(1) log對數(shù)損失函數(shù)能非常好的表征概率分布，在很多場景尤其是多分類，如果需要知道結(jié)果屬于每個類別的置信度，那它非常適合。

(2)健壯性不強(qiáng)，相比于hinge loss對噪聲更敏感。

(3)邏輯回歸的損失函數(shù)就是log對數(shù)損失函數(shù)。

1.2.2 Focal Loss

Focal Loss for Dense Object Detection

ICCV2017 RBG和Kaiming大神的新作。

本質(zhì)上講，F(xiàn)ocal Loss 就是一個解決分類問題中類別不平衡、分類難度差異的一個 loss。

1.2.3 KL Divergence / Relative Entropy

KL距離常用來度量兩個分布之間的距離，其具有如下形式

[圖片上傳失敗...(image-19d05d-1629883070126)]

其中p是真實(shí)分布，q是擬合分布，H(p)是p的熵，為常數(shù)。因此 [圖片上傳失敗...(image-24710c-1629883070126)] 度量了p和q之間的距離，叫做交叉熵?fù)p失。

在二分類問題中，數(shù)據(jù)的真實(shí)分布為 [圖片上傳失敗...(image-29fc22-1629883070126)] ,預(yù)測分布為 [圖片上傳失敗...(image-d726f1-1629883070126)] ，因此交叉熵?fù)p失為

[圖片上傳失敗...(image-28c393-1629883070126)]

正好和(2)是同一個損失。

1.2.4 Exponential Loss

設(shè) [圖片上傳失敗...(image-4f946f-1629883070126)] ,模型為 [圖片上傳失敗...(image-44ea52-1629883070126)] ,指數(shù)損失為

[圖片上傳失敗...(image-f9c27f-1629883070126)]

忽略模型的具體形式，在指數(shù)損失下，我們的優(yōu)化目標(biāo)為

[圖片上傳失敗...(image-e1b824-1629883070126)]

最優(yōu)解為

[圖片上傳失敗...(image-b200d5-1629883070126)]

[圖片上傳失敗...(image-711810-1629883070126)] 估計的是對數(shù)幾率的一半。當(dāng) [圖片上傳失敗...(image-994e8c-1629883070126)] 時， [圖片上傳失敗...(image-f280e6-1629883070126)] 的符號為正，反之為負(fù)。于是 [圖片上傳失敗...(image-8a1d33-1629883070126)] 作為預(yù)測值可達(dá)貝葉斯最優(yōu)。這說明了指數(shù)函數(shù)作為損失函數(shù)的合理性。當(dāng) [圖片上傳失敗...(image-ee940b-1629883070126)] 為線性函數(shù)時，這就是邏輯斯蒂回歸。

adaboost使用exponential loss，對離群點(diǎn)、噪聲非常敏感。

1.2.5 Hinge Loss

$(0,1?f(xi)yi)$

(1)hinge損失函數(shù)表示如果被分類正確，損失為0，否則損失就為 [圖片上傳失敗...(image-9b09a1-1629883070126)] 。SVM就是使用這個損失函數(shù)。

(2)hinge loss是凸函數(shù)

(3)hinge loss對噪聲不敏感，只線性地懲罰分錯的數(shù)據(jù)數(shù)目。一般的 [圖片上傳失敗...(image-f80263-1629883070126)] 是預(yù)測值，在-1到1之間， [圖片上傳失敗...(image-2272b0-1629883070126)] 是目標(biāo)值(-1或1)。其含義是， [圖片上傳失敗...(image-d982f2-1629883070126)] 的值在-1和+1之間就可以了，并不鼓勵 [圖片上傳失敗...(image-aaf5bc-1629883070126)] ，即并不鼓勵分類器過度自信，讓某個正確分類的樣本距離分割線超過1并不會有任何獎勵，從而使分類器可以更專注于整體的誤差。

(4)hinge loss不可導(dǎo)，不能用SGD等方法來優(yōu)化。這種情況可以用交叉熵，為凸函數(shù)，同時可導(dǎo)，可以用SGD。

2 PairWise Loss

輸入： $d_1,d_2$ - 文檔對

輸出： $d_1$ 優(yōu)先級是否比 $d_2$ 高

應(yīng)用：Ranking SVM、RankBoost、RankNet、GBRank、IR SVM 等

損失函數(shù)：Pairwise 分類 Loss。

優(yōu)缺點(diǎn)
Pairwise 方法通過考慮兩兩文檔之間的相關(guān)度來進(jìn)行排序，有一定進(jìn)步。但 Pairwise 使用的是兩文檔之間相關(guān)相關(guān)度的損失函數(shù)，而它和真正衡量排序效果的指標(biāo)之間存在很大不同，甚至可能是負(fù)相關(guān)的，如可能出現(xiàn) Pairwise Loss 越來越低，但 NDCG 分?jǐn)?shù)也越來越低的現(xiàn)象。另外此方法只考慮了兩個文檔的先后順序，且沒有考慮文檔在搜索列表中出現(xiàn)的位置，導(dǎo)致最終排序效果并不理想。

2.1 Hinge Loss

$max?（0,margin?(S(Q,D+)?S(Q,D?))$

<img src="https://tva1.sinaimg.cn/large/008i3skNgy1gr546y1t34j310f0u0afg.jpg" alt="image-20210602152649553" style="zoom:50%;" />

示例：該損失函數(shù)在Ranking SVM中使用。

2.2 Cross Entropy

交叉熵描述了兩個概率分布之間的距離，當(dāng)交叉熵越小說明二者之間越接近。

<img src="https://tva1.sinaimg.cn/large/008i3skNgy1gr5474zakwj30e403s0ss.jpg" alt="image-20210602152819983" style="zoom:50%;" />

其中 $y_i$ 是預(yù)測結(jié)果， $y′_i$ 是ground truth。

示例：在RankNet中使用。

2.3 Fidelity Loss

交叉熵?fù)p失函數(shù)中，f(x_u)-f(x_v) 總是比1大，損失沒有最小值，會在學(xué)習(xí)過程中導(dǎo)致一些困難，為了解決這個問題，用了fidelity loss。

<img src="https://tva1.sinaimg.cn/large/008i3skNgy1gr5473qr8rj30ro0463yn.jpg" alt="image-20210602152227909" style="zoom:50%;" />

<img src="https://tva1.sinaimg.cn/large/008i3skNgy1gr5471vxazj312o0r2qg8.jpg" alt="image-20210602152302637" style="zoom:50%;" />

<img src="損失函數(shù).assets/image-20210602152435753.png" alt="image-20210602152435753" style="zoom:50%;" />

示例：該損失函數(shù)在FRank中使用。

2.4 Log Loss

Rankboost 使用adaboost的對pairs進(jìn)行分類。adaboost 使用對數(shù)損失函數(shù)，對弱分類器的疊加得到強(qiáng)分類器。

<img src="https://tva1.sinaimg.cn/large/008i3skNgy1gr547a7xs7j31100u0q7s.jpg" alt="image-20210602152630085" style="zoom:50%;" />

示例：該損失函數(shù)在RankBoost中使用。

2.5 Top1 Loss

這是一種啟發(fā)式的組合損失函數(shù)，由兩個部分組成：第一部分旨在將目標(biāo)分?jǐn)?shù)提升到樣本分?jǐn)?shù)以上，而第二部分則將負(fù)樣本的分?jǐn)?shù)降低到零。第二部分其實(shí)就是一個正則項(xiàng)，但是并沒有直接約束權(quán)重，它懲罰了負(fù)樣本的得分。因?yàn)樗械奈锲范加锌赡茏鳛槟骋粋€用戶的負(fù)樣本。具體公式如下:

<img src="https://tva1.sinaimg.cn/large/008i3skNgy1gr547d2x87j30k006amy6.jpg" alt="image-20210602144944055" style="zoom:50%;" />

這里j對應(yīng)負(fù)樣本（未觀測到的），i對應(yīng)正樣本

2.6 BPR Loss

基于Bayesian Personalized Ranking。BPR Loss 的思想很簡單，就是讓正樣本和負(fù)樣本的得分之差盡可能達(dá)到最大。具體公式如下：

在這里插入圖片描述

3 ListWise Loss

輸入：文檔集合 $u0z1t8os$

輸出：文檔的排序

應(yīng)用： ListNet、ListMLE、SVM MAP、AdaRank、SoftRank、LambdaRank、LambdaMART。其中LambdaMART（對RankNet和 LambdaRank的改進(jìn)）在Yahoo Learning to Rank Challenge表現(xiàn)出最好的性能。

損失函數(shù)：評價指標(biāo)如 NDCG、MAP 等。這里可以詳細(xì)看我的空間里 [召回系統(tǒng)-評價指標(biāo)] 一文。

優(yōu)缺點(diǎn)
由于此種方法是針對評價指標(biāo)直接進(jìn)行優(yōu)化，所以它往往表現(xiàn)出不錯的效果。

Reference

https://www.jiqizhixin.com/articles/2018-06-21-3

http://www.l3s.de/~anand/tir15/lectures/ws15-tir-l2r.pdf

http://super1peng.xyz/2018/08/24/Learning-To-Rank/

https://www.cl.cam.ac.uk/teaching/1516/R222/l2r-overview.pdf

機(jī)器學(xué)習(xí)大牛最常用的5個回歸損失函數(shù)，你知道幾個？

損失函數(shù)代碼實(shí)踐

https://zhuanlan.zhihu.com/p/74073096

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

深度學(xué)習(xí)中的損失函數(shù)總結(jié)已經(jīng)Center Loss函數(shù)筆記
圖片分類里的Center Loss目標(biāo)函數(shù),損失函數(shù),代價函數(shù)損失函數(shù)度量的是預(yù)測值與真實(shí)值之間的差異.損失函數(shù)通...
大川無敵閱讀 15,000評論 0贊 1
如何選擇合適的損失函數(shù)，請看......
翻譯 | 張建軍編輯 | 阿司匹林出品 | AI科技大本營（微信搜索：rgznai100）【AI科技大本營導(dǎo)...
城市中迷途小書童閱讀 1,136評論 0贊 3

送你一個晚安故事
我是黑夜里大雨紛飛的人啊 1 “又到一年六月，有人笑有人哭，有人歡樂有人憂愁，有人驚喜有人失落，有的覺得收獲滿滿有...
陌忘宇閱讀 8,831評論 28贊 54
人工智能是什么?
人工智能是什么？什么是人工智能？人工智能是未來發(fā)展的必然趨勢嗎？以后人工智能技術(shù)真的能達(dá)到電影里機(jī)器人的智能水平嗎...
ZLLZ閱讀 4,096評論 0贊 5
如何在股災(zāi)來臨時保持淡定？
首先介紹下自己的背景：我11年左右入市到現(xiàn)在，也差不多有4年時間，看過一些關(guān)于股票投資的書籍，對于巴菲特等股神的...
瞎投資閱讀 5,936評論 3贊 8

友情鏈接更多精彩內(nèi)容

贊1贊

贊賞

手機(jī)看全文

昭苏县| 临泽县| 高阳县| 余干县| 蕉岭县| 北川| 安新县| 乾安县| 师宗县| 广汉市| 华容县| 新化县| 广河县| 仁布县| 巢湖市| 新巴尔虎右旗| 定州市| 高要市| 神木县| 泽州县| 福清市| 义马市| 聂荣县| 临城县| 上蔡县| 潜江市| 泰来县| 桦川县| 宜章县| 沁水县| 英超| 祥云县| 麻城市| 丹阳市| 黄大仙区| 新龙县| 东港市| 武陟县| 融水| 辽中县| 松原市|