邏輯回歸的兩種交叉熵損失函數(shù)

前面介紹了二分類與多分類情況下交叉熵損失的不同以及原因,但是在二分類中,邏輯回歸的交叉熵損失函數(shù)同樣具有兩種形式,其原因是由類別取值所導(dǎo)致的。

類別取值為0和1

  1. 邏輯回歸中我們給定的假設(shè)函數(shù)(目標(biāo)函數(shù))是給定x的條件下,預(yù)測其屬于類別1的概率,線性回歸中的目標(biāo)函數(shù)是:



    其中z是一個實數(shù)值,顯然不能直接作為邏輯分類的預(yù)測值,因此想辦法將其映射為概率值,引入了sigmoid函數(shù),那么邏輯回歸的假設(shè)函數(shù)就是:


  2. 有了假設(shè)函數(shù),我們先嘗試借鑒線性回歸的方式定義損失函數(shù):



    但是發(fā)現(xiàn)這樣的損失函數(shù)并不是一個嚴格的凸函數(shù),容易陷入局部最優(yōu)解,因此摒棄該損失函數(shù)。
    由于我們引入的sigmoid可視作是類別為1的后驗概率(說白了,就是給一個x,那么可以通過sigmoid算出來該樣本點屬于類別1的概率),所以可以得到類別為1以及類別為0時的條件概率為:



    上面兩式合并在一起:
  3. MLE
    ok,現(xiàn)在我們得到了邏輯回歸的分布函數(shù)(即最終的目標(biāo)函數(shù)),那么我們現(xiàn)在為了唯一確定最優(yōu)的模型,需要對模型中的參數(shù)進行估計。引入極大似然估計法,回憶一下MLE的目標(biāo),就是通過極大化已出現(xiàn)樣本的聯(lián)合概率來求解出我們認為最優(yōu)的參數(shù)。
    根據(jù)極大似然法以及聯(lián)合概率求解,得到:



    為了簡化運算,我們對上面這個等式的兩邊取對數(shù):



    目標(biāo)就是找到使得上式最大的參數(shù)w,沒錯,對上式加上負號,就得到了邏輯回歸的代價函數(shù):

類別為 1 和 -1 的情況

首先回憶sigmoid的特殊性質(zhì):



如果 y = +1 時



如果 y = -1 時:

因為 y 取值為 +1 或 -1,可以把 y 值帶入,將上面兩個式子整合到一起:




引入MLE:


將sigmoid形式代入:

那么就推導(dǎo)出該情況下的交叉熵的損失函數(shù)形式了。

如果有N個樣本,那么:


轉(zhuǎn)載注明:http://www.itdecent.cn/p/a5b366c5f77f

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容