序
前面介紹了二分類與多分類情況下交叉熵損失的不同以及原因,但是在二分類中,邏輯回歸的交叉熵損失函數(shù)同樣具有兩種形式,其原因是由類別取值所導(dǎo)致的。
類別取值為0和1
-
邏輯回歸中我們給定的假設(shè)函數(shù)(目標(biāo)函數(shù))是給定x的條件下,預(yù)測其屬于類別1的概率,線性回歸中的目標(biāo)函數(shù)是:
其中z是一個實數(shù)值,顯然不能直接作為邏輯分類的預(yù)測值,因此想辦法將其映射為概率值,引入了sigmoid函數(shù),那么邏輯回歸的假設(shè)函數(shù)就是:
-
有了假設(shè)函數(shù),我們先嘗試借鑒線性回歸的方式定義損失函數(shù):
但是發(fā)現(xiàn)這樣的損失函數(shù)并不是一個嚴格的凸函數(shù),容易陷入局部最優(yōu)解,因此摒棄該損失函數(shù)。
由于我們引入的sigmoid可視作是類別為1的后驗概率(說白了,就是給一個x,那么可以通過sigmoid算出來該樣本點屬于類別1的概率),所以可以得到類別為1以及類別為0時的條件概率為:
上面兩式合并在一起:
-
MLE
ok,現(xiàn)在我們得到了邏輯回歸的分布函數(shù)(即最終的目標(biāo)函數(shù)),那么我們現(xiàn)在為了唯一確定最優(yōu)的模型,需要對模型中的參數(shù)進行估計。引入極大似然估計法,回憶一下MLE的目標(biāo),就是通過極大化已出現(xiàn)樣本的聯(lián)合概率來求解出我們認為最優(yōu)的參數(shù)。
根據(jù)極大似然法以及聯(lián)合概率求解,得到:
為了簡化運算,我們對上面這個等式的兩邊取對數(shù):
目標(biāo)就是找到使得上式最大的參數(shù)w,沒錯,對上式加上負號,就得到了邏輯回歸的代價函數(shù):
類別為 1 和 -1 的情況
首先回憶sigmoid的特殊性質(zhì):

如果 y = +1 時

如果 y = -1 時:

因為 y 取值為 +1 或 -1,可以把 y 值帶入,將上面兩個式子整合到一起:


引入MLE:


將sigmoid形式代入:

那么就推導(dǎo)出該情況下的交叉熵的損失函數(shù)形式了。
如果有N個樣本,那么:

轉(zhuǎn)載注明:http://www.itdecent.cn/p/a5b366c5f77f







