2019-04-30

softmax函數(shù)的求導(dǎo)過程,https://deepnotes.io/softmax-crossentropy。

對分子分母都乘以一個常數(shù)C,可防止指數(shù)次方的數(shù)溢出,很容易溢出,比如800的e次方就溢出了。logC = -max(X),新的X = X - Max(X)。

This property of softmax function that it outputs a probability distribution makes it suitable for probabilistic interpretation in classification tasks.

這篇文章對softmax的求導(dǎo)描述的再精確不過了,建議先從cross entropy作為損失函數(shù)看起,為什么使用cross entropy作為損失函數(shù)?他寫的多清楚啊,牛逼。當(dāng)輸出為概率分布時,cross entropy就是用來估計兩個概率分布之間的距離的。距離越小越好,損失函數(shù)越小越好,梯度下降求極小值。


為什么用cross entropy作為損失函數(shù)

當(dāng)問題是二分類時,我們使用sigmoid函數(shù)作為activation,則cross entropy簡化成只有兩項,當(dāng)多分類時,yi pi都為向量。對其求導(dǎo)均為dc/dz = zi - yi。這是對一個輸入來說的,對于多個輸入example比如m個,?dc/dz =1/m* sum( zi - yi ),我個人理解這是用了統(tǒng)計學(xué)的求平均值。。

stackoverflow
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容