Softmax Layer

Softmax函數(shù)將多個標(biāo)量映射為一個概率分布,其輸出的每一個值范圍在(0,1)。公式如下圖

softmax 函數(shù)

softmax函數(shù)經(jīng)常用在神經(jīng)網(wǎng)絡(luò)的最后一層,作為輸出層,進(jìn)行多分類。此外,softmax在增強(qiáng)學(xué)習(xí)領(lǐng)域內(nèi),softmax經(jīng)常被用作將某個值轉(zhuǎn)化為激活概率,這類情況下,softmax的公式如下:

帶溫度參數(shù)的softmax函數(shù)

其中,T被稱為是溫度參數(shù)(temperature parameter)。當(dāng)T很大時,即趨于正無窮時,所有的激活值對應(yīng)的激活概率趨近于相同(激活概率差異性較?。欢?dāng)T很低時,即趨于0時,不同的激活值對應(yīng)的激活概率差異也就越大。這個結(jié)論很重要,Hinton在2015年的一篇paper中重點闡釋了如何根據(jù)溫度參數(shù)來soften神經(jīng)網(wǎng)絡(luò)的輸出,從而提出了distillation的思想和方法。

temperature = 0.01


temperature = 1


temperature = 100

1.前向傳播

該過程比較簡單,對輸入的每個節(jié)點進(jìn)行softmax(x)計算。但是需要注意的是,由于存在指數(shù)函數(shù)exp,對于輸入很大的實數(shù)會softmax數(shù)值越界,導(dǎo)致預(yù)想不到的結(jié)果。所以在做softmax之前,需要將數(shù)據(jù)做簡單的預(yù)處理,即:找出輸入節(jié)點的最大值,然后讓每個節(jié)點減去該最大值,使得輸入節(jié)點都是小于等于0的,這樣就能避免數(shù)值越界。

2.反向傳播

softmax層的導(dǎo)數(shù)要分兩種情況:1)該節(jié)點是輸出類別 (i ?= ?j);2)該節(jié)點不為輸出類別(i != j)

softmax 導(dǎo)數(shù)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 承接前面的《淺談機(jī)器學(xué)習(xí)基礎(chǔ)》、《淺談深度學(xué)習(xí)基礎(chǔ)》和《淺談自然語言處理基礎(chǔ)》,主要參考了《解析深度學(xué)習(xí):語音識別...
    我偏笑_NSNirvana閱讀 24,047評論 6 66
  • 第二個Topic講深度學(xué)習(xí),承接前面的《淺談機(jī)器學(xué)習(xí)基礎(chǔ)》。 深度學(xué)習(xí)簡介 前面也提到過,機(jī)器學(xué)習(xí)的本質(zhì)就是尋找最...
    我偏笑_NSNirvana閱讀 16,219評論 7 49
  • 曾經(jīng)勾勒過千千萬萬的未來,現(xiàn)在想來那應(yīng)該都是夢吧。 像天使漂浮在星空中。 而真正腳踏實地去做的時候,人的生活其實是...
    我是李小志閱讀 275評論 0 1
  • 我是一個在減肥路上沒有方向和出路的人,至少目前是這樣的狀態(tài)。 今晚就讓我好好回想一下過往的努力和思索這條路該何處何...
    奕奕GRACE閱讀 233評論 0 0

友情鏈接更多精彩內(nèi)容