一、Logistic regression中sigmod函數(shù)推導(dǎo)
sigmod函數(shù)的推導(dǎo)
1.伯努利分布
一個事件x,其結(jié)果只有兩種:x=1 or 0,比如拋硬幣。
when ,
when ,
伯努利分布的概率質(zhì)量函數(shù)為:
可以寫成
2.指數(shù)族分布
如果一個分布能用以下的方式寫出,就設(shè)這類分布屬于指數(shù)族:
伯努利分布可以表示成:
可以發(fā)現(xiàn),伯努利分布是指數(shù)族分布,其中:
3.sigmod函數(shù)的推導(dǎo)
標準的邏輯回歸問題中,是二分類的,與伯努利分布類似。
上式即為sigmod函數(shù)的由來。
綜上:若有一個樣本空間,
那么
有
即為
二、Logistic regression損失函數(shù)推導(dǎo)
與線性回歸的損失函數(shù)推導(dǎo)類似,通過最大似然函數(shù)估計來推出:
首先已知:
更簡潔地,上式可以寫成:
假設(shè)m個樣本都是相互獨立的,即可得似然函數(shù):
取對數(shù):
我們要求似然函數(shù)的最大值,反之在似然函數(shù)前加個負號,就能得到損失函數(shù):
三、Logistic regression梯度下降
我們先將簡化:
可得:
四、softmax函數(shù)推導(dǎo)
softmax回歸是邏輯回歸的推廣,在標準的邏輯回歸中,響應(yīng)變量y只有兩個類別:0或1,在softmax回歸中,y可以是k個取值中的任意一個:
比如說在手寫數(shù)字識別問題中,k=10,y有10個類別。
y取每個類別都對應(yīng)一個概率,由于總的概率相加必為1,因此我們可以用k-1個參數(shù)來對這些概率值參數(shù)化。
令:
可得:
對應(yīng)定義
T(y)是一個k-1維的向量,代表向量第i個元素。
這就是熟悉的one-hot向量的形式
再介紹一種幾號:指示函數(shù):,若參數(shù)為真,則等于1,否則等于0.
比如,
根據(jù)定義,可知: (確保理解此處)
因為:
把k個多項式表示成指數(shù)分布:
其中:
與i=1,2,...,k相對應(yīng)的鏈接函數(shù)為:
為方便起見,定義:
對鏈接函數(shù)取反函數(shù):
得:
可得:
得到響應(yīng)函數(shù):
與邏輯回歸,線性回歸一樣,softmax回歸也屬于廣義線性模型,滿足假設(shè):自然參數(shù)和輸入x是線性相關(guān)的,即
即可得到y(tǒng)的條件分布為:
最終得到的適用于解決多分類問題的模型,即為softmax回歸的激活函數(shù)。
一下還有softmax損失函數(shù)和梯度下降的推導(dǎo),由于時間關(guān)系,改天再補上,請見諒。