已知有n個(gè)特征x_i,我們需要通過這n個(gè)特征進(jìn)行組合建模,最簡(jiǎn)單的即是線性組合,但是這里加入了一個(gè)擾動(dòng)因子(為了模擬真實(shí)場(chǎng)景特征的變化)

為了實(shí)現(xiàn)數(shù)值與概率的映射,我們需要一個(gè)概率函數(shù)將上述線性變化之后的值轉(zhuǎn)換為概率,針對(duì)2分類問題,該概率函數(shù)為sigmoid函數(shù)

針對(duì)2分類問題,分類為1和分類為0的概率分別為

這里我們假設(shè)Y|X服從伯努利分布,由伯努利分布公式可得觀測(cè)概率為

因此可得似然函數(shù)為

下面將根據(jù)公式推導(dǎo)為什么該概率函數(shù)為sigmoid函數(shù)
假定概率函數(shù)具有以下性質(zhì)

eq-1
根據(jù)信息論中定義的最大熵可得

eq-2
從上面的已知條件中,根據(jù)標(biāo)準(zhǔn)的解約束不等式優(yōu)化方法(拉格朗日不等式可得)

eq-3
這里對(duì)不等式求導(dǎo),并令求導(dǎo)的結(jié)果等于0(求取極值)可得

eq-4
求導(dǎo)之后可得

eq-5
化簡(jiǎn)公式之后可得

eq-6
將公式6帶入公式1的條件2中化簡(jiǎn)可得

eq-7
然后將公式7代入公式6可得最終的表達(dá)式(softmax函數(shù))

針對(duì)2分類問題(k=2),化簡(jiǎn)softmax函數(shù)可得(sigmoid函數(shù))

參考文獻(xiàn)
The equivalence of logistic regression and maximum entropy models