《統(tǒng)計學習方法》 python實現(xiàn) chapter6 邏輯斯蒂回歸與最大熵模型

邏輯斯蒂回歸模型

邏輯斯蒂分布:
設(shè)X是連續(xù)隨機變量,X服從邏輯斯蒂分布是指X具有下列分布函數(shù)和分布密度:
F(x) = P(X \le x)= {1 \over e^{-(x - \mu)\over \gamma}}

密度函數(shù)

f(x) = F'(x) = { {e^{-(x - \mu) \over \gamma}} \over {\gamma(1+e^{-(x-\mu)\over\gamma})^2}}

分布函數(shù)

公式中,\mu為位置參數(shù),\gamma \gt 0為形狀參數(shù)
分布函數(shù)屬于邏輯斯蒂函數(shù),其圖形是一條s形曲線(sigmoid curve).形狀參數(shù)\gamma的值越小,曲線在中心附近增長得越快。
邏輯斯蒂回歸模型:二項式邏輯斯蒂回歸模型是如下得條件概率分布:
P(Y = 1|x)={{exp(w·x+b)}\over{1+exp(w·x+b)}}
P(Y = 0|x)={1\over{1+exp(w·x+b)}}
將x輸入兩個條件概率分布,選取結(jié)果較大得值作為結(jié)果


最大熵模型

最大熵原理認為,學習概率模型時,在所有可能得概率模型(分布)中,熵最大得模型是最好得模型。
假設(shè)離散隨機變量X的概率分布是P(X),則其熵是H(P) = - \sum_x P(x)logP(x)
熵滿足下列不等式:0\le H(P) \le log|X|
式中,|X|X的取值個數(shù),當且僅當X的分布是均勻分布時右邊的等號成立。這就是說,當X服從均勻分布時,熵最大。
定義:最大熵模型
假設(shè)滿足所有約束條件的模型集合為
C \equiv \{ P \in \rho |E_p(fi) = E_{\hat p}(fi), i = 1, 2, ···,n \}
定義在條件概率分布P(Y|X)上的條件熵為
H(P) = - \sum_{x,y}{\hat P}(x)P(y|x)logP(y|x)
則模型集合C中條件熵H(P)最大的模型稱為最大熵模型

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容