六、邏輯斯蒂回歸與最大熵模型
邏輯斯蒂是個(gè)啥:
以人口增長為例:


其中,
Ω代表了最大值(此處為最大人口容量),所得圖像為:
P(t)代表當(dāng)前人口容量占最大人口容量的比例:


將未知數(shù)與對(duì)應(yīng)的積分放在同一側(cè)得到下列公式:

繼續(xù)求解:

可得其表達(dá)式:

設(shè)已經(jīng)存在的記為1,概率為P(t);不存在的記為0,概率為1-P(t);第三個(gè)就是其對(duì)應(yīng)的增長曲線(不能無休止的加上去)
6.1邏輯斯蒂回歸模型
6.1.1 邏輯斯蒂分布
sigmoid函數(shù)圖像:

由圖可得其特征:


由三條性質(zhì)可得F(x)為分布函數(shù),此處為累積分布函數(shù),
不難發(fā)現(xiàn)這個(gè)函數(shù)圖像關(guān)于(0,1/2)對(duì)稱:

這個(gè)函數(shù)可以求導(dǎo)得到其概率密度函數(shù):

其對(duì)應(yīng)圖像為:

邏輯斯蒂分布和t分布均屬于指數(shù)分布族,但是與正態(tài)分布略有不同(尾部要稍微厚一些),但是由于正態(tài)分布是在給定閾值和方差的情況下,具有最大熵的概率分布了,這使得數(shù)據(jù)攜帶的信息量最大。
但是邏輯斯蒂分布常用于 生長分布 ;而t分布常用于 不知道標(biāo)準(zhǔn)差的情況下 。
從密度函數(shù)圖中不難發(fā)現(xiàn),當(dāng)x=0時(shí)增長速度最快;
正態(tài)分布也是關(guān)于x=0對(duì)稱的,其函數(shù)的第一個(gè)參數(shù)代表位置,第二個(gè)參數(shù)代表形態(tài),現(xiàn)在用字母代表得:
-
一般形式:
各種回歸模型:

對(duì)他們求期望:

ε的期望為0
問題:若輸入的X和輸出Y沒有線性關(guān)系,假設(shè)現(xiàn)在有:
則可以用線性模型去解決非線性問題,在這里就可以拿邏輯斯蒂分布當(dāng)作連接函數(shù)g:
解得:
這就是下面的二項(xiàng)邏輯斯蒂回歸模型
6.1.2 二項(xiàng)邏輯斯蒂回歸模型
- 定義:

對(duì)于第一條算式,其代表已經(jīng)存在的人類數(shù)量,另一個(gè)代表還沒出現(xiàn)的;此時(shí)輸入X變成了n+1維,而輸出y為一個(gè)數(shù)值;
但是當(dāng)輸入為N個(gè)樣本點(diǎn),那么Y就是一個(gè)N維向量
-
特點(diǎn):
1.說到底就是把分類問題用回歸模型解決。由于是分類問題,那么輸出變量是離散的,而輸入變量是連續(xù)的;可以通過普通的線性回歸構(gòu)造一個(gè)線性形式,進(jìn)而將這個(gè)形式與輸出變量構(gòu)造關(guān)系(就是聯(lián)系函數(shù)g),可以考慮類別對(duì)應(yīng)的概率,通過sigmoid函數(shù)可以將w·x與y的概率構(gòu)建出一個(gè)模型,進(jìn)而將非線性關(guān)系變?yōu)榱司€性關(guān)系;
2.意味著可以用 sigmoid 的連續(xù)函數(shù)來代替單位的階躍函數(shù),這樣輸入變量就很自由,可以離散也可以連續(xù);
3.這里其實(shí)就是怎么求出邏輯斯諦回歸模型中的 ,這里我們會(huì)用到之前提到的極大似然估計(jì)法(概率最大化)來估計(jì)。
6.1.3 模型參數(shù)估計(jì)


這里的p有xi決定,記為pi;若我們有N個(gè)樣本,那么某個(gè)訓(xùn)練集出現(xiàn)的概率為:
當(dāng)關(guān)注點(diǎn)在參數(shù)w上,那么就可以記為似然函數(shù)L(w)
似然函數(shù)表達(dá)式:

在對(duì)上面的似然函數(shù)求對(duì)數(shù)得到對(duì)數(shù)似然函數(shù):


這三個(gè)求解方法就是前面極大似然估計(jì)的三個(gè)方法,不過迭代法下有牛頓法(泰勒公式的二階展開,速度快)和梯度下降法(用原理求最大值)兩種
6.1.4 多項(xiàng)邏輯斯蒂回歸

- 定義: 假設(shè)Y的取值集合為{1,2,.....,K},那么其模型就是

注意這里的分母變化;其實(shí)就是分母的對(duì)數(shù)變多了一些?
6.2 最大熵模型

6.2.1 最大熵原理

對(duì)于離散變量是求和,對(duì)于連續(xù)變量就變成了積分;那么最大熵就是找到使H最大的p(x)。
-
離散分布:
已離散中最簡單的伯努利分布為例:


當(dāng)p=0/1時(shí),就變成了必然事件;而當(dāng)p=0.5時(shí),其熵最大
推廣到多元分布

求最大熵的同時(shí)要滿足所有pi加起來為1的約束條件,就有了下面的正則化一樣的表達(dá)式;
求最大值就是對(duì)下面的式子求偏導(dǎo)數(shù):

由此可能當(dāng)pi=1/k時(shí),對(duì)應(yīng)的熵最大;所以有了下面的公式:

-
實(shí)例:書上P95例6.1
由上面可知,沒有其他約束條件時(shí)等概率情況下熵最大;
而在增加1個(gè)約束情況下,要把兩個(gè)地方都等概率才會(huì)有最大熵;
在增加2個(gè)約束情況下,要在滿足條件的前提下讓其余的概率均勻化才會(huì)有最大熵;
對(duì)于有三個(gè)約束條件的情況下:

解得當(dāng)p1=0.1859時(shí)熵最大。
-
連續(xù)分布:
對(duì)最后一條公式求解得:
因?yàn)檫@里得對(duì)稱軸為μ-λ2/2λ3(圖里標(biāo)錯(cuò)了)而實(shí)際對(duì)稱軸(代表均值)為x=μ所以λ2=0;進(jìn)而得到最簡版本(紅色字)

第一個(gè)積分等式是概率論的公式,在這里拿來解p(x)
在對(duì)第三個(gè)約束條件求解:

可解得:

進(jìn)而得到:

其中前面的系數(shù)就是C
以上所得就是正態(tài)分布
把隔壁某人卷趴下















