統(tǒng)計(jì)學(xué)習(xí)方法6.1-6.2筆記—22.7.28

六、邏輯斯蒂回歸與最大熵模型

邏輯斯蒂是個(gè)啥:
以人口增長為例:

其中,

Ω代表了最大值(此處為最大人口容量),所得圖像為:

P(t)代表當(dāng)前人口容量占最大人口容量的比例:



將未知數(shù)與對(duì)應(yīng)的積分放在同一側(cè)得到下列公式:



繼續(xù)求解:



可得其表達(dá)式:

設(shè)已經(jīng)存在的記為1,概率為P(t);不存在的記為0,概率為1-P(t);第三個(gè)就是其對(duì)應(yīng)的增長曲線(不能無休止的加上去)

6.1邏輯斯蒂回歸模型

6.1.1 邏輯斯蒂分布

sigmoid函數(shù)圖像:



由圖可得其特征:



由三條性質(zhì)可得F(x)為分布函數(shù),此處為累積分布函數(shù),

不難發(fā)現(xiàn)這個(gè)函數(shù)圖像關(guān)于(0,1/2)對(duì)稱:



這個(gè)函數(shù)可以求導(dǎo)得到其概率密度函數(shù):



其對(duì)應(yīng)圖像為:

邏輯斯蒂分布和t分布均屬于指數(shù)分布族,但是與正態(tài)分布略有不同(尾部要稍微厚一些),但是由于正態(tài)分布是在給定閾值和方差的情況下,具有最大熵的概率分布了,這使得數(shù)據(jù)攜帶的信息量最大。
但是邏輯斯蒂分布常用于 生長分布 ;而t分布常用于 不知道標(biāo)準(zhǔn)差的情況下 。

從密度函數(shù)圖中不難發(fā)現(xiàn),當(dāng)x=0時(shí)增長速度最快;


正態(tài)分布也是關(guān)于x=0對(duì)稱的,其函數(shù)的第一個(gè)參數(shù)代表位置,第二個(gè)參數(shù)代表形態(tài),現(xiàn)在用字母代表得:


  • 一般形式:


各種回歸模型:


對(duì)他們求期望:

ε的期望為0
問題:若輸入的X和輸出Y沒有線性關(guān)系,假設(shè)現(xiàn)在有:


則可以用線性模型去解決非線性問題,在這里就可以拿邏輯斯蒂分布當(dāng)作連接函數(shù)g:

解得:

這就是下面的二項(xiàng)邏輯斯蒂回歸模型


6.1.2 二項(xiàng)邏輯斯蒂回歸模型

  • 定義:

對(duì)于第一條算式,其代表已經(jīng)存在的人類數(shù)量,另一個(gè)代表還沒出現(xiàn)的;此時(shí)輸入X變成了n+1維,而輸出y為一個(gè)數(shù)值;



但是當(dāng)輸入為N個(gè)樣本點(diǎn),那么Y就是一個(gè)N維向量

  • 特點(diǎn):

1.說到底就是把分類問題用回歸模型解決。由于是分類問題,那么輸出變量是離散的,而輸入變量是連續(xù)的;可以通過普通的線性回歸構(gòu)造一個(gè)線性形式,進(jìn)而將這個(gè)形式與輸出變量構(gòu)造關(guān)系(就是聯(lián)系函數(shù)g),可以考慮類別對(duì)應(yīng)的概率,通過sigmoid函數(shù)可以將w·x與y的概率構(gòu)建出一個(gè)模型,進(jìn)而將非線性關(guān)系變?yōu)榱司€性關(guān)系;
2.意味著可以用 sigmoid 的連續(xù)函數(shù)來代替單位的階躍函數(shù),這樣輸入變量就很自由,可以離散也可以連續(xù);
3.這里其實(shí)就是怎么求出邏輯斯諦回歸模型中的 ,這里我們會(huì)用到之前提到的極大似然估計(jì)法(概率最大化)來估計(jì)。


6.1.3 模型參數(shù)估計(jì)


這里的p有xi決定,記為pi;若我們有N個(gè)樣本,那么某個(gè)訓(xùn)練集出現(xiàn)的概率為:



當(dāng)關(guān)注點(diǎn)在參數(shù)w上,那么就可以記為似然函數(shù)L(w)

似然函數(shù)表達(dá)式:



在對(duì)上面的似然函數(shù)求對(duì)數(shù)得到對(duì)數(shù)似然函數(shù):



這三個(gè)求解方法就是前面極大似然估計(jì)的三個(gè)方法,不過迭代法下有牛頓法(泰勒公式的二階展開,速度快)和梯度下降法(用原理求最大值)兩種


6.1.4 多項(xiàng)邏輯斯蒂回歸

  • 定義: 假設(shè)Y的取值集合為{1,2,.....,K},那么其模型就是

注意這里的分母變化;其實(shí)就是分母的對(duì)數(shù)變多了一些?


6.2 最大熵模型

6.2.1 最大熵原理

對(duì)于離散變量是求和,對(duì)于連續(xù)變量就變成了積分;那么最大熵就是找到使H最大的p(x)。

  • 離散分布:
    已離散中最簡單的伯努利分布為例:

當(dāng)p=0/1時(shí),就變成了必然事件;而當(dāng)p=0.5時(shí),其熵最大

推廣到多元分布

求最大熵的同時(shí)要滿足所有pi加起來為1的約束條件,就有了下面的正則化一樣的表達(dá)式;

求最大值就是對(duì)下面的式子求偏導(dǎo)數(shù):



由此可能當(dāng)pi=1/k時(shí),對(duì)應(yīng)的熵最大;所以有了下面的公式:


  • 實(shí)例:書上P95例6.1

由上面可知,沒有其他約束條件時(shí)等概率情況下熵最大;
而在增加1個(gè)約束情況下,要把兩個(gè)地方都等概率才會(huì)有最大熵;
在增加2個(gè)約束情況下,要在滿足條件的前提下讓其余的概率均勻化才會(huì)有最大熵;

對(duì)于有三個(gè)約束條件的情況下:



解得當(dāng)p1=0.1859時(shí)熵最大。

  • 連續(xù)分布:

    對(duì)最后一條公式求解得:

因?yàn)檫@里得對(duì)稱軸為μ-λ2/2λ3(圖里標(biāo)錯(cuò)了)而實(shí)際對(duì)稱軸(代表均值)為x=μ所以λ2=0;進(jìn)而得到最簡版本(紅色字)

第一個(gè)積分等式是概率論的公式,在這里拿來解p(x)

在對(duì)第三個(gè)約束條件求解:



可解得:



進(jìn)而得到:

其中前面的系數(shù)就是C

以上所得就是正態(tài)分布


把隔壁某人卷趴下


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容