1?幾點(diǎn)收獲與思考
- 在監(jiān)督學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)被看作是依聯(lián)合概率密度分布
獨(dú)立同分布產(chǎn)生的。
- 監(jiān)督學(xué)習(xí)中,概率模型是生成模型,非概率模型是判別模型。而條件概率分布和與函數(shù)可以相互轉(zhuǎn)化。所以,概率模型和非概率模型的區(qū)別在于模型的內(nèi)在結(jié)構(gòu)。這里 “模型的內(nèi)在結(jié)構(gòu)” 應(yīng)該指的是能否還原出聯(lián)合概率分布。
- 核方法是用通過(guò)定義核函數(shù)直接計(jì)算映射之后再特征空間的內(nèi)積。
- 極大似然估計(jì)等價(jià)于當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化策略。貝葉斯估計(jì)中的最大后驗(yàn)概率估計(jì)是當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)函數(shù)、模型復(fù)雜度由模型的先驗(yàn)概率表示時(shí)的結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略。
- 結(jié)構(gòu)風(fēng)險(xiǎn)最小化是在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的基礎(chǔ)上增加表示模型復(fù)雜度的正則化項(xiàng)以防止過(guò)擬合。
- 學(xué)習(xí)方法的泛化能力分析是通過(guò)理論研究泛化誤差的概率上界進(jìn)行的,往往比較復(fù)雜。在現(xiàn)實(shí)中一般使用測(cè)試誤差來(lái)評(píng)價(jià),但是結(jié)果有可能不可靠。
- 生成方法的學(xué)習(xí)收斂速度更快,而判別方法的學(xué)習(xí)準(zhǔn)確率更高。
(why?希望能在后續(xù)的學(xué)習(xí)中逐漸理解)
2?習(xí)題
習(xí)題1.1?說(shuō)明伯努利模型的極大似然估計(jì)以及貝葉斯估計(jì)中的統(tǒng)計(jì)學(xué)習(xí)方法三要素。伯努利模型是定義在取值為 0 與 1 的隨機(jī)變量上的概率分布。假設(shè)觀測(cè)到伯努利模型 次獨(dú)立的數(shù)據(jù)生成結(jié)果,其中
次的結(jié)果為 1,這時(shí)可以使用極大似然估計(jì)或貝葉斯估計(jì)來(lái)估計(jì)結(jié)果為 1 的概率。
解:
(1)伯努利模型
??伯努利模型是定義在取值為 0 與 1 的隨機(jī)變量上的概率分布。對(duì)于隨機(jī)變量 有,參數(shù)為
,它分別以概率
和
取 1 和 0 為值。隨機(jī)變量
的概率分布函數(shù)即模型可以寫為
??伯努利模型的假設(shè)空間為
(2)伯努利模型的極大似然估計(jì)中的統(tǒng)計(jì)學(xué)習(xí)方法三要素
??模型:伯努利模型
??策略:經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化就等價(jià)于極大似然估計(jì)。
??算法:極大似然估計(jì):??其中
為樣本的似然函數(shù)。
(3)伯努利模型的貝葉斯估計(jì)中的統(tǒng)計(jì)學(xué)習(xí)方法三要素
??模型:伯努利模型
??策略:結(jié)構(gòu)風(fēng)險(xiǎn)最小化。當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)損失函數(shù)、模型復(fù)雜度由模型的先驗(yàn)概率表示時(shí)的結(jié)構(gòu)風(fēng)險(xiǎn)最小化等價(jià)于貝葉斯估計(jì)中的最大后驗(yàn)概率估計(jì)。
??算法:最大后驗(yàn)概率估計(jì):??其中
為后驗(yàn)概率分布。
習(xí)題1.2?通過(guò)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化推導(dǎo)極大似然估計(jì)。證明模型是條件概率分布,當(dāng)損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化等價(jià)于極大似然估計(jì)。
(參考了給出的解答思路)
解答思路
- 根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化定義,寫出目標(biāo)函數(shù);
- 根據(jù)對(duì)數(shù)損失函數(shù),對(duì)目標(biāo)函數(shù)進(jìn)行整理;
- 根據(jù)似然函數(shù)定義和極大似然估計(jì)的一般步驟,得到結(jié)論。
解:
??已知模型是條件概率分布,損失函數(shù)為對(duì)數(shù)損失函數(shù)。設(shè)條件概率分布為 (離散為概率分布列
,連續(xù)為概率密度函數(shù)
),樣本集
,
為樣本數(shù),對(duì)數(shù)損失函數(shù)為:
??經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化求解最優(yōu)模型就是求解最優(yōu)化問(wèn)題:
其中,
是假設(shè)空間。
??結(jié)合上述兩個(gè)式子,可以得到??根據(jù)似然函數(shù)的定義有
,再結(jié)合最大似然估計(jì)的一般過(guò)程,不難發(fā)現(xiàn)
即經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化等價(jià)于極大似然估計(jì),Q.E.D