大師兄的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)筆記(四十一):貝葉斯網(wǎng)絡(luò)(十五)
八、結(jié)構(gòu)學(xué)習(xí)
2. 貝葉斯模型選擇
- 在貝葉斯模型選擇框架中,視模型結(jié)構(gòu)G和模型參數(shù)
為隨記變量。
- 變量G的可能取值包含所有以
為節(jié)點(diǎn)的有向無(wú)環(huán)圖。
- 給定G,變量
的可能取值是所有與G對(duì)應(yīng)的參數(shù)值。
- 我們把關(guān)于結(jié)構(gòu)G的先驗(yàn)知識(shí)概括為一個(gè)概率分布
,稱之為結(jié)構(gòu)先驗(yàn)分布(structure prior)。
- 對(duì)于一個(gè)給定結(jié)構(gòu)G,我們把關(guān)于參數(shù)
的先驗(yàn)知識(shí)概括為另一個(gè)概率分布
,稱之為參數(shù)先驗(yàn)分布(parameter prior)。
- 這樣,就有一個(gè)關(guān)于二元組
的先驗(yàn)分布
。
- 在觀測(cè)到數(shù)據(jù)
后,需要計(jì)算的是后驗(yàn)概率分布
。
- 因此有
。
就是關(guān)于
的貝葉斯估計(jì)。
- 基于這個(gè)估計(jì),可以對(duì)下一個(gè)樣本
進(jìn)行預(yù)測(cè),即計(jì)算其概率分布
。
- 其中第二個(gè)等式成立時(shí)因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=p(G%2C%5Ctheta_G%7CD)%20%3D%20P(G%7CD)p(%5Ctheta_G%7CG%2CD)" alt="p(G,\theta_G|D) = P(G|D)p(\theta_G|G,D)" mathimg="1">。
- 而第三個(gè)等式成立時(shí)因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=P(G%7CD)" alt="P(G|D)" mathimg="1">與
無(wú)關(guān)。
- 最后得到的式稱為
的完全貝葉斯估計(jì)。
- 為了解讀
,先來(lái)看其中的一部分
,它是在給定結(jié)構(gòu)G的情況下對(duì)
進(jìn)行完全貝葉斯估計(jì)。
- 其結(jié)果可以表示成一個(gè)貝葉斯網(wǎng)絡(luò),解讀如下:
- 由于不知道貝葉斯網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),逐個(gè)考慮每一個(gè)可能的結(jié)構(gòu);
- 對(duì)每一個(gè)可能得結(jié)構(gòu)G,用貝葉斯網(wǎng)絡(luò)進(jìn)行參數(shù)估計(jì),得到一個(gè)貝葉斯網(wǎng)絡(luò);
- 最后將獲得的所有貝葉斯網(wǎng)絡(luò)的聯(lián)合概率加權(quán)平均,一個(gè)貝葉斯網(wǎng)絡(luò)的權(quán)重就是其結(jié)構(gòu)G的后驗(yàn)概率
;
- 用加權(quán)平均的結(jié)果就是
的分布
。
- 這個(gè)計(jì)算
的過(guò)程稱為模型平均( model averaging)。
-
由隨機(jī)變量
組成。
- 若已知其中一些變量的取值E=e,怎樣就散另外一些變量的后驗(yàn)概率
?
- 用
記上段所述過(guò)程中以G為結(jié)構(gòu)的貝葉斯網(wǎng)絡(luò)。
- 需要在每個(gè)網(wǎng)絡(luò)
中計(jì)算
,然后將結(jié)果加權(quán)平均,即
。
- 在實(shí)際中模型平均只會(huì)考慮為數(shù)不多的幾個(gè)模型,最常見(jiàn)的是考慮對(duì)應(yīng)后驗(yàn)概率
最大的哪個(gè)模型,即
。
- 這樣,利用貝葉斯網(wǎng)絡(luò)模型選擇進(jìn)行結(jié)構(gòu)學(xué)習(xí)的實(shí)質(zhì)過(guò)程是:
- (1) 找出后驗(yàn)概率最大的結(jié)構(gòu)
。
- (2) 相對(duì)于
進(jìn)行貝葉斯參數(shù)估計(jì)。
- 由于
,而
不依賴于G,所以選擇后驗(yàn)概率最大的結(jié)構(gòu)就是選擇使如下函數(shù)達(dá)到最大的結(jié)構(gòu):
。
稱為結(jié)構(gòu)G的貝葉斯評(píng)分(Bayesian score)。
是結(jié)構(gòu)先驗(yàn)分布,一般假設(shè)它是均勻分布。
- 展開(kāi)
,有
- 這里
二元組
的似然函數(shù),記為
。
- 因此
稱為邊緣似然函數(shù)(marginal likelihood),記作
。