大師兄的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)筆記(四十二):貝葉斯網(wǎng)絡(luò)(十六)

大師兄的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)筆記(四十一):貝葉斯網(wǎng)絡(luò)(十五)

八、結(jié)構(gòu)學(xué)習(xí)

2. 貝葉斯模型選擇
  • 在貝葉斯模型選擇框架中,視模型結(jié)構(gòu)G和模型參數(shù)\theta_G為隨記變量。
  • 變量G的可能取值包含所有以X_1,X_2,...,X_n為節(jié)點(diǎn)的有向無(wú)環(huán)圖。
  • 給定G,變量\theta_G的可能取值是所有與G對(duì)應(yīng)的參數(shù)值。
  • 我們把關(guān)于結(jié)構(gòu)G的先驗(yàn)知識(shí)概括為一個(gè)概率分布P(G),稱之為結(jié)構(gòu)先驗(yàn)分布(structure prior)。
  • 對(duì)于一個(gè)給定結(jié)構(gòu)G,我們把關(guān)于參數(shù)\theta_G的先驗(yàn)知識(shí)概括為另一個(gè)概率分布p(\theta_G|G),稱之為參數(shù)先驗(yàn)分布(parameter prior)
  • 這樣,就有一個(gè)關(guān)于二元組(G,\theta_G)的先驗(yàn)分布p(G,\theta_G) = P(G)p(\theta_G|G)。
  • 在觀測(cè)到數(shù)據(jù)D=(D_1,D_2,...,D_m)后,需要計(jì)算的是后驗(yàn)概率分布p(G,\theta_G|D)。
  • 因此有p(G,\theta_G|D) \propto P(D|G,\theta_G)p(G,\theta_G)。
  • p(G,\theta_G|D)就是關(guān)于G,\theta_G的貝葉斯估計(jì)。
  • 基于這個(gè)估計(jì),可以對(duì)下一個(gè)樣本D_{m+1}進(jìn)行預(yù)測(cè),即計(jì)算其概率分布P(D_{m+1}|D)
  • P(D_{m+1}|D) = \sum_G\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G = \sum_G\int P(D_{m+1}|G,\theta_G)P(G|D)p(G,\theta_G|D)d\theta_G = \sum_G P(G|D)\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G
  • 其中第二個(gè)等式成立時(shí)因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=p(G%2C%5Ctheta_G%7CD)%20%3D%20P(G%7CD)p(%5Ctheta_G%7CG%2CD)" alt="p(G,\theta_G|D) = P(G|D)p(\theta_G|G,D)" mathimg="1">。
  • 而第三個(gè)等式成立時(shí)因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=P(G%7CD)" alt="P(G|D)" mathimg="1">與\theta_G無(wú)關(guān)。
  • 最后得到的式稱為P(D_{m+1}|D)的完全貝葉斯估計(jì)。
  • 為了解讀\sum_G P(G|D)\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G,先來(lái)看其中的一部分\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G,它是在給定結(jié)構(gòu)G的情況下對(duì)D_{m+1}進(jìn)行完全貝葉斯估計(jì)。
  • 其結(jié)果可以表示成一個(gè)貝葉斯網(wǎng)絡(luò),解讀如下:
  • 由于不知道貝葉斯網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),逐個(gè)考慮每一個(gè)可能的結(jié)構(gòu);
  • 對(duì)每一個(gè)可能得結(jié)構(gòu)G,用貝葉斯網(wǎng)絡(luò)進(jìn)行參數(shù)估計(jì),得到一個(gè)貝葉斯網(wǎng)絡(luò);
  • 最后將獲得的所有貝葉斯網(wǎng)絡(luò)的聯(lián)合概率加權(quán)平均,一個(gè)貝葉斯網(wǎng)絡(luò)的權(quán)重就是其結(jié)構(gòu)G的后驗(yàn)概率P(G|D)
  • 用加權(quán)平均的結(jié)果就是D_{m+1}的分布P(D_{m+1}|D)。
  • 這個(gè)計(jì)算P(D_{m+1}|D)的過(guò)程稱為模型平均( model averaging)。
  • D_{m+1}由隨機(jī)變量X_1,X_2,...,X_n組成。
  • 若已知其中一些變量的取值E=e,怎樣就散另外一些變量的后驗(yàn)概率P(Q|E=e)
  • N_G記上段所述過(guò)程中以G為結(jié)構(gòu)的貝葉斯網(wǎng)絡(luò)。
  • 需要在每個(gè)網(wǎng)絡(luò)N_G中計(jì)算P_{N_G}(Q|E=e),然后將結(jié)果加權(quán)平均,即P(Q|E=e)=\sum_GP(G|D)P_{N_G}(Q|E=e)。
  • 在實(shí)際中模型平均只會(huì)考慮為數(shù)不多的幾個(gè)模型,最常見(jiàn)的是考慮對(duì)應(yīng)后驗(yàn)概率P(G|D)最大的哪個(gè)模型,即G^*=\arg\max_GP(G|D)
  • 這樣,利用貝葉斯網(wǎng)絡(luò)模型選擇進(jìn)行結(jié)構(gòu)學(xué)習(xí)的實(shí)質(zhì)過(guò)程是:
  • (1) 找出后驗(yàn)概率最大的結(jié)構(gòu)G^*
  • (2) 相對(duì)于G^*進(jìn)行貝葉斯參數(shù)估計(jì)。
  • 由于P(G|D)=\frac{P(D|G)P(G)}{P(D)},而P(D)不依賴于G,所以選擇后驗(yàn)概率最大的結(jié)構(gòu)就是選擇使如下函數(shù)達(dá)到最大的結(jié)構(gòu):\log P(G,D) = \log P(D|G)+\log P(G)。
  • \log P(G,D)稱為結(jié)構(gòu)G的貝葉斯評(píng)分(Bayesian score)。
  • P(G)是結(jié)構(gòu)先驗(yàn)分布,一般假設(shè)它是均勻分布。
  • 展開(kāi)P(D|G),有P(D|G) = \int P(D|G,\theta_G)p(\theta_G|D)d\theta_G
  • 這里P(D|G,\theta_G)二元組G,\theta_G的似然函數(shù),記為L(G,\theta_G|d)
  • 因此P(D|G)稱為邊緣似然函數(shù)(marginal likelihood),記作L(G|D)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容