女大学生免费91,高清无码视频五区

大師兄的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)筆記（四十一）：貝葉斯網(wǎng)絡(luò)（十五）

八、結(jié)構(gòu)學(xué)習(xí)

2. 貝葉斯模型選擇

在貝葉斯模型選擇框架中，視模型結(jié)構(gòu)G和模型參數(shù) $\theta_G$ 為隨記變量。
變量G的可能取值包含所有以 $X_1,X_2,...,X_n$ 為節(jié)點(diǎn)的有向無(wú)環(huán)圖。
給定G，變量 $\theta_G$ 的可能取值是所有與G對(duì)應(yīng)的參數(shù)值。
我們把關(guān)于結(jié)構(gòu)G的先驗(yàn)知識(shí)概括為一個(gè)概率分布 $P(G)$ ，稱之為結(jié)構(gòu)先驗(yàn)分布(structure prior)。
對(duì)于一個(gè)給定結(jié)構(gòu)G，我們把關(guān)于參數(shù) $\theta_G$ 的先驗(yàn)知識(shí)概括為另一個(gè)概率分布 $p(\theta_G|G)$ ，稱之為參數(shù)先驗(yàn)分布(parameter prior)。
這樣，就有一個(gè)關(guān)于二元組 $(G,\theta_G)$ 的先驗(yàn)分布 $p(G,\theta_G) = P(G)p(\theta_G|G)$ 。
在觀測(cè)到數(shù)據(jù) $D=(D_1,D_2,...,D_m)$ 后，需要計(jì)算的是后驗(yàn)概率分布 $p(G,\theta_G|D)$ 。
因此有 $p(G,\theta_G|D) \propto P(D|G,\theta_G)p(G,\theta_G)$ 。

$p(G,\theta_G|D)$ 就是關(guān)于 $G,\theta_G$ 的貝葉斯估計(jì)。

基于這個(gè)估計(jì)，可以對(duì)下一個(gè)樣本 $D_{m+1}$ 進(jìn)行預(yù)測(cè)，即計(jì)算其概率分布 $P(D_{m+1}|D)$ 。

$P(D_{m+1}|D) = \sum_G\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G = \sum_G\int P(D_{m+1}|G,\theta_G)P(G|D)p(G,\theta_G|D)d\theta_G = \sum_G P(G|D)\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G$

其中第二個(gè)等式成立時(shí)因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=p(G%2C%5Ctheta_G%7CD)%20%3D%20P(G%7CD)p(%5Ctheta_G%7CG%2CD)" alt="p(G,\theta_G|D) = P(G|D)p(\theta_G|G,D)" mathimg="1">。

而第三個(gè)等式成立時(shí)因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=P(G%7CD)" alt="P(G|D)" mathimg="1">與 $\theta_G$ 無(wú)關(guān)。

最后得到的式稱為 $P(D_{m+1}|D)$ 的完全貝葉斯估計(jì)。

為了解讀 $\sum_G P(G|D)\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G$ ，先來(lái)看其中的一部分 $\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G$ ，它是在給定結(jié)構(gòu)G的情況下對(duì) $D_{m+1}$ 進(jìn)行完全貝葉斯估計(jì)。
其結(jié)果可以表示成一個(gè)貝葉斯網(wǎng)絡(luò)，解讀如下：

由于不知道貝葉斯網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)，逐個(gè)考慮每一個(gè)可能的結(jié)構(gòu)；

對(duì)每一個(gè)可能得結(jié)構(gòu)G，用貝葉斯網(wǎng)絡(luò)進(jìn)行參數(shù)估計(jì)，得到一個(gè)貝葉斯網(wǎng)絡(luò)；

最后將獲得的所有貝葉斯網(wǎng)絡(luò)的聯(lián)合概率加權(quán)平均，一個(gè)貝葉斯網(wǎng)絡(luò)的權(quán)重就是其結(jié)構(gòu)G的后驗(yàn)概率 $P(G|D)$ ；

用加權(quán)平均的結(jié)果就是 $D_{m+1}$ 的分布 $P(D_{m+1}|D)$ 。

這個(gè)計(jì)算 $P(D_{m+1}|D)$ 的過(guò)程稱為模型平均( model averaging)。

$D_{m+1}$ 由隨機(jī)變量 $X_1,X_2,...,X_n$ 組成。
若已知其中一些變量的取值E=e，怎樣就散另外一些變量的后驗(yàn)概率 $P(Q|E=e)$ ？
用 $N_G$ 記上段所述過(guò)程中以G為結(jié)構(gòu)的貝葉斯網(wǎng)絡(luò)。
需要在每個(gè)網(wǎng)絡(luò) $N_G$ 中計(jì)算 $P_{N_G}(Q|E=e)$ ，然后將結(jié)果加權(quán)平均，即 $P(Q|E=e)=\sum_GP(G|D)P_{N_G}(Q|E=e)$ 。
在實(shí)際中模型平均只會(huì)考慮為數(shù)不多的幾個(gè)模型，最常見(jiàn)的是考慮對(duì)應(yīng)后驗(yàn)概率 $P(G|D)$ 最大的哪個(gè)模型，即 $G^*=\arg\max_GP(G|D)$ 。
這樣，利用貝葉斯網(wǎng)絡(luò)模型選擇進(jìn)行結(jié)構(gòu)學(xué)習(xí)的實(shí)質(zhì)過(guò)程是：

(1) 找出后驗(yàn)概率最大的結(jié)構(gòu) $G^*$ 。

(2) 相對(duì)于 $G^*$ 進(jìn)行貝葉斯參數(shù)估計(jì)。

由于 $P(G|D)=\frac{P(D|G)P(G)}{P(D)}$ ，而 $P(D)$ 不依賴于G，所以選擇后驗(yàn)概率最大的結(jié)構(gòu)就是選擇使如下函數(shù)達(dá)到最大的結(jié)構(gòu)： $\log P(G,D) = \log P(D|G)+\log P(G)$ 。