高斯網(wǎng)絡(luò)|機器學習推導系列(二十二)

一、概述

高斯網(wǎng)絡(luò)是一種概率圖模型,對于普通的概率圖模型,其隨機變量的概率分布是離散的,而高斯網(wǎng)絡(luò)的概率分布是連續(xù)的高斯分布。高斯網(wǎng)絡(luò)也分為有向圖和無向圖,其中有向圖叫做高斯貝葉斯網(wǎng)絡(luò)(Gaussian Bayesian Network,GBN),無向圖叫做高斯馬爾可夫網(wǎng)絡(luò)(Gaussian Markov Network,GMN)。概率圖模型的分類大致如下:

Probabilistic\; Graphical\; Model\left\{\begin{matrix} \overset{discrete}{\rightarrow}\left\{\begin{matrix} Bayesian\; Network\\ Markov\; Network \end{matrix}\right.\\ \overset{continuous}{\rightarrow}Gaussian\; Network\left\{\begin{matrix} Gaussian\; Bayesian\; Network\\ Gaussian\; Markov\; Network \end{matrix}\right. \end{matrix}\right.

高斯網(wǎng)絡(luò)概率圖中的每個節(jié)點x_i都服從高斯分布,即x_{i}\sim N(\mu _{i},\Sigma _{i}),而對于概率圖的隨機變量x=\begin{pmatrix} x_{1} & x_{2} & \cdots & x_{p} \end{pmatrix}^{T}(假設(shè)有p個節(jié)點),也服從參數(shù)為\mu\Sigma的高斯分布:

P(x)=\frac{1}{(2\pi )^{p/2}|\Sigma |^{1/2}}exp\left \{-\frac{1}{2}(x-\mu)^{T}\Sigma ^{-1}(x-\mu)\right \}

對于方差矩陣\Sigma,定義:

\Sigma =[\sigma _{ij}]=\begin{bmatrix} \sigma _{11} & \sigma _{12} & \cdots & \sigma _{1p} \\ \sigma _{21} & \sigma _{22} & \cdots & \sigma _{2p}\\ \vdots & \vdots & \ddots & \vdots \\ \sigma _{p1} & \sigma _{p2} & \cdots & \sigma _{pp} \end{bmatrix}_{p\times p}

由方差矩陣我們可以表示全局獨立性

x_{i}\perp x_{j}\Leftrightarrow \sigma _{ij}=0

對于方差矩陣\Sigma的逆,我們定義其為\Lambda,叫做精度矩陣(precision matrix)或者信息矩陣(information matrix),即\Lambda =\Sigma ^{-1}=[\lambda _{ij}]。通過精度矩陣我們可以表示條件獨立性

x_{i}\perp x_{j}|_{x-\left \{x_{i},x_{j}\right \}}\Leftrightarrow \lambda _{ij}=0

在本文中只介紹高斯網(wǎng)絡(luò)有向圖和無向圖的表示方法,不介紹其他的一些推斷的方法。

二、高斯貝葉斯網(wǎng)絡(luò)

  1. 有向概率圖模型的因子分解

GBN作為一種有向概率圖模型,同樣服從有向圖的因子分解:

P(x_{1},x_{2},\cdots ,x_{p})=\prod_{i=1}^{p}P(x_{i}|x_{parent(i)})

  1. 線性高斯模型

GBN從局部來看是一個線性高斯模型,舉例來說,就是下面兩個兩個隨機變量之間滿足線性關(guān)系,同時包含一定的噪聲,噪聲服從高斯分布:

線性高斯模型

其概率表示如下:

P(x)=N(x|\mu _{x},\Sigma _{x})\\ P(y|x)=N(y|Ax+b,\Sigma _{y})

  1. 類比線性動態(tài)系統(tǒng)

對于GBN是線性高斯模型這一點可以類比之前講過的線性動態(tài)系統(tǒng)(Linear Dynamic System,LDS),參考鏈接:卡爾曼濾波|機器學習推導系列(十八)。

LDS是一種特殊的GBN,它的概率圖模型如下:

LDS

在LDS中每個節(jié)點都只有一個父親節(jié)點,其概率為:

x_{t}=A\cdot x_{t-1}+B+\varepsilon \\ y_{t}=C\cdot x_{t}+D+\delta \\ \varepsilon \sim N(0,Q)\\ \delta \sim N(0,R)

寫成條件概率的形式就是:

P(z_{t}|z_{t-1})\sim N(A\cdot z_{t-1}+B,Q)\\ P(x_{t}|z_{t})\sim N(C\cdot z_{t}+D,R)\\ z_{1}\sim N(\mu _{1},\Sigma _{1})

LDS 的假設(shè)是相鄰時刻的變量之間的依賴關(guān)系,因此是一個局域模型,而GBN每?個節(jié)點的父親節(jié)點不?定只有?個,因此可以看成是?個全局的模型。

  1. 高斯貝葉斯網(wǎng)絡(luò)的表示

在GBN中,對于每一個節(jié)點,其概率可以寫成以下標準形式:

P(x_{i}|x_{parent(i)})=N(x_{i}|\mu _{i}+w_{i}^{T}x_{parent(i)},\sigma _{i})

在上面的式子中,將x_{parent(i)}當做向量來使用。另外我們也可以將隨機變量寫成等式的形式:

x_{i}=\mu _{i}+\sum _{j\in x_{parent(i)}}w_{ij}(x_{j}-\mu _{j})+\sigma _{i}\varepsilon _{i},\; \; \varepsilon _{i}\sim N(0,1)

也就是:

x_{i}-\mu _{i}=\sum _{j\in x_{parent(i)}}w_{ij}(x_{j}-\mu _{j})+\sigma _{i}\varepsilon _{i},\; \; \varepsilon _{i}\sim N(0,1)

這里將每個隨機變量都減去了它的均值,是為了簡化模型和計算上的方便。接著定義以下向量和矩陣:

\mu =\begin{pmatrix} \mu _{1} & \mu _{2} & \cdots & \mu _{p} \end{pmatrix}^{T}\\ W=[w_{ij}]\\ \varepsilon =\begin{pmatrix} \varepsilon _{1} & \varepsilon _{2} & \cdots & \varepsilon _{p} \end{pmatrix}^{T}\\ S=diag(\sigma _{i})

然后將前面的式子寫成向量形式:

x-\mu =W(x-\mu )+S\varepsilon

整理一下,也就有:

x-\mu =(I-W)^{-1}S\varepsilon

因此協(xié)方差矩陣就可以寫成:

\Sigma =Cov(x)=Cov(x-\mu )

三、高斯馬爾可夫網(wǎng)絡(luò)

  1. 高斯貝葉斯網(wǎng)絡(luò)的表示

對于無向圖的高斯網(wǎng)絡(luò),其概率可以表示為:

P(x)=\frac{1}{Z}\prod_{i=1}^{p}\underset{node\; potential}{\underbrace{\psi _{i}(x_{i})}}\prod_{i,j\in x}^{p} \underset{edge\; potential}{\underbrace{\psi _{i,j}(x_{i},x_{j})}}

而對于多維高斯分布的概率表達形式:

P(x)=\frac{1}{(2\pi )^{p/2}|\Sigma |^{1/2}}exp\left \{-\frac{1}{2}(x-\mu)^{T}\Sigma ^{-1}(x-\mu)\right \}

我們可以根據(jù)上式進行整理來探索上述兩個不同的概率公式之間的聯(lián)系:

P(x)\propto exp\left \{-\frac{1}{2}(x-\mu)^{T}\Sigma ^{-1}(x-\mu)\right \}\\ =exp\left \{-\frac{1}{2}(x-\mu)^{T}\Lambda (x-\mu)\right \}\\ =exp\left \{-\frac{1}{2}(x^{T}\Lambda -\mu^{T}\Lambda )(x-\mu )\right \}\\ =exp\left \{-\frac{1}{2}(x^{T}\Lambda x-\underset{標量}{\underbrace{\mu^{T}\Lambda x}}-\underset{標量}{\underbrace{x^{T}\Lambda \mu}}+\mu^{T}\Lambda \mu )\right \}\\ =exp\left \{-\frac{1}{2}(x^{T}\Lambda x-2\mu^{T}\Lambda x+\underset{與x無關(guān)}{\underbrace{\mu^{T}\Lambda \mu }})\right \}\\ \propto exp\left \{-\underset{二次}{\underbrace{\frac{1}{2}x^{T}\Lambda x}}+\underset{一次}{\underbrace{(\Lambda \mu )^{T}x}}\right \}

經(jīng)過一番整理我們發(fā)現(xiàn)P(x)所正比于的函數(shù)中包含一個二次項和一個一次項。這里我們將\Lambda \mu記作h,稱為potential vector,即:

h=\Lambda \mu =\begin{pmatrix} h_{1}\\ h_{2}\\ \vdots \\ h_{p} \end{pmatrix}

exp\left \{-\frac{1}{2}x^{T}\Lambda x+(\Lambda \mu )^{T}x\right \}這個式子中我們可以得到與x_ix_i,x_j相關(guān)的項,下面的結(jié)果通過展開這個式子就可以輕易得到:

x_{i}:-\frac{1}{2}x_{i}^{2}\lambda _{ii}+h_{i}x_{i}\\ x_{i},x_{j}:-\frac{1}{2}(\lambda _{ij}x_{i}x_{j}+\lambda _{ji}x_{j}x_{i})=-\lambda _{ij}x_{i}x_{j}

這些相關(guān)項也就分別對應(yīng)node potential和edge potential,這樣兩個公式就聯(lián)系起來了。另外,在一個GMN中,如果兩個節(jié)點之間沒有邊,那么它們之間的\lambda _{ij}=0。從這里我們可以看出x_i,x_j的相關(guān)項構(gòu)成的一個勢函數(shù)只和\lambda _{ij}有關(guān),由此可以得出條件獨立性:

x_{i}\perp x_{j}|_{x-\left \{x_{i},x_{j}\right \}}\Leftrightarrow \lambda _{ij}=0

討論上面的內(nèi)容是為了說明以下結(jié)論:一個多維高斯分布對應(yīng)著一個GMN,我們在學習這個多維高斯分布時,除了學習到這個分布的參數(shù),同時也學習到了這個GMN的結(jié)構(gòu),這是因為如果我們學習到\lambda _{ij}=0的話,這表示在概率圖上對應(yīng)的兩個節(jié)點之間是沒有邊的。

  1. 其他性質(zhì)

對于無向圖高斯網(wǎng)絡(luò)來說,除了滿足全局獨立性和條件獨立性以外,還滿足另外一個性質(zhì),也就是:

對于任意一個無向圖中的節(jié)點x_i,滿足:
x_{i}|_{x-\left \{x_{i}\right \}}\sim N(\sum _{j\neq i}\frac{\lambda _{ij}}{\lambda _{ii}}x_{j},\underset{\sigma _{ii}}{\underbrace{\lambda _{ii}^{-1}}})
也就是說x_i可以表示為無向圖中跟它有連接的x_{j}(因為沒有連接的x_{j}對應(yīng)的\lambda _{ij}=0)的線性組合。

上述性質(zhì)的得出是根據(jù)x=\begin{pmatrix} x_{i}\\ x-\left \{x_{i}\right \} \end{pmatrix}=\begin{pmatrix} x_{a}\\ x_ \end{pmatrix}來求解條件概率分布,而求解高斯分布的條件概率分布的方法在之前的課程中已經(jīng)介紹過了,參考鏈接:高斯分布|機器學習推導系列(二)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容