近似推斷|機器學習推導系列(二十七)

一、推斷的動機和困難

  1. 推斷的動機

推斷問題是在概率圖模型中經(jīng)常遇到的問題,也就是給定觀測變量v的情況下求解后驗p(h|v),這里的h是隱變量(注意原來我們常用zx來表示隱變量和觀測變量,不過在深度學習中我們更傾向于使用hv來表示隱變量和觀測變量)。

那么為什么推斷問題是重要的呢?也就是說推斷的動機是什么呢?推斷的動機主要包括以下兩個方面:
①推斷本身是有意義的。推斷問題事實上是一種對原因的追溯,在給定觀測的情況下來求解它的原因,因此推斷本身是有意義的。
②為參數(shù)的學習提供幫助?;叵隕M算法中,我們期待引入的分布q(z)能近似后驗分布p(z|x),然后才能利用求解參數(shù)\theta,因此推斷問題能夠幫助求解參數(shù)。

  1. 推斷的困難

不幸的是推斷問題往往是困難的,在大多數(shù)情況下,精確推斷往往計算復雜度過高以致于幾乎不可能進行,因此我們很多時候需要采用一些近似推斷的方法。

舉例來說,像下圖中的玻爾茲曼機,作為無向圖模型其節(jié)點之間是相互聯(lián)系和影響的,難以求解,也就是mutual interaction,而只有對模型進行一些限制,比如受限玻爾茲曼機,才可以有求解的方法,然而這樣的限制必定會限制模型的能力。另外對于深度玻爾茲曼機,以下圖中三層結(jié)構(gòu)為例,在給定其中兩層時另外一層才會條件獨立,否則仍然會有復雜度過高的問題。而對于有向圖模型,比如sigmoid信念網(wǎng)絡(luò),其中存在head-to-head結(jié)構(gòu),又會造成explain away問題,僅僅在一些特殊情況下可解比如線性高斯模型:

概率圖模型

二、推斷即優(yōu)化

在前面的EM算法和變分推斷的章節(jié)中我們已經(jīng)感受過了,求解推斷問題的過程是引入一個分布q(h|v)并且將log似然轉(zhuǎn)化成ELBO和KL散度的和,目標是讓ELBO盡可能地大,于是推斷問題就成了一個優(yōu)化問題。具體的,有數(shù)據(jù)v\in V,對于log似然:

\mathrm{log\mbox{-}likelihood}:\sum _{v\in V}log\; p(v)

對于log\; p(v),我們有:

log\; p(v)=log\frac{p(v,h)}{p(h|v)}\\ =log\frac{p(v,h)}{q(h|v)}\frac{q(h|v)}{p(h|v)}\\ =log\frac{p(v,h)}{q(h|v)}+log\frac{q(h|v)}{p(h|v)}\\ =\int log\frac{p(v,h)}{q(h|v)}q(h|v)\mathrmu0z1t8osh+\int log\frac{q(h|v)}{p(h|v)}q(h|v)\mathrmu0z1t8osh\\ =E_{q(h|v)}\left [log\frac{p(v,h)}{q(h|v)}\right ]+KL(q(h|v)||p(h|v))\\ =E_{q(h|v)}\left [log\; p(v,h)-log\; q(h|v)\right ]+KL(q(h|v)||p(h|v))\\ =\underset{ELBO=L(v,h,q)}{\underbrace{E_{q(h|v)}\left [log\; p(v,h)\right ]+H[q]}}+\underset{KL(q||p)}{\underbrace{KL(q(h|v)||p(h|v))}}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容