許多概率模型(通常是無向圖模型)由一個(gè)未歸一化的概率分布定義,我們必須除以配分函數(shù)來歸一化

對(duì)數(shù)似然梯度
通過最大似然學(xué)習(xí)無向模型特別困難的原因在于配分函數(shù)依賴于參數(shù)。對(duì)數(shù)似 然相對(duì)于參數(shù)的梯度具有一項(xiàng)對(duì)應(yīng)于配分函數(shù)的梯度:

這是機(jī)器學(xué)習(xí)中非常著名的正相(positive phase)和負(fù)相(negative phase)的 分解。

即得到

隨機(jī)最大似然和對(duì)比散度
可以用MCMC采樣求解這個(gè)梯度

對(duì)比散度算法降低了吉布斯采樣花費(fèi)的時(shí)間,從數(shù)據(jù)分布中獲取樣本是計(jì)算代價(jià)最小的,因?yàn)樗鼈円呀?jīng)在數(shù)據(jù)集中了。初始時(shí),數(shù) 據(jù)分布并不接近模型分布,因此負(fù)相不是非常準(zhǔn)確。幸運(yùn)的是,正相仍然可以準(zhǔn)確 地增加數(shù)據(jù)的模型概率。進(jìn)行正相階段一段時(shí)間之后,模型分布會(huì)更接近于數(shù)據(jù)分 布,并且負(fù)相開始變得準(zhǔn)確。

當(dāng)然,CD仍然是真實(shí)負(fù)相的一個(gè)近似。CD未能定性地實(shí)現(xiàn)真實(shí)負(fù)相的主要原因是,它不能抑制遠(yuǎn)離真實(shí)訓(xùn)練樣本的高概率區(qū)域。這些區(qū)域在模型上具有高概率, 但是在數(shù)據(jù)生成區(qū)域上具有低概率,被稱為虛假模態(tài)(spurious modes)。圖18.2解 釋了這種現(xiàn)象發(fā)生的原因?;旧?,除非 k 非常大,模型分布中遠(yuǎn)離數(shù)據(jù)分布的峰 值不會(huì)被使用訓(xùn)練數(shù)據(jù)初始化的馬爾可夫鏈訪問到。
另一個(gè)解決CD中許多問題的不同策略是,在每個(gè)梯度步驟中初始化馬爾可夫鏈為先前梯度步驟的狀態(tài)值。這個(gè)方法首先被應(yīng)用數(shù)學(xué)和統(tǒng)計(jì)學(xué)社群發(fā)現(xiàn),命名 為隨機(jī)最大似然(SML)(Younes, 1998)

偽似然
蒙特卡羅近似配分函數(shù)及其梯度需要直接處理配分函數(shù)。有些其他方法通過訓(xùn) 練不需要計(jì)算配分函數(shù)的模型來繞開這個(gè)問題。這些方法大多數(shù)都基于以下觀察: 無向概率模型中很容易計(jì)算概率的比率。這是因?yàn)榕浞趾瘮?shù)同時(shí)出現(xiàn)在比率的分子 和分母中,互相抵消

假設(shè)我們將 x 分為 a,b 和 c,其中 a 包含我們想要的條件分布的變量,b 包含我們想要條件化的變量,c 包含除此之外的變量

在極端情況下,a 可以是單個(gè)變量,c 可以為空,那么該計(jì)算僅需要估計(jì)與單 個(gè)隨機(jī)變量值一樣多的 ? p。

在這種情況下,我們已經(jīng)使a盡可能小,但是c可以大到x2:n。如果我們簡(jiǎn)單地將c移 到 b 中以減少計(jì)算代價(jià),那么會(huì)發(fā)生什么呢?這便產(chǎn)生了偽似然
得分匹配和比率匹配
得分匹配提供了另一種訓(xùn)練模型而不需要估計(jì) Z 或其導(dǎo)數(shù) 的一致性方法。對(duì)數(shù)密度關(guān)于參數(shù)的導(dǎo)數(shù) ?xlogp(x),被稱為其得分(score),得分 匹配這個(gè)名稱正是來自這樣的術(shù)語。得分匹配采用的策略是,最小化模型對(duì)數(shù)密度 和數(shù)據(jù)對(duì)數(shù)密度關(guān)于輸入的導(dǎo)數(shù)之間的平方差期望

噪聲對(duì)比估計(jì)
具有難求解的配分函數(shù)的大多數(shù)模型估計(jì)都沒有估計(jì)配分函數(shù)。SML和CD只 估計(jì)對(duì)數(shù)配分函數(shù)的梯度,而不是估計(jì)配分函數(shù)本身。得分匹配和偽似然避免了和配 分函數(shù)相關(guān)的計(jì)算。
噪聲對(duì)比估計(jì)(noise-contrastive estimation,NCE)(GutmannandHyvarinen, 2010) 采取了一種不同的策略。在這種方法中,模型估計(jì)的概率分布被明確表示 為

NCE 的思想很簡(jiǎn)單,它希望我們將真實(shí)的樣本和一批“噪聲樣本”進(jìn)行對(duì)比,從中發(fā)現(xiàn)真實(shí)樣本的規(guī)律出來。
具體來說,我們引入一個(gè)噪聲分布,并且設(shè)定聯(lián)合分布


現(xiàn)在我們可以應(yīng)用標(biāo)準(zhǔn)的最大似然學(xué)習(xí)擬合 pjoint 到 ptrain 的監(jiān)督學(xué)習(xí)問題:

這樣我們就得到了模型的參數(shù)和配分值c
估計(jì)配分函數(shù)
如果想要知道兩個(gè)模型哪個(gè)比較好,可以比較似然函數(shù)


用蒙特卡洛方法求解


如果分布 p0 接近 p1,那么式(18.44)能夠有效地估計(jì)配分函數(shù) (Minka, 2005)。 不幸的是,大多數(shù)時(shí)候 p1 都很復(fù)雜(通常是多峰值的),并且定義在高維空間中。 很難找到一個(gè)易求解的 p0,既能易于評(píng)估,又能充分接近 p1 以保持高質(zhì)量的近似。 如果 p0 和 p1 不接近,那么 p0 的大多數(shù)采樣將在 p1 中具有較低的概率,從而在 式(18.44)的求和中產(chǎn)生(相對(duì)的)可忽略的貢獻(xiàn)。
我們現(xiàn)在關(guān)注兩個(gè)解決高維空間復(fù)雜分布上估計(jì)配分函數(shù)的方法:退火重要采樣和橋式采樣。此處暫且略過