青草久久婷婷不卡,传媒在线一二三区

許多概率模型（通常是無向圖模型）由一個(gè)未歸一化的概率分布定義，我們必須除以配分函數(shù)來歸一化

對(duì)數(shù)似然梯度

通過最大似然學(xué)習(xí)無向模型特別困難的原因在于配分函數(shù)依賴于參數(shù)。對(duì)數(shù)似然相對(duì)于參數(shù)的梯度具有一項(xiàng)對(duì)應(yīng)于配分函數(shù)的梯度：

這是機(jī)器學(xué)習(xí)中非常著名的正相（positive phase）和負(fù)相（negative phase）的分解。

即得到

隨機(jī)最大似然和對(duì)比散度

可以用MCMC采樣求解這個(gè)梯度

對(duì)比散度算法降低了吉布斯采樣花費(fèi)的時(shí)間，從數(shù)據(jù)分布中獲取樣本是計(jì)算代價(jià)最小的，因?yàn)樗鼈円呀?jīng)在數(shù)據(jù)集中了。初始時(shí)，數(shù) 據(jù)分布并不接近模型分布，因此負(fù)相不是非常準(zhǔn)確。幸運(yùn)的是，正相仍然可以準(zhǔn)確地增加數(shù)據(jù)的模型概率。進(jìn)行正相階段一段時(shí)間之后，模型分布會(huì)更接近于數(shù)據(jù)分布，并且負(fù)相開始變得準(zhǔn)確。

當(dāng)然，CD仍然是真實(shí)負(fù)相的一個(gè)近似。CD未能定性地實(shí)現(xiàn)真實(shí)負(fù)相的主要原因是，它不能抑制遠(yuǎn)離真實(shí)訓(xùn)練樣本的高概率區(qū)域。這些區(qū)域在模型上具有高概率，但是在數(shù)據(jù)生成區(qū)域上具有低概率，被稱為虛假模態(tài)（spurious modes）。圖18.2解釋了這種現(xiàn)象發(fā)生的原因?；旧?，除非 k 非常大，模型分布中遠(yuǎn)離數(shù)據(jù)分布的峰值不會(huì)被使用訓(xùn)練數(shù)據(jù)初始化的馬爾可夫鏈訪問到。

另一個(gè)解決CD中許多問題的不同策略是，在每個(gè)梯度步驟中初始化馬爾可夫鏈為先前梯度步驟的狀態(tài)值。這個(gè)方法首先被應(yīng)用數(shù)學(xué)和統(tǒng)計(jì)學(xué)社群發(fā)現(xiàn)，命名為隨機(jī)最大似然（SML）(Younes, 1998)

偽似然

蒙特卡羅近似配分函數(shù)及其梯度需要直接處理配分函數(shù)。有些其他方法通過訓(xùn) 練不需要計(jì)算配分函數(shù)的模型來繞開這個(gè)問題。這些方法大多數(shù)都基于以下觀察：無向概率模型中很容易計(jì)算概率的比率。這是因?yàn)榕浞趾瘮?shù)同時(shí)出現(xiàn)在比率的分子和分母中，互相抵消

假設(shè)我們將 x 分為 a，b 和 c，其中 a 包含我們想要的條件分布的變量，b 包含我們想要條件化的變量，c 包含除此之外的變量

在極端情況下，a 可以是單個(gè)變量，c 可以為空，那么該計(jì)算僅需要估計(jì)與單個(gè)隨機(jī)變量值一樣多的 ? p。

在這種情況下，我們已經(jīng)使a盡可能小，但是c可以大到x_2:n。如果我們簡(jiǎn)單地將c移到 b 中以減少計(jì)算代價(jià)，那么會(huì)發(fā)生什么呢？這便產(chǎn)生了偽似然

得分匹配和比率匹配

得分匹配提供了另一種訓(xùn)練模型而不需要估計(jì) Z 或其導(dǎo)數(shù) 的一致性方法。對(duì)數(shù)密度關(guān)于參數(shù)的導(dǎo)數(shù) ?xlogp(x)，被稱為其得分（score），得分匹配這個(gè)名稱正是來自這樣的術(shù)語。得分匹配采用的策略是，最小化模型對(duì)數(shù)密度和數(shù)據(jù)對(duì)數(shù)密度關(guān)于輸入的導(dǎo)數(shù)之間的平方差期望

噪聲對(duì)比估計(jì)

具有難求解的配分函數(shù)的大多數(shù)模型估計(jì)都沒有估計(jì)配分函數(shù)。SML和CD只估計(jì)對(duì)數(shù)配分函數(shù)的梯度，而不是估計(jì)配分函數(shù)本身。得分匹配和偽似然避免了和配分函數(shù)相關(guān)的計(jì)算。

噪聲對(duì)比估計(jì)（noise-contrastive estimation，NCE）(GutmannandHyvarinen, 2010) 采取了一種不同的策略。在這種方法中，模型估計(jì)的概率分布被明確表示為

NCE 的思想很簡(jiǎn)單，它希望我們將真實(shí)的樣本和一批“噪聲樣本”進(jìn)行對(duì)比，從中發(fā)現(xiàn)真實(shí)樣本的規(guī)律出來。

具體來說，我們引入一個(gè)噪聲分布，并且設(shè)定聯(lián)合分布

現(xiàn)在我們可以應(yīng)用標(biāo)準(zhǔn)的最大似然學(xué)習(xí)擬合 p_joint 到 p_train 的監(jiān)督學(xué)習(xí)問題：

這樣我們就得到了模型的參數(shù)和配分值c

估計(jì)配分函數(shù)

如果想要知道兩個(gè)模型哪個(gè)比較好，可以比較似然函數(shù)

用蒙特卡洛方法求解

如果分布 p0 接近 p1，那么式(18.44)能夠有效地估計(jì)配分函數(shù) (Minka, 2005)。不幸的是，大多數(shù)時(shí)候 p1 都很復(fù)雜（通常是多峰值的），并且定義在高維空間中。很難找到一個(gè)易求解的 p0，既能易于評(píng)估，又能充分接近 p1 以保持高質(zhì)量的近似。如果 p0 和 p1 不接近，那么 p0 的大多數(shù)采樣將在 p1 中具有較低的概率，從而在式(18.44)的求和中產(chǎn)生（相對(duì)的）可忽略的貢獻(xiàn)。

我們現(xiàn)在關(guān)注兩個(gè)解決高維空間復(fù)雜分布上估計(jì)配分函數(shù)的方法：退火重要采樣和橋式采樣。此處暫且略過

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

《深度學(xué)習(xí)》：直面配分函數(shù)

《深度學(xué)習(xí)》：直面配分函數(shù)

對(duì)數(shù)似然梯度

隨機(jī)最大似然和對(duì)比散度

偽似然

得分匹配和比率匹配

噪聲對(duì)比估計(jì)

估計(jì)配分函數(shù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

《深度學(xué)習(xí)》：直面配分函數(shù)

對(duì)數(shù)似然梯度

隨機(jī)最大似然和對(duì)比散度

偽似然

得分匹配和比率匹配

噪聲對(duì)比估計(jì)

估計(jì)配分函數(shù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av