參數(shù)的貝葉斯估計(jì)

介紹
第一部分 參數(shù)方法——類密度模型參數(shù)估計(jì)
第二部分 監(jiān)督學(xué)習(xí)——分類(基于似然的方法)
第三部分 監(jiān)督學(xué)習(xí)——分類(基于判別式的方法)(參數(shù)方法——判別式參數(shù)估計(jì))
第四部分 監(jiān)督學(xué)習(xí)——回歸
第五部分 監(jiān)督學(xué)習(xí)——關(guān)聯(lián)規(guī)則
第六部分 維度規(guī)約(特征的提取和組合)
第七部分 半?yún)?shù)方法
第八部分 非監(jiān)督學(xué)習(xí)——聚類
第九部分 非參數(shù)方法——密度估計(jì)
第十部分 非參數(shù)方法——決策樹(shù)實(shí)現(xiàn)的判別式
第十一部分 多層感知器——非參數(shù)估計(jì)器
第十二部分 局部模型
第十三部分 支持向量機(jī)與核機(jī)器
第十四部分 隱馬爾科夫模型
第十五部分 參數(shù)的貝葉斯估計(jì)
第十六部分 集成學(xué)習(xí)——組合多學(xué)習(xí)器
第十七部分 增強(qiáng)學(xué)習(xí)
第十八部分 機(jī)器學(xué)習(xí)實(shí)驗(yàn)
第十九部分 特征工程與數(shù)據(jù)預(yù)處理

在貝葉斯方法中,把參數(shù)看做具有某種概率分布的隨機(jī)變量,對(duì)參數(shù)的這種不確定性建模。
在極大似然估計(jì)中,把參數(shù)看做未知常數(shù),取最大化似然l(\theta|X)\equiv p(X|\theta)=\prod_{t=1}^N p(x^t|\theta)的參數(shù)為估計(jì)值。但在使用小樣本時(shí),極大似然估計(jì)可能是很差的估計(jì),在不同的訓(xùn)練集上求得的參數(shù)相差較大,具有較大方差。
在貝葉斯估計(jì)中,利用估計(jì)\theta具有不確定這一事實(shí),不是估計(jì)單個(gè)\theta,而是通過(guò)估計(jì)分布p(\theta|X),加權(quán)使用所有的\theta。也就是分?jǐn)偣烙?jì)的不確定性。

在估計(jì)p(\theta|X)時(shí),可以利用我們可能具有的關(guān)于參數(shù)值的先驗(yàn)信息p(\theta)。尤其在使用小樣本時(shí),先驗(yàn)信息很重。使用貝葉斯規(guī)則,將先驗(yàn)與似然結(jié)合在一起,來(lái)計(jì)算后驗(yàn)p(\theta|X)=\frac{p(\theta)p(X|\theta)}{p(X)}
這樣,給定樣本X,能夠用它估計(jì)新實(shí)例x^{\prime}的概率分布:
p(x^{\prime}|X)=\frac{p(x^{\prime},X)}{p(X)} =\frac{\int p(x^{\prime},X,\theta)\mathrmu0z1t8os\theta}{p(X)} =\frac{\int p(\theta)p(X|\theta)p(x^{\prime}|\theta)\mathrmu0z1t8os\theta}{p(X)} =\int p(x^{\prime}|\theta)p(\theta|X)\mathrmu0z1t8os\theta
如果\theta是離散值,則用\sum_{\theta}取代積分,后驗(yàn)則為樣本X下每個(gè)\theta的可能性。

這與《參數(shù)方法——類密度模型參數(shù)的估計(jì)》中介紹的貝葉斯估計(jì)不同,沒(méi)有先估計(jì)確定的\theta_{Bayes},而是對(duì)所有可能的后驗(yàn)進(jìn)行了積分,是全貝葉斯方法

但大多數(shù)情況下這個(gè)積分很難計(jì)算的,除非后驗(yàn)有很好的形式(所以《參數(shù)方法——類密度模型參數(shù)的估計(jì)》中的方法,將參數(shù)歸結(jié)到一點(diǎn),不去計(jì)算這個(gè)積分)。

但貝葉斯估計(jì)還是有其獨(dú)有的優(yōu)點(diǎn)。首先先驗(yàn)幫助忽略了不太可能的\theta。此外,不是在預(yù)測(cè)時(shí)使用單個(gè)\theta,而是生成可能的\theta值集合,并在預(yù)測(cè)時(shí)全部使用,用可能性加權(quán)。
而最大后驗(yàn)(MAP)方法使用先驗(yàn),則只利用了第一個(gè)優(yōu)點(diǎn)。而對(duì)于極大似然(ML)方法,這兩個(gè)優(yōu)點(diǎn)都不具備。

對(duì)于很多無(wú)法計(jì)算的情況,通過(guò)近似計(jì)算來(lái)處理,包括馬爾科夫鏈蒙特卡洛抽樣,拉普拉斯近似、變分近似。


對(duì)離散分布的參數(shù)的貝葉斯估計(jì)

  1. 兩類K=2
    樣本x^t=\{ 0,1 \}服從伯努利分布,假定q 為樣本為1 的概率。樣本似然為p(X|q)=\prod_t q^{x^t}(1-q)^{1-x^t}
    需要對(duì)伯努利分布的參數(shù) q 進(jìn)行估計(jì)。采用貝塔分布beta(q|\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}q^{\alpha-1}(1-q)^{\beta-1}描述參數(shù)的先驗(yàn)。其中\alpha,\beta是先驗(yàn)分布的參數(shù),稱作超參數(shù)。\Gamma(x)伽馬函數(shù),定義為\Gamma(x)\equiv\int_o^{\infty}u^{x-1}e^{-u}\mathrmu0z1t8osu。
    這樣給定了先驗(yàn)和似然,可以得到參數(shù)的后驗(yàn)
    p(q|X)\propto p(X|q)p(q|\alpha,\beta)\propto q^{A+\alpha-1}(1-q)^{N-A+\beta-1}
    其中A=\sum_tx^t,N 是樣本總量??梢钥吹较闰?yàn)和后驗(yàn)具有相同的的形式,稱這樣的先驗(yàn)為共軛先驗(yàn)。
    通過(guò)后驗(yàn),可以對(duì)超參數(shù)\alpha,\beta做出這樣的解釋。A是N個(gè)樣本中為1 的次數(shù),\alpha可以看做在假想的\alpha+\beta個(gè)樣本中出現(xiàn)1 的次數(shù)。后驗(yàn)結(jié)合了實(shí)際樣本和假想樣本。當(dāng)\alpha=\beta=1時(shí),有均勻的先驗(yàn),并且后驗(yàn)和似然有相同的形狀。隨著兩數(shù)的增大,及它們之差的增加,根據(jù)伽馬分布,整個(gè)后驗(yàn)具有更小方差的分布。

  2. 多類K>2
    對(duì)多類情況,樣本服從多項(xiàng)式分布,記x^t_i=1表示實(shí)例t屬于類i,并且對(duì)\forall \ j\neq i,x^t_j=0。多項(xiàng)式分布的參數(shù)為\mathbf{q}=[q_1,q_2,\cdots,q_K]^T,滿足q_i\geq0,\sum_iq_i=1。
    樣本似然是p(X|\mathbf{q})=\prod_{t=1}^N\prod_{i=1}^Kq_i^{x_i^t}。
    對(duì)q的先驗(yàn)的描述是狄利克雷分布Dirichlet(\mathbf{q}|\boldsymbol{\alpha})=\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots \Gamma(\alpha_K)}\prod_iq_i^{\alpha_i+N_i-1}
    其中\boldsymbol{\alpha}=[\alpha_1,\cdots,\alpha_K]^T是先驗(yàn)的參數(shù),\alpha_0=\sum_i\alpha_i。同樣到處后驗(yàn)有
    p(\mathbf{q}|X)\propto p(X|\mathbf{q})p(\mathbf{q}|\boldsymbol{\alpha})\propto\prod_iq_i^{\alpha_i+N_i-1}
    其中N_i=\sum_{t=1}^Nx_i^t。同樣,后驗(yàn)和先驗(yàn)有同樣的形式,都是q_i的冪的乘積形式。并且同樣地看到,后驗(yàn)組合了實(shí)際樣本和假想樣本。

對(duì)高斯分布的參數(shù)的貝葉斯估計(jì)

一元高斯分布的參數(shù)估計(jì)

考慮樣本來(lái)自一元高斯分布,p(x)\sim N(\mu,\sigma^2),分布的參數(shù)\mu\sigma^2是需要估計(jì)的。樣本似然是p(X|\mu,\sigma^2)=\prod_t\frac1{\sqrt{2\pi}\sigma}\exp[-\frac{(x^t-\mu)^2}{2\sigma^2}]

  1. 未知均值,已知方差的情況下。均值\mu的共軛先驗(yàn)是高斯的,p(\mu)\sim N(\mu_0,\sigma_0^2),后驗(yàn)是p(\mu|X)\propto p(\mu)p(X|\mu)\sim N(\mu_N,\sigma_N^2)
    其中\mu_N=\frac{\sigma^2}{N\sigma^2+\sigma^2}\mu_0+\frac{N\sigma_0^2}{N\sigma_0^2+\sigma^2}m\frac1{\sigma_N^2}=\frac1{\sigma_0^2}+\frac N{\sigma^2}m=\frac{\sum_tx^t}N是樣本均值。
    可以看到,后驗(yàn)均值是先驗(yàn)均值和樣本均值的加權(quán)和。當(dāng)樣本規(guī)模N或先驗(yàn)的方差\sigma_0^2大時(shí),后驗(yàn)的均值越接近樣本均值 m ,后驗(yàn)更多地依賴樣本提供的信息。而當(dāng)\sigma_0^2較小時(shí),即當(dāng)\mu的先驗(yàn)的不確定性較小時(shí),先驗(yàn)\mu_0具有更大的影響。
    方差方面,當(dāng)先驗(yàn)方差\sigma_0^2更小,或樣本量N更大時(shí),后驗(yàn)方差\sigma_N^2更小。
    通過(guò)在后驗(yàn)(在\mu)上積分,得到 x 的分布
    p(x|X)=\int p(x|\mu)p(\mu|X)\mathrmu0z1t8os\mu\sim N(\mu_N,\sigma_N^2+\sigma^2)

  2. 對(duì)于方差為未知的情況,為了推導(dǎo)的方便,使用精度\lambda\equiv \frac1{\sigma^2},方差的倒數(shù)來(lái)描述方差。重寫(xiě)樣本似然有p(X|\lambda)=\prod_t\frac{\lambda^{1/2}}{\sqrt{2\pi}}\exp[-\frac{\lambda}{2}(x^t-\mu)^2]=\lambda^{N/2}(2\pi)^{-N/2}\exp[-\frac{\lambda}{2}\sum_t(x^t-\mu)^2]
    參數(shù)\lambda的共軛先驗(yàn)是伽馬分布
    p(\lambda)\sim gamma(a_0,b_0)= \frac1{\Gamma(a_0)}b_0^{a_0}\lambda^{a_0-1}\exp({-b_0\lambda})。
    其中a_0\equiv v_0/2,b_0\equiv (v_0/2)s_0^2,其中s_0^2是方差的先驗(yàn)估計(jì),v_0是先驗(yàn)的影響程度,類似于假想樣本的大小。
    后驗(yàn)也是伽馬分布p(\lambda|X)\propto p(X|\lambda)p(\lambda)\sim gamma(a_N,b_N),其中
    a_N=a_0+\frac N2=\frac{v_0+N}2,b_N=b_0+\frac N2s^2=\frac{v_0}2s_0^2+\frac N2s^2
    s^2=\frac {\sum_t(x^t-\mu)^2}N是樣本方差。
    于已知方差的情況一樣,后驗(yàn)的估計(jì)是先驗(yàn)和樣本統(tǒng)計(jì)量的加權(quán)和。

  3. 當(dāng)均值和方差均未知時(shí),需要聯(lián)合后驗(yàn)p(\mu,\lambda)=p(\mu|\lambda)p(\lambda)(仍用\lambda的形式來(lái)反應(yīng)方差)。其中,方差先驗(yàn)p(\lambda)\sim gamma(a_0,b_0),均值先驗(yàn)p(\mu|\lambda)\sim N(\mu_0,\frac1{\kappa_0\lambda})。\kappa_0也可以看做假想樣本的大小,反應(yīng)\lambda的影響程度。
    這種情況下的聯(lián)合共軛先驗(yàn)稱為正態(tài)-伽馬分布
    p(\mu,\lambda)\sim N(\mu_0,\frac1{\kappa_0\lambda})\centerdot gamma(a_0,b_0)
    后驗(yàn)是p(\mu,\lambda|X)\sim N(\mu_N,\frac1{\kappa_N\lambda})\centerdot gamma(a_N,b_N)
    其中\kappa_N=\kappa_0+N,\mu_N=\frac{\kappa_0\mu_0+N m}{\kappa_N}a_N=a_0+\frac N2,b_N=b_0+\frac N2s^2+\frac{\kappa_0N}{2\kappa_N}(m-\mu_0)^2
    在后驗(yàn)上積分,得到對(duì)x的概率分布估計(jì):
    p(x|X)=\iint p(x|\mu,\lambda)p(\mu,\lambda|X)\mathrmu0z1t8os\mu\mathrmu0z1t8os\lambda\sim t_{2a_N}(\mu_N,\frac{b_N(\kappa_N+1)}{a_N\kappa_N})
    是一個(gè)具有給定均值和方差的、自由度為2a_Nt分布。

多元高斯分布的參數(shù)估計(jì)

對(duì)多元變量樣本,與一元樣本的方法相同,只是使用了多元高斯分布p(\mathbf{x})\sim N_d(\boldsymbol{\mu},\boldsymbol{\Lambda})。其中\Lambda\equiv \boldsymbol{\Sigma}^{-1}精度矩陣。
對(duì)于均值,使用多元高斯先驗(yàn)p(\boldsymbol{\mu}|\boldsymbol{\Lambda})\sim N_d(\boldsymbol{\mu}_0,\frac1{\kappa_0}\boldsymbol{\Lambda})
對(duì)于精度矩陣,使用多元版本的伽馬分布(又稱Wishart分布)先驗(yàn)p(\boldsymbol{\Lambda})\sim Wishart(v_0,\mathbf{V}_0)。


對(duì)函數(shù)參數(shù)的貝葉斯估計(jì)

同上面概率分布的參數(shù)一樣,對(duì)函數(shù)參數(shù)的估計(jì),同樣將參數(shù)看做具有一種先驗(yàn)分布的隨機(jī)變量。使用貝葉斯規(guī)則計(jì)算后驗(yàn),再求積分。

回歸函數(shù)

考慮線性回歸模型r=\boldsymbol{\omega}^T\mathbf{x}+\epsilon,其中\epsilon \sim N(0,\frac1{\beta}),\beta是噪聲的精度。
模型的參數(shù)是權(quán)重\boldsymbol{\omega},記樣本為X=\{\mathbf{x}^r, r^r\}_{t=1}^N,其中\mathbf{x}\in R^dr^t\in R。將樣本記為輸入矩陣和期望輸出向量?jī)刹糠?img class="math-inline" src="https://math.jianshu.com/math?formula=%5B%5Cmathbf%7BX%7D%2C%5Cmathbf%7Br%7D%5D" alt="[\mathbf{X},\mathbf{r}]" mathimg="1">。
給定輸入的輸出有概率分布p(r^t|\mathbf{x}^t,\boldsymbol{\omega},\beta)\sim N(\boldsymbol{\omega}^T\mathbf{x},\frac1{\beta})

貝葉斯估計(jì)的情況下,為參數(shù)\boldsymbol{\omega}定義一個(gè)高斯先驗(yàn)p(\boldsymbol{\omega})\sim N(0,\frac1{\alpha}\mathbf{I})。對(duì)于后驗(yàn),可得到p(\boldsymbol{\omega}|\mathbf{X},\mathbf{r})\propto p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega},\beta) p(\boldsymbol{\omega})\sim N(\boldsymbol{\mu}_N,\boldsymbol{\Sigma_N})。
其中\boldsymbol{\mu}_N=\beta\boldsymbol{\Sigma_N}\mathbf{X}^T\mathbf{r},\boldsymbol{\Sigma_N}=(\alpha\mathbf{I}+\beta\mathbf{X}^T\mathbf{X})^{-1}。
為了得到新輸入\mathbf{x}^{\prime}的輸出r^{\prime}=\int(\boldsymbol{\omega}^T\mathbf{x}^{\prime})p(\boldsymbol{\omega}|X,\mathbf{r})\mathrmu0z1t8os\boldsymbol{\omega}。

如果采用最大后驗(yàn)估計(jì)對(duì)參數(shù)做點(diǎn)估計(jì),由于后驗(yàn)為高斯分布,則有\boldsymbol{\omega}_{MAP}=\boldsymbol{\mu}_N=\beta(\alpha\mathbf{I}+\beta\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{r} \tag{a}

MAP等同于最大化后驗(yàn)的對(duì)數(shù)
\begin{align} \log p(\boldsymbol{\omega}|\mathbf{X},\mathbf{r})\propto & \ \log p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega})+\log p(\boldsymbol{\omega}) \\ =&-\frac{\beta}2\sum_t(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2-\frac{\alpha}2\boldsymbol{\omega}^T\boldsymbol{\omega}+c \end{align} \tag

而同樣作為點(diǎn)估計(jì)的極大似然估計(jì),并沒(méi)有利用先驗(yàn)信息。整體樣本的對(duì)數(shù)似然為L(\boldsymbol{\omega}|X)\equiv \log (X|\boldsymbol{\omega})=\log p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega},\beta)+\log p(\mathbf{X}),其中第二項(xiàng)相對(duì)于參數(shù)是常數(shù)。
把似然的第一項(xiàng)展開(kāi)成
\begin{align} \log p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega},\beta)=&\log \prod_tp(r^t|\mathbf{x}^t,\boldsymbol{\omega},\beta) \\ =&-N\log(\sqrt{2\pi})+N\log\sqrt{\beta}-\frac{\beta}2\sum_t(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2 \end{align}
最大似然估計(jì)要最大化對(duì)數(shù)似然,等價(jià)于最小化最后一項(xiàng),即最小化誤差的平方和的參數(shù)\boldsymbol{\omega}。誤差平方和為E=\sum_{t=1}^N(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2=(\mathbf{r}-\mathbf{X}\boldsymbol{\omega})^T(\mathbf{r}-\mathbf{X}\boldsymbol{\omega})=\mathbf{r}^T\mathbf{r}-2\boldsymbol{\omega}^T\mathbf{X}^T\mathbf{r}+\boldsymbol{\omega}^T\mathbf{X}^T\mathbf{X}\boldsymbol{\omega}
關(guān)于\boldsymbol{\omega}求導(dǎo)并令其等于零,可得到
\boldsymbol{\omega}_{ML}=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{r} \tag{c}


對(duì)于一般模型g(\mathbf{x}|\boldsymbol{\omega}),不便于像線性模型一樣求解最大似然和最大后驗(yàn)估計(jì)。但思想是類似地,一樣可通過(guò)最小化誤差平方和E(X|\boldsymbol{\omega})=\sum_t[r^t-g(\mathbf{x}|\boldsymbol{\omega})]^2求得最小二乘估計(jì)子\boldsymbol{\omega}_{LSQ},來(lái)計(jì)算輸入的輸出r^{\prime}=g(\mathbf{x}^{\prime}|\boldsymbol{\omega}_{LSQ})
或采用最大后驗(yàn)作為參數(shù)估計(jì),由(b)的形式可寫(xiě)出一個(gè)適用于一般函數(shù)的增廣誤差函數(shù)
E=\sum_t[r^t-g(\mathbf{x}^t|\boldsymbol{\omega})]^2+\lambda\sum_i\omega_i^2
該目標(biāo)函數(shù)比誤差平方和多了一項(xiàng),在統(tǒng)計(jì)學(xué)中稱之為嶺回歸。是一種改良的最小二乘估計(jì)法,通過(guò)放棄最小二乘法的無(wú)偏性,使更為符合實(shí)際、更可靠的回歸方法。對(duì)病態(tài)數(shù)據(jù)的擬合要強(qiáng)于最小二乘法。(對(duì)于線性模型來(lái)說(shuō),則避免(c)中X矩陣中某個(gè)元素的一個(gè)很小的變動(dòng),會(huì)引起最后計(jì)算結(jié)果誤差很大。正如MAP的解(a)比ML的解(c)在對(duì)角線增加了闡述想\alpha,保證矩陣可逆。)

在《多層感知器》一節(jié)中的網(wǎng)絡(luò)規(guī)模部分介紹的權(quán)重衰減(a),也有嶺回歸的形式,由第二項(xiàng)給每個(gè)\omega_i一個(gè)靠近0的趨勢(shì)。它們的目的都是降低模型復(fù)雜度,是正則化方法。

盡管嶺回歸的方法減少\sum_i\omega_i^2,但并不強(qiáng)制單個(gè)\omega_i為0。即它不能用于特征選擇,不能用于確定哪些x_i是冗余的。為此可使用L_1范數(shù)的拉普拉斯先驗(yàn)
p(\boldsymbol{\omega}|\alpha)=\prod_i\frac{\alpha}2\exp(-\alpha|\omega_i|)=(\frac{\alpha}2)^d\exp(-\alpha\sum_i |\omega_i|),而不是L_2范數(shù)的高斯先驗(yàn)。
對(duì)應(yīng)的后驗(yàn)不再是高斯的,MAP估計(jì)通過(guò)最小化下式得到:
E_{lasso}(\boldsymbol{\omega}|X)=\sum_t(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2+2\sigma^2\alpha\sum_i|\omega_i|
其中\sigma^2是噪聲方差。這種方法做lasso(最小絕對(duì)值收縮和選擇算子)回歸。


具有噪聲精度先驗(yàn)的回歸——MCMC抽樣

前一部分假設(shè)噪聲服從給定的正態(tài)分布,\epsilon \sim N(0,\frac1{\beta})。如果\beta也是未知的,那么也可以對(duì)它定義先驗(yàn)。同前文對(duì)高斯分布參數(shù)的貝葉斯估計(jì)一樣,對(duì)精度\beta定義伽馬先驗(yàn)p(\beta)\sim gamma(a_0,b_0),
進(jìn)一步定義\boldsymbol{\omega}基于\beta的先驗(yàn)p(\boldsymbol{\omega}|\beta)\sim N(\boldsymbol{\mu}_0,\beta\boldsymbol{\Sigma_0})
如果\boldsymbol{\mu}_0=0,\boldsymbol{\Sigma_0}=\alpha\mathbf{I},則如前一部分所討論的。
參數(shù)\boldsymbol{\omega}\beta的共軛先驗(yàn)為正態(tài)-伽馬先驗(yàn):
p(\boldsymbol{\omega},\beta)=p(\boldsymbol{\omega}|\beta)p(\boldsymbol{\omega})\sim normal-gamma(\boldsymbol{\mu}_0,\boldsymbol{\Sigma_0},a_0,b_0)
可得后驗(yàn)p(\boldsymbol{\omega},\beta|\mathbf{X},\mathbf{r}) \sim normal-gamma(\boldsymbol{\mu}_N,\boldsymbol{\Sigma}_N,a_N,b_N)

其中\boldsymbol{\Sigma}_N=(\mathbf{X}^T\mathbf{X}+\boldsymbol{\Sigma_0})^{-1}
\boldsymbol{\mu}_N=\boldsymbol{\Sigma}_N(\mathbf{X}^T\mathbf{r}+\boldsymbol{\Sigma}_0\boldsymbol{\mu}_0)
a_N=a_0+\frac N2
b_N=b_0+\frac12(\mathbf{r}^T\mathbf{r}+\boldsymbol{\mu}_0^T\boldsymbol{\Sigma}_0\boldsymbol{\mu}_0-\boldsymbol{\mu}_N^T\boldsymbol{\Sigma}_N\boldsymbol{\mu}_N)

這里采用馬爾科夫鏈蒙特卡洛抽樣(MCMC)來(lái)得到貝葉斯擬合。首先從p(\beta)\sim gamma(a_N,b_N)中抽取一個(gè)\beta值,然后從p(\boldsymbol{\omega}|\beta)\sim N(\boldsymbol{\mu}_N,\beta\boldsymbol{\Sigma}_N)抽取\boldsymbol{\omega}。
這樣得到一個(gè)從后驗(yàn)p(\boldsymbol{\omega},\beta)中抽樣的模型,通過(guò)抽取多個(gè)模型,并取這些模型的平均,作為全貝葉斯積分的近似。


基函數(shù)或核函數(shù)的使用

對(duì)給定輸入\mathbf{x}^{\prime},使用參數(shù)\boldsymbol{\omega}的MAP估計(jì)(a)來(lái)計(jì)算輸出
r^{\prime}=(\mathbf{x}^{\prime})^T\boldsymbol{\omega}=\beta(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N\mathbf{X}^T\mathbf{r}=\sum_t \beta(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N\mathbf{x}^tr^t
這是對(duì)偶表示,其中\boldsymbol{\Sigma}_N包含先驗(yàn)參數(shù)。如果像用支持向量機(jī)那樣用訓(xùn)練數(shù)據(jù)表示參數(shù),可以把預(yù)測(cè)輸出寫(xiě)成輸入和懸鏈數(shù)據(jù)的函數(shù),我們可以把這表示為r^{\prime}=\sum_tK(\mathbf{x}^{\prime},\mathbf{x}^t)r^t。
其中
K(\mathbf{x}^{\prime},\mathbf{x}^t)=\beta(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N\mathbf{x}^t \tagu0z1t8os

考慮到可以使用非線性基函數(shù)\phi(\mathbf{x})映射到新空間,在新空間中擬合線性模型(《核機(jī)器》)。這種情況下,作為線性核(d)的推廣,其中的 d 維\mathbf{x}變?yōu)?k 維的\phi(\mathbf{x})。
\begin{align} r^{\prime}=&\phi(\mathbf{x}^{\prime})^T\boldsymbol{\omega}\\ =&\sum_t\beta\phi(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N^{\phi}\phi(\mathbf{x}^t)r^t\\ =&\sum_tK(\mathbf{x}^{\prime},\mathbf{x}^t)r^t \end{align}
其中,K(\mathbf{x}^{\prime},\mathbf{x}^t)=\beta\phi(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N^{\phi}\phi(\mathbf{x}^t)\boldsymbol{\Sigma}_N^{\phi}=(\alpha\mathbf{I}+\beta\Phi^T\Phi)^{-1},\Phi\mathbf{X}映射后的數(shù)據(jù)矩陣。這是\phi(\mathbf{x})的空間中的對(duì)偶表示。

貝葉斯分類

在《監(jiān)督學(xué)習(xí)——分類(基于判別式的方法)》中介紹的邏輯斯蒂判別式,對(duì)兩類問(wèn)題,假定線性可分,有P(C_1|\mathbf{x}^t)=y^t=sigmoid(\boldsymbol{\omega}^T\mathbf{x}^t)。伯努利樣本的對(duì)數(shù)似然為L(\mathbf{r}|\mathbf{X})=\sum_tr^t\log y_t+(1-r^t)\log(1-y^t)。通過(guò)最大似然估計(jì)得到參數(shù)\boldsymbol{\omega}的估計(jì)。
在貝葉斯方法中,假定參數(shù)的高斯先驗(yàn)p(\boldsymbol{\omega})=N(\mathbf{m}_0,\mathbf{S}_0),而后驗(yàn)的對(duì)數(shù)為
\begin{align} \log p(\boldsymbol{\omega}|\mathbf{r},\mathbf{X})\propto & \ \log p(\boldsymbol{\omega})+\log p(\mathbf{r}|\boldsymbol{\omega},\mathbf{X}) \\ =&-\frac12(\boldsymbol{\omega}-\mathbf{m}_0)^T\mathbf{S}_0^{-1}(\boldsymbol{\omega}-\mathbf{m}_0 )+\sum_t r^t \log y_t+(1-r^t)\log (1-y^t)+c \end{align}
這個(gè)后驗(yàn)分布不再是高斯分布,并且不能精確地積分。這里使用拉普拉斯近似。

  • 拉普拉斯近似
    對(duì)某個(gè)分布f(x),首先找出f(x)的眾數(shù)x_0,在拉普拉斯近似使用高斯函數(shù)q(x)來(lái)近似它,其中均值中心為x_0,方差由均值附近的f(x)的曲率給定。
    為了得到高斯的方差,考慮\log f(x)x=x_0處的泰勒展開(kāi)式\log f(x)=\log f(x_0)-\frac12a(x-x_0)^2+\cdots
    其中a\equiv -\frac{\mathrmu0z1t8os}{\mathrmu0z1t8osx^2}\log f(x)|_{x=x_0}
    泰勒展開(kāi)式的一階線性項(xiàng)為0,因?yàn)樵诒姅?shù)處的導(dǎo)數(shù)為0。
    忽略高階項(xiàng),由對(duì)數(shù)取指數(shù),得到f(x)=f(x_0)\exp[-\frac a2(x-x_0)^2]。從指數(shù)部分可知方差為\frac1{a^2}。令由均值為x_0。
    得到f(x)的高斯估計(jì)q(x)=\sqrt{\frac a{2\pi}}\exp[-\frac a2(x-x_0)^2]\sim N(x_0,\frac1a)。


    在多元情況下,x\in R^d,類似地有
    \log f(\mathbf{x})=\log f(\mathbf{x}_0)-\frac12(\mathbf{x}-\mathbf{x}_0)^T\mathbf{A}(\mathbf{x}-\mathbf{x}_0)+\cdots
    其中\mathbf{A}是二階導(dǎo)數(shù)的矩陣
    拉普拉斯近似為q(\mathbf{x})=\frac{|\mathbf{A}|^{1/2}}{(2\pi)^{d/2}}\exp[-\frac12(\mathbf{x}-\mathbf{x}_0)^T\mathbf{A}(\mathbf{x}-\mathbf{x}_0)]\sim N_d(\mathbf{x}_0,\mathbf{A}^{-1})

這樣,根據(jù)多元情況的拉普拉斯近似,可估計(jì)類概率為P(C_1|\mathbf{x})=\int sigmoid(\boldsymbol{\omega}^T\mathbf{x})q(\boldsymbol{\omega})\mathrmu0z1t8os\boldsymbol{\omega},其中q(\boldsymbol{\omega})是對(duì)后驗(yàn)p(\boldsymbol{\omega}|\mathbf{r},\mathbf{X})的拉普拉斯近似。


模型的比較——貝葉斯方法

對(duì)給定數(shù)據(jù)集,可以用不同的模型去擬合它,每個(gè)模型有其各自的參數(shù)。以不同次數(shù)的多項(xiàng)式模型為例,不同的多項(xiàng)式對(duì)數(shù)據(jù)的擬合情況是不同的,存在過(guò)擬合和欠擬合的平衡問(wèn)題。
本節(jié)對(duì)模型M假設(shè)先驗(yàn),來(lái)對(duì)不同的模型進(jìn)行比較。

對(duì)給定數(shù)據(jù)X(N個(gè)實(shí)例),給定模型M和參數(shù)\theta,數(shù)據(jù)的似然是p(X|M,\theta),那么在所有\theta上取平均,得到貝葉斯邊緣似然(又稱模型證據(jù)p(X|M)=\int p(X|\theta,M)p(\theta|M)\mathrmu0z1t8os\theta
其中p(\theta|M)模型 M 的參數(shù)先驗(yàn)假設(shè)
可以計(jì)算模型的后驗(yàn)p(M|X)=\frac{p(X|M)p(M)}{p(X)}。其中p(M)模型的先驗(yàn)假設(shè)。

下面介紹如何利用模型的后驗(yàn)來(lái)選擇模型。
對(duì)任意模型M,對(duì)來(lái)自M的所有可能的包含N個(gè)實(shí)例的數(shù)據(jù)集X_M,有\sum_{X_M}p(X_M|M)=1。
因?yàn)閷?duì)復(fù)雜模型而言,它的泛化能力強(qiáng)于簡(jiǎn)單模型,其能擬合的數(shù)據(jù)集也就明顯多于簡(jiǎn)單模型。也就是說(shuō),對(duì)給定的數(shù)據(jù)X^{\prime},復(fù)雜模型的p(X^{\prime}|M)會(huì)較小。
如果有兩個(gè)模型M_0M_1,則可以比較它們的后驗(yàn)
\frac{p(M_1|X)}{p(M_0|X)}=\frac{p(X|M_1)p(M_1)}{p(X|M_0)p(M_0)}
其中兩個(gè)邊緣似然的比\frac{p(X|M_1)}{p(X|M_0)}稱作貝葉斯因子。如果兩個(gè)模型的先驗(yàn)相等,則可直接通過(guò)貝葉斯因子選擇后驗(yàn)較大的模型。

在貝葉斯方法中,也可不做模型選擇,而是像參數(shù)的貝葉斯估計(jì)一樣,平均各個(gè)模型的預(yù)測(cè)。用貝葉斯邊緣似然加權(quán),求得所有模型輸出的加權(quán)和。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容