区三区久久,精品日韩在线视频网站,欧美精品第一页

介紹
第一部分參數(shù)方法——類密度模型參數(shù)估計(jì)
第二部分監(jiān)督學(xué)習(xí)——分類（基于似然的方法）
第三部分監(jiān)督學(xué)習(xí)——分類（基于判別式的方法）（參數(shù)方法——判別式參數(shù)估計(jì)）
第四部分監(jiān)督學(xué)習(xí)——回歸
第五部分監(jiān)督學(xué)習(xí)——關(guān)聯(lián)規(guī)則
第六部分維度規(guī)約（特征的提取和組合）
第七部分半?yún)?shù)方法
第八部分非監(jiān)督學(xué)習(xí)——聚類
第九部分非參數(shù)方法——密度估計(jì)
第十部分非參數(shù)方法——決策樹(shù)實(shí)現(xiàn)的判別式
第十一部分多層感知器——非參數(shù)估計(jì)器
第十二部分局部模型
第十三部分支持向量機(jī)與核機(jī)器
第十四部分隱馬爾科夫模型
第十五部分參數(shù)的貝葉斯估計(jì)
第十六部分集成學(xué)習(xí)——組合多學(xué)習(xí)器
第十七部分增強(qiáng)學(xué)習(xí)
第十八部分機(jī)器學(xué)習(xí)實(shí)驗(yàn)
第十九部分特征工程與數(shù)據(jù)預(yù)處理

在貝葉斯方法中，把參數(shù)看做具有某種概率分布的隨機(jī)變量，對(duì)參數(shù)的這種不確定性建模。
在極大似然估計(jì)中，把參數(shù)看做未知常數(shù)，取最大化似然 $l(\theta|X)\equiv p(X|\theta)=\prod_{t=1}^N p(x^t|\theta)$ 的參數(shù)為估計(jì)值。但在使用小樣本時(shí)，極大似然估計(jì)可能是很差的估計(jì)，在不同的訓(xùn)練集上求得的參數(shù)相差較大，具有較大方差。
在貝葉斯估計(jì)中，利用估計(jì) $\theta$ 具有不確定這一事實(shí)，不是估計(jì)單個(gè) $\theta$ ，而是通過(guò)估計(jì)分布 $p(\theta|X)$ ，加權(quán)使用所有的 $\theta$ 。也就是分?jǐn)偣烙?jì)的不確定性。

在估計(jì) $p(\theta|X)$ 時(shí)，可以利用我們可能具有的關(guān)于參數(shù)值的先驗(yàn)信息 $p(\theta)$ 。尤其在使用小樣本時(shí)，先驗(yàn)信息很重。使用貝葉斯規(guī)則，將先驗(yàn)與似然結(jié)合在一起，來(lái)計(jì)算后驗(yàn) $p(\theta|X)=\frac{p(\theta)p(X|\theta)}{p(X)}$ 。
這樣，給定樣本X，能夠用它估計(jì)新實(shí)例 $x^{\prime}$ 的概率分布：
$p(x^{\prime}|X)=\frac{p(x^{\prime},X)}{p(X)} =\frac{\int p(x^{\prime},X,\theta)\mathrmu0z1t8os\theta}{p(X)} =\frac{\int p(\theta)p(X|\theta)p(x^{\prime}|\theta)\mathrmu0z1t8os\theta}{p(X)} =\int p(x^{\prime}|\theta)p(\theta|X)\mathrmu0z1t8os\theta$
如果 $\theta$ 是離散值，則用 $\sum_{\theta}$ 取代積分，后驗(yàn)則為樣本X下每個(gè) $\theta$ 的可能性。

這與《參數(shù)方法——類密度模型參數(shù)的估計(jì)》中介紹的貝葉斯估計(jì)不同，沒(méi)有先估計(jì)確定的 $\theta_{Bayes}$ ，而是對(duì)所有可能的后驗(yàn)進(jìn)行了積分，是全貝葉斯方法。

但大多數(shù)情況下這個(gè)積分很難計(jì)算的，除非后驗(yàn)有很好的形式（所以《參數(shù)方法——類密度模型參數(shù)的估計(jì)》中的方法，將參數(shù)歸結(jié)到一點(diǎn)，不去計(jì)算這個(gè)積分）。

但貝葉斯估計(jì)還是有其獨(dú)有的優(yōu)點(diǎn)。首先先驗(yàn)幫助忽略了不太可能的 $\theta$ 值。此外，不是在預(yù)測(cè)時(shí)使用單個(gè) $\theta$ ，而是生成可能的 $\theta$ 值集合，并在預(yù)測(cè)時(shí)全部使用，用可能性加權(quán)。
而最大后驗(yàn)（MAP）方法使用先驗(yàn)，則只利用了第一個(gè)優(yōu)點(diǎn)。而對(duì)于極大似然（ML）方法，這兩個(gè)優(yōu)點(diǎn)都不具備。

對(duì)于很多無(wú)法計(jì)算的情況，通過(guò)近似計(jì)算來(lái)處理，包括馬爾科夫鏈蒙特卡洛抽樣，拉普拉斯近似、變分近似。

對(duì)離散分布的參數(shù)的貝葉斯估計(jì)

兩類K=2
樣本 $x^t=\{ 0,1 \}$ 服從伯努利分布，假定q 為樣本為1 的概率。樣本似然為 $p(X|q)=\prod_t q^{x^t}(1-q)^{1-x^t}$
需要對(duì)伯努利分布的參數(shù) q 進(jìn)行估計(jì)。采用貝塔分布 $beta(q|\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}q^{\alpha-1}(1-q)^{\beta-1}$ 描述參數(shù)的先驗(yàn)。其中 $\alpha$ ， $\beta$ 是先驗(yàn)分布的參數(shù)，稱作超參數(shù)。 $\Gamma(x)$ 是伽馬函數(shù)，定義為 $\Gamma(x)\equiv\int_o^{\infty}u^{x-1}e^{-u}\mathrmu0z1t8osu$ 。
這樣給定了先驗(yàn)和似然，可以得到參數(shù)的后驗(yàn)
$p(q|X)\propto p(X|q)p(q|\alpha,\beta)\propto q^{A+\alpha-1}(1-q)^{N-A+\beta-1}$
其中 $A=\sum_tx^t$ ，N 是樣本總量?？梢钥吹较闰?yàn)和后驗(yàn)具有相同的的形式，稱這樣的先驗(yàn)為共軛先驗(yàn)。
通過(guò)后驗(yàn)，可以對(duì)超參數(shù) $\alpha$ ， $\beta$ 做出這樣的解釋。A是N個(gè)樣本中為1 的次數(shù)， $\alpha$ 可以看做在假想的 $\alpha+\beta$ 個(gè)樣本中出現(xiàn)1 的次數(shù)。后驗(yàn)結(jié)合了實(shí)際樣本和假想樣本。當(dāng) $\alpha=\beta=1$ 時(shí)，有均勻的先驗(yàn)，并且后驗(yàn)和似然有相同的形狀。隨著兩數(shù)的增大，及它們之差的增加，根據(jù)伽馬分布，整個(gè)后驗(yàn)具有更小方差的分布。
多類K>2
對(duì)多類情況，樣本服從多項(xiàng)式分布，記 $x^t_i=1$ 表示實(shí)例 $t$ 屬于類 $i$ ，并且對(duì) $\forall \ j\neq i,x^t_j=0$ 。多項(xiàng)式分布的參數(shù)為 $\mathbf{q}=[q_1,q_2,\cdots,q_K]^T$ ，滿足 $q_i\geq0$ ， $\sum_iq_i=1$ 。
樣本似然是 $p(X|\mathbf{q})=\prod_{t=1}^N\prod_{i=1}^Kq_i^{x_i^t}$ 。
對(duì)q的先驗(yàn)的描述是狄利克雷分布 $Dirichlet(\mathbf{q}|\boldsymbol{\alpha})=\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots \Gamma(\alpha_K)}\prod_iq_i^{\alpha_i+N_i-1}$
其中 $\boldsymbol{\alpha}=[\alpha_1,\cdots,\alpha_K]^T$ 是先驗(yàn)的參數(shù)， $\alpha_0=\sum_i\alpha_i$ 。同樣到處后驗(yàn)有
$p(\mathbf{q}|X)\propto p(X|\mathbf{q})p(\mathbf{q}|\boldsymbol{\alpha})\propto\prod_iq_i^{\alpha_i+N_i-1}$
其中 $N_i=\sum_{t=1}^Nx_i^t$ 。同樣，后驗(yàn)和先驗(yàn)有同樣的形式，都是 $q_i$ 的冪的乘積形式。并且同樣地看到，后驗(yàn)組合了實(shí)際樣本和假想樣本。

對(duì)高斯分布的參數(shù)的貝葉斯估計(jì)

一元高斯分布的參數(shù)估計(jì)

考慮樣本來(lái)自一元高斯分布， $p(x)\sim N(\mu,\sigma^2)$ ，分布的參數(shù) $\mu$ ， $\sigma^2$ 是需要估計(jì)的。樣本似然是 $p(X|\mu,\sigma^2)=\prod_t\frac1{\sqrt{2\pi}\sigma}\exp[-\frac{(x^t-\mu)^2}{2\sigma^2}]$

在未知均值，已知方差的情況下。均值 $\mu$ 的共軛先驗(yàn)是高斯的， $p(\mu)\sim N(\mu_0,\sigma_0^2)$ ，后驗(yàn)是 $p(\mu|X)\propto p(\mu)p(X|\mu)\sim N(\mu_N,\sigma_N^2)$
其中 $\mu_N=\frac{\sigma^2}{N\sigma^2+\sigma^2}\mu_0+\frac{N\sigma_0^2}{N\sigma_0^2+\sigma^2}m$ ， $\frac1{\sigma_N^2}=\frac1{\sigma_0^2}+\frac N{\sigma^2}$ 。 $m=\frac{\sum_tx^t}N$ 是樣本均值。
可以看到，后驗(yàn)均值是先驗(yàn)均值和樣本均值的加權(quán)和。當(dāng)樣本規(guī)模N或先驗(yàn)的方差 $\sigma_0^2$ 大時(shí)，后驗(yàn)的均值越接近樣本均值 m ，后驗(yàn)更多地依賴樣本提供的信息。而當(dāng) $\sigma_0^2$ 較小時(shí)，即當(dāng) $\mu$ 的先驗(yàn)的不確定性較小時(shí)，先驗(yàn) $\mu_0$ 具有更大的影響。
方差方面，當(dāng)先驗(yàn)方差 $\sigma_0^2$ 更小，或樣本量N更大時(shí)，后驗(yàn)方差 $\sigma_N^2$ 更小。
通過(guò)在后驗(yàn)（在 $\mu$ ）上積分，得到 x 的分布
$p(x|X)=\int p(x|\mu)p(\mu|X)\mathrmu0z1t8os\mu\sim N(\mu_N,\sigma_N^2+\sigma^2)$
對(duì)于方差為未知的情況，為了推導(dǎo)的方便，使用精度 $\lambda\equiv \frac1{\sigma^2}$ ，方差的倒數(shù)來(lái)描述方差。重寫(xiě)樣本似然有 $p(X|\lambda)=\prod_t\frac{\lambda^{1/2}}{\sqrt{2\pi}}\exp[-\frac{\lambda}{2}(x^t-\mu)^2]=\lambda^{N/2}(2\pi)^{-N/2}\exp[-\frac{\lambda}{2}\sum_t(x^t-\mu)^2]$
參數(shù) $\lambda$ 的共軛先驗(yàn)是伽馬分布
$p(\lambda)\sim gamma(a_0,b_0)= \frac1{\Gamma(a_0)}b_0^{a_0}\lambda^{a_0-1}\exp({-b_0\lambda})$ 。
其中 $a_0\equiv v_0/2,b_0\equiv (v_0/2)s_0^2$ ，其中 $s_0^2$ 是方差的先驗(yàn)估計(jì)， $v_0$ 是先驗(yàn)的影響程度，類似于假想樣本的大小。
后驗(yàn)也是伽馬分布 $p(\lambda|X)\propto p(X|\lambda)p(\lambda)\sim gamma(a_N,b_N)$ ，其中
$a_N=a_0+\frac N2=\frac{v_0+N}2$ ， $b_N=b_0+\frac N2s^2=\frac{v_0}2s_0^2+\frac N2s^2$
$s^2=\frac {\sum_t(x^t-\mu)^2}N$ 是樣本方差。
于已知方差的情況一樣，后驗(yàn)的估計(jì)是先驗(yàn)和樣本統(tǒng)計(jì)量的加權(quán)和。
當(dāng)均值和方差均未知時(shí)，需要聯(lián)合后驗(yàn) $p(\mu,\lambda)=p(\mu|\lambda)p(\lambda)$ （仍用 $\lambda$ 的形式來(lái)反應(yīng)方差）。其中，方差先驗(yàn) $p(\lambda)\sim gamma(a_0,b_0)$ ，均值先驗(yàn) $p(\mu|\lambda)\sim N(\mu_0,\frac1{\kappa_0\lambda})$ 。 $\kappa_0$ 也可以看做假想樣本的大小，反應(yīng) $\lambda$ 的影響程度。
這種情況下的聯(lián)合共軛先驗(yàn)稱為正態(tài)-伽馬分布
$p(\mu,\lambda)\sim N(\mu_0,\frac1{\kappa_0\lambda})\centerdot gamma(a_0,b_0)$
后驗(yàn)是 $p(\mu,\lambda|X)\sim N(\mu_N,\frac1{\kappa_N\lambda})\centerdot gamma(a_N,b_N)$
其中 $\kappa_N=\kappa_0+N$ ， $\mu_N=\frac{\kappa_0\mu_0+N m}{\kappa_N}$ ， $a_N=a_0+\frac N2$ ， $b_N=b_0+\frac N2s^2+\frac{\kappa_0N}{2\kappa_N}(m-\mu_0)^2$
在后驗(yàn)上積分，得到對(duì)x的概率分布估計(jì)：
$p(x|X)=\iint p(x|\mu,\lambda)p(\mu,\lambda|X)\mathrmu0z1t8os\mu\mathrmu0z1t8os\lambda\sim t_{2a_N}(\mu_N,\frac{b_N(\kappa_N+1)}{a_N\kappa_N})$
是一個(gè)具有給定均值和方差的、自由度為 $2a_N$ 的 $t$ 分布。

多元高斯分布的參數(shù)估計(jì)

對(duì)多元變量樣本，與一元樣本的方法相同，只是使用了多元高斯分布 $p(\mathbf{x})\sim N_d(\boldsymbol{\mu},\boldsymbol{\Lambda})$ 。其中 $\Lambda\equiv \boldsymbol{\Sigma}^{-1}$ 是精度矩陣。
對(duì)于均值，使用多元高斯先驗(yàn) $p(\boldsymbol{\mu}|\boldsymbol{\Lambda})\sim N_d(\boldsymbol{\mu}_0,\frac1{\kappa_0}\boldsymbol{\Lambda})$
對(duì)于精度矩陣，使用多元版本的伽馬分布（又稱Wishart分布）先驗(yàn) $p(\boldsymbol{\Lambda})\sim Wishart(v_0,\mathbf{V}_0)$ 。

對(duì)函數(shù)參數(shù)的貝葉斯估計(jì)

同上面概率分布的參數(shù)一樣，對(duì)函數(shù)參數(shù)的估計(jì)，同樣將參數(shù)看做具有一種先驗(yàn)分布的隨機(jī)變量。使用貝葉斯規(guī)則計(jì)算后驗(yàn)，再求積分。

回歸函數(shù)

考慮線性回歸模型 $r=\boldsymbol{\omega}^T\mathbf{x}+\epsilon$ ，其中 $\epsilon \sim N(0,\frac1{\beta})$ ， $\beta$ 是噪聲的精度。
模型的參數(shù)是權(quán)重 $\boldsymbol{\omega}$ ，記樣本為 $X=\{\mathbf{x}^r, r^r\}_{t=1}^N$ ，其中 $\mathbf{x}\in R^d$ ， $r^t\in R$ 。將樣本記為輸入矩陣和期望輸出向量?jī)刹糠?img class="math-inline" src="https://math.jianshu.com/math?formula=%5B%5Cmathbf%7BX%7D%2C%5Cmathbf%7Br%7D%5D" alt="[\mathbf{X},\mathbf{r}]" mathimg="1">。
給定輸入的輸出有概率分布 $p(r^t|\mathbf{x}^t,\boldsymbol{\omega},\beta)\sim N(\boldsymbol{\omega}^T\mathbf{x},\frac1{\beta})$

在貝葉斯估計(jì)的情況下，為參數(shù) $\boldsymbol{\omega}$ 定義一個(gè)高斯先驗(yàn) $p(\boldsymbol{\omega})\sim N(0,\frac1{\alpha}\mathbf{I})$ 。對(duì)于后驗(yàn)，可得到 $p(\boldsymbol{\omega}|\mathbf{X},\mathbf{r})\propto p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega},\beta) p(\boldsymbol{\omega})\sim N(\boldsymbol{\mu}_N,\boldsymbol{\Sigma_N})$ 。
其中 $\boldsymbol{\mu}_N=\beta\boldsymbol{\Sigma_N}\mathbf{X}^T\mathbf{r}$ ， $\boldsymbol{\Sigma_N}=(\alpha\mathbf{I}+\beta\mathbf{X}^T\mathbf{X})^{-1}$ 。
為了得到新輸入 $\mathbf{x}^{\prime}$ 的輸出 $r^{\prime}=\int(\boldsymbol{\omega}^T\mathbf{x}^{\prime})p(\boldsymbol{\omega}|X,\mathbf{r})\mathrmu0z1t8os\boldsymbol{\omega}$ 。

如果采用最大后驗(yàn)估計(jì)對(duì)參數(shù)做點(diǎn)估計(jì)，由于后驗(yàn)為高斯分布，則有 $\boldsymbol{\omega}_{MAP}=\boldsymbol{\mu}_N=\beta(\alpha\mathbf{I}+\beta\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{r} \tag{a}$

MAP等同于最大化后驗(yàn)的對(duì)數(shù)
$\begin{align} \log p(\boldsymbol{\omega}|\mathbf{X},\mathbf{r})\propto & \ \log p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega})+\log p(\boldsymbol{\omega}) \\ =&-\frac{\beta}2\sum_t(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2-\frac{\alpha}2\boldsymbol{\omega}^T\boldsymbol{\omega}+c \end{align} \tag$

而同樣作為點(diǎn)估計(jì)的極大似然估計(jì)，并沒(méi)有利用先驗(yàn)信息。整體樣本的對(duì)數(shù)似然為 $L(\boldsymbol{\omega}|X)\equiv \log (X|\boldsymbol{\omega})=\log p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega},\beta)+\log p(\mathbf{X})$ ，其中第二項(xiàng)相對(duì)于參數(shù)是常數(shù)。
把似然的第一項(xiàng)展開(kāi)成
$\begin{align} \log p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega},\beta)=&\log \prod_tp(r^t|\mathbf{x}^t,\boldsymbol{\omega},\beta) \\ =&-N\log(\sqrt{2\pi})+N\log\sqrt{\beta}-\frac{\beta}2\sum_t(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2 \end{align}$
最大似然估計(jì)要最大化對(duì)數(shù)似然，等價(jià)于最小化最后一項(xiàng)，即最小化誤差的平方和的參數(shù) $\boldsymbol{\omega}$ 。誤差平方和為 $E=\sum_{t=1}^N(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2=(\mathbf{r}-\mathbf{X}\boldsymbol{\omega})^T(\mathbf{r}-\mathbf{X}\boldsymbol{\omega})=\mathbf{r}^T\mathbf{r}-2\boldsymbol{\omega}^T\mathbf{X}^T\mathbf{r}+\boldsymbol{\omega}^T\mathbf{X}^T\mathbf{X}\boldsymbol{\omega}$
關(guān)于 $\boldsymbol{\omega}$ 求導(dǎo)并令其等于零，可得到
$\boldsymbol{\omega}_{ML}=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{r} \tag{c}$

對(duì)于一般模型 $g(\mathbf{x}|\boldsymbol{\omega})$ ，不便于像線性模型一樣求解最大似然和最大后驗(yàn)估計(jì)。但思想是類似地，一樣可通過(guò)最小化誤差平方和 $E(X|\boldsymbol{\omega})=\sum_t[r^t-g(\mathbf{x}|\boldsymbol{\omega})]^2$ 求得最小二乘估計(jì)子 $\boldsymbol{\omega}_{LSQ}$ ，來(lái)計(jì)算輸入的輸出 $r^{\prime}=g(\mathbf{x}^{\prime}|\boldsymbol{\omega}_{LSQ})$ 。
或采用最大后驗(yàn)作為參數(shù)估計(jì)，由（b）的形式可寫(xiě)出一個(gè)適用于一般函數(shù)的增廣誤差函數(shù)
$E=\sum_t[r^t-g(\mathbf{x}^t|\boldsymbol{\omega})]^2+\lambda\sum_i\omega_i^2$
該目標(biāo)函數(shù)比誤差平方和多了一項(xiàng)，在統(tǒng)計(jì)學(xué)中稱之為嶺回歸。是一種改良的最小二乘估計(jì)法，通過(guò)放棄最小二乘法的無(wú)偏性，使更為符合實(shí)際、更可靠的回歸方法。對(duì)病態(tài)數(shù)據(jù)的擬合要強(qiáng)于最小二乘法。（對(duì)于線性模型來(lái)說(shuō)，則避免（c）中 $X$ 矩陣中某個(gè)元素的一個(gè)很小的變動(dòng)，會(huì)引起最后計(jì)算結(jié)果誤差很大。正如MAP的解（a）比ML的解（c）在對(duì)角線增加了闡述想 $\alpha$ ，保證矩陣可逆。）

在《多層感知器》一節(jié)中的網(wǎng)絡(luò)規(guī)模部分介紹的權(quán)重衰減（a），也有嶺回歸的形式，由第二項(xiàng)給每個(gè) $\omega_i$ 一個(gè)靠近0的趨勢(shì)。它們的目的都是降低模型復(fù)雜度，是正則化方法。

盡管嶺回歸的方法減少 $\sum_i\omega_i^2$ ，但并不強(qiáng)制單個(gè) $\omega_i$ 為0。即它不能用于特征選擇，不能用于確定哪些 $x_i$ 是冗余的。為此可使用 $L_1$ 范數(shù)的拉普拉斯先驗(yàn)
$p(\boldsymbol{\omega}|\alpha)=\prod_i\frac{\alpha}2\exp(-\alpha|\omega_i|)=(\frac{\alpha}2)^d\exp(-\alpha\sum_i |\omega_i|)$ ，而不是 $L_2$ 范數(shù)的高斯先驗(yàn)。
對(duì)應(yīng)的后驗(yàn)不再是高斯的，MAP估計(jì)通過(guò)最小化下式得到：
$E_{lasso}(\boldsymbol{\omega}|X)=\sum_t(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2+2\sigma^2\alpha\sum_i|\omega_i|$
其中 $\sigma^2$ 是噪聲方差。這種方法做lasso（最小絕對(duì)值收縮和選擇算子）回歸。

具有噪聲精度先驗(yàn)的回歸——MCMC抽樣

前一部分假設(shè)噪聲服從給定的正態(tài)分布， $\epsilon \sim N(0,\frac1{\beta})$ 。如果 $\beta$ 也是未知的，那么也可以對(duì)它定義先驗(yàn)。同前文對(duì)高斯分布參數(shù)的貝葉斯估計(jì)一樣，對(duì)精度 $\beta$ 定義伽馬先驗(yàn) $p(\beta)\sim gamma(a_0,b_0)$ ，
進(jìn)一步定義 $\boldsymbol{\omega}$ 基于 $\beta$ 的先驗(yàn) $p(\boldsymbol{\omega}|\beta)\sim N(\boldsymbol{\mu}_0,\beta\boldsymbol{\Sigma_0})$ 。
如果 $\boldsymbol{\mu}_0=0$ ， $\boldsymbol{\Sigma_0}=\alpha\mathbf{I}$ ，則如前一部分所討論的。
參數(shù) $\boldsymbol{\omega}$ 和 $\beta$ 的共軛先驗(yàn)為正態(tài)-伽馬先驗(yàn)：
$p(\boldsymbol{\omega},\beta)=p(\boldsymbol{\omega}|\beta)p(\boldsymbol{\omega})\sim normal-gamma(\boldsymbol{\mu}_0,\boldsymbol{\Sigma_0},a_0,b_0)$
可得后驗(yàn) $p(\boldsymbol{\omega},\beta|\mathbf{X},\mathbf{r}) \sim normal-gamma(\boldsymbol{\mu}_N,\boldsymbol{\Sigma}_N,a_N,b_N)$

其中 $\boldsymbol{\Sigma}_N=(\mathbf{X}^T\mathbf{X}+\boldsymbol{\Sigma_0})^{-1}$
$\boldsymbol{\mu}_N=\boldsymbol{\Sigma}_N(\mathbf{X}^T\mathbf{r}+\boldsymbol{\Sigma}_0\boldsymbol{\mu}_0)$
$a_N=a_0+\frac N2$
$b_N=b_0+\frac12(\mathbf{r}^T\mathbf{r}+\boldsymbol{\mu}_0^T\boldsymbol{\Sigma}_0\boldsymbol{\mu}_0-\boldsymbol{\mu}_N^T\boldsymbol{\Sigma}_N\boldsymbol{\mu}_N)$

這里采用馬爾科夫鏈蒙特卡洛抽樣（MCMC）來(lái)得到貝葉斯擬合。首先從 $p(\beta)\sim gamma(a_N,b_N)$ 中抽取一個(gè) $\beta$ 值，然后從 $p(\boldsymbol{\omega}|\beta)\sim N(\boldsymbol{\mu}_N,\beta\boldsymbol{\Sigma}_N)$ 抽取 $\boldsymbol{\omega}$ 。
這樣得到一個(gè)從后驗(yàn) $p(\boldsymbol{\omega},\beta)$ 中抽樣的模型，通過(guò)抽取多個(gè)模型，并取這些模型的平均，作為全貝葉斯積分的近似。

基函數(shù)或核函數(shù)的使用

對(duì)給定輸入 $\mathbf{x}^{\prime}$ ，使用參數(shù) $\boldsymbol{\omega}$ 的MAP估計(jì)(a)來(lái)計(jì)算輸出
$r^{\prime}=(\mathbf{x}^{\prime})^T\boldsymbol{\omega}=\beta(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N\mathbf{X}^T\mathbf{r}=\sum_t \beta(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N\mathbf{x}^tr^t$
這是對(duì)偶表示，其中 $\boldsymbol{\Sigma}_N$ 包含先驗(yàn)參數(shù)。如果像用支持向量機(jī)那樣用訓(xùn)練數(shù)據(jù)表示參數(shù)，可以把預(yù)測(cè)輸出寫(xiě)成輸入和懸鏈數(shù)據(jù)的函數(shù)，我們可以把這表示為 $r^{\prime}=\sum_tK(\mathbf{x}^{\prime},\mathbf{x}^t)r^t$ 。
其中
$K(\mathbf{x}^{\prime},\mathbf{x}^t)=\beta(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N\mathbf{x}^t \tagu0z1t8os$

考慮到可以使用非線性基函數(shù) $\phi(\mathbf{x})$ 映射到新空間，在新空間中擬合線性模型（《核機(jī)器》）。這種情況下，作為線性核（d）的推廣，其中的 d 維 $\mathbf{x}$ 變?yōu)?k 維的 $\phi(\mathbf{x})$ 。
$\begin{align} r^{\prime}=&\phi(\mathbf{x}^{\prime})^T\boldsymbol{\omega}\\ =&\sum_t\beta\phi(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N^{\phi}\phi(\mathbf{x}^t)r^t\\ =&\sum_tK(\mathbf{x}^{\prime},\mathbf{x}^t)r^t \end{align}$
其中， $K(\mathbf{x}^{\prime},\mathbf{x}^t)=\beta\phi(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N^{\phi}\phi(\mathbf{x}^t)$ ， $\boldsymbol{\Sigma}_N^{\phi}=(\alpha\mathbf{I}+\beta\Phi^T\Phi)^{-1}$ ， $\Phi$ 是 $\mathbf{X}$ 映射后的數(shù)據(jù)矩陣。這是 $\phi(\mathbf{x})$ 的空間中的對(duì)偶表示。

貝葉斯分類

在《監(jiān)督學(xué)習(xí)——分類（基于判別式的方法）》中介紹的邏輯斯蒂判別式，對(duì)兩類問(wèn)題，假定線性可分，有 $P(C_1|\mathbf{x}^t)=y^t=sigmoid(\boldsymbol{\omega}^T\mathbf{x}^t)$ 。伯努利樣本的對(duì)數(shù)似然為 $L(\mathbf{r}|\mathbf{X})=\sum_tr^t\log y_t+(1-r^t)\log(1-y^t)$ 。通過(guò)最大似然估計(jì)得到參數(shù) $\boldsymbol{\omega}$ 的估計(jì)。
在貝葉斯方法中，假定參數(shù)的高斯先驗(yàn) $p(\boldsymbol{\omega})=N(\mathbf{m}_0,\mathbf{S}_0)$ ，而后驗(yàn)的對(duì)數(shù)為
$\begin{align} \log p(\boldsymbol{\omega}|\mathbf{r},\mathbf{X})\propto & \ \log p(\boldsymbol{\omega})+\log p(\mathbf{r}|\boldsymbol{\omega},\mathbf{X}) \\ =&-\frac12(\boldsymbol{\omega}-\mathbf{m}_0)^T\mathbf{S}_0^{-1}(\boldsymbol{\omega}-\mathbf{m}_0 )+\sum_t r^t \log y_t+(1-r^t)\log (1-y^t)+c \end{align}$
這個(gè)后驗(yàn)分布不再是高斯分布，并且不能精確地積分。這里使用拉普拉斯近似。

拉普拉斯近似
對(duì)某個(gè)分布 $f(x)$ ，首先找出 $f(x)$ 的眾數(shù) $x_0$ ，在拉普拉斯近似使用高斯函數(shù) $q(x)$ 來(lái)近似它，其中均值中心為 $x_0$ ，方差由均值附近的 $f(x)$ 的曲率給定。
為了得到高斯的方差，考慮 $\log f(x)$ 在 $x=x_0$ 處的泰勒展開(kāi)式 $\log f(x)=\log f(x_0)-\frac12a(x-x_0)^2+\cdots$
其中 $a\equiv -\frac{\mathrmu0z1t8os}{\mathrmu0z1t8osx^2}\log f(x)|_{x=x_0}$
泰勒展開(kāi)式的一階線性項(xiàng)為0，因?yàn)樵诒姅?shù)處的導(dǎo)數(shù)為0。
忽略高階項(xiàng)，由對(duì)數(shù)取指數(shù)，得到 $f(x)=f(x_0)\exp[-\frac a2(x-x_0)^2]$ 。從指數(shù)部分可知方差為 $\frac1{a^2}$ 。令由均值為 $x_0$ 。
得到 $f(x)$ 的高斯估計(jì) $q(x)=\sqrt{\frac a{2\pi}}\exp[-\frac a2(x-x_0)^2]\sim N(x_0,\frac1a)$ 。

在多元情況下， $x\in R^d$ ，類似地有
$\log f(\mathbf{x})=\log f(\mathbf{x}_0)-\frac12(\mathbf{x}-\mathbf{x}_0)^T\mathbf{A}(\mathbf{x}-\mathbf{x}_0)+\cdots$
其中 $\mathbf{A}$ 是二階導(dǎo)數(shù)的矩陣
拉普拉斯近似為 $q(\mathbf{x})=\frac{|\mathbf{A}|^{1/2}}{(2\pi)^{d/2}}\exp[-\frac12(\mathbf{x}-\mathbf{x}_0)^T\mathbf{A}(\mathbf{x}-\mathbf{x}_0)]\sim N_d(\mathbf{x}_0,\mathbf{A}^{-1})$

這樣，根據(jù)多元情況的拉普拉斯近似，可估計(jì)類概率為 $P(C_1|\mathbf{x})=\int sigmoid(\boldsymbol{\omega}^T\mathbf{x})q(\boldsymbol{\omega})\mathrmu0z1t8os\boldsymbol{\omega}$ ，其中 $q(\boldsymbol{\omega})$ 是對(duì)后驗(yàn) $p(\boldsymbol{\omega}|\mathbf{r},\mathbf{X})$ 的拉普拉斯近似。

模型的比較——貝葉斯方法

對(duì)給定數(shù)據(jù)集，可以用不同的模型去擬合它，每個(gè)模型有其各自的參數(shù)。以不同次數(shù)的多項(xiàng)式模型為例，不同的多項(xiàng)式對(duì)數(shù)據(jù)的擬合情況是不同的，存在過(guò)擬合和欠擬合的平衡問(wèn)題。
本節(jié)對(duì)模型 $M$ 假設(shè)先驗(yàn)，來(lái)對(duì)不同的模型進(jìn)行比較。

對(duì)給定數(shù)據(jù)X（N個(gè)實(shí)例），給定模型 $M$ 和參數(shù) $\theta$ ，數(shù)據(jù)的似然是 $p(X|M,\theta)$ ，那么在所有 $\theta$ 上取平均，得到貝葉斯邊緣似然（又稱模型證據(jù)） $p(X|M)=\int p(X|\theta,M)p(\theta|M)\mathrmu0z1t8os\theta$
其中 $p(\theta|M)$ 是模型 M 的參數(shù)先驗(yàn)假設(shè)。
可以計(jì)算模型的后驗(yàn) $p(M|X)=\frac{p(X|M)p(M)}{p(X)}$ 。其中 $p(M)$ 是模型的先驗(yàn)假設(shè)。

下面介紹如何利用模型的后驗(yàn)來(lái)選擇模型。
對(duì)任意模型M，對(duì)來(lái)自M的所有可能的包含N個(gè)實(shí)例的數(shù)據(jù)集 $X_M$ ，有 $\sum_{X_M}p(X_M|M)=1$ 。
因?yàn)閷?duì)復(fù)雜模型而言，它的泛化能力強(qiáng)于簡(jiǎn)單模型，其能擬合的數(shù)據(jù)集也就明顯多于簡(jiǎn)單模型。也就是說(shuō)，對(duì)給定的數(shù)據(jù) $X^{\prime}$ ，復(fù)雜模型的 $p(X^{\prime}|M)$ 會(huì)較小。
如果有兩個(gè)模型 $M_0$ 和 $M_1$ ，則可以比較它們的后驗(yàn)
$\frac{p(M_1|X)}{p(M_0|X)}=\frac{p(X|M_1)p(M_1)}{p(X|M_0)p(M_0)}$
其中兩個(gè)邊緣似然的比 $\frac{p(X|M_1)}{p(X|M_0)}$ 稱作貝葉斯因子。如果兩個(gè)模型的先驗(yàn)相等，則可直接通過(guò)貝葉斯因子選擇后驗(yàn)較大的模型。