介紹
第一部分 參數(shù)方法——類密度模型參數(shù)估計(jì)
第二部分 監(jiān)督學(xué)習(xí)——分類(基于似然的方法)
第三部分 監(jiān)督學(xué)習(xí)——分類(基于判別式的方法)(參數(shù)方法——判別式參數(shù)估計(jì))
第四部分 監(jiān)督學(xué)習(xí)——回歸
第五部分 監(jiān)督學(xué)習(xí)——關(guān)聯(lián)規(guī)則
第六部分 維度規(guī)約(特征的提取和組合)
第七部分 半?yún)?shù)方法
第八部分 非監(jiān)督學(xué)習(xí)——聚類
第九部分 非參數(shù)方法——密度估計(jì)
第十部分 非參數(shù)方法——決策樹(shù)實(shí)現(xiàn)的判別式
第十一部分 多層感知器——非參數(shù)估計(jì)器
第十二部分 局部模型
第十三部分 支持向量機(jī)與核機(jī)器
第十四部分 隱馬爾科夫模型
第十五部分 參數(shù)的貝葉斯估計(jì)
第十六部分 集成學(xué)習(xí)——組合多學(xué)習(xí)器
第十七部分 增強(qiáng)學(xué)習(xí)
第十八部分 機(jī)器學(xué)習(xí)實(shí)驗(yàn)
第十九部分 特征工程與數(shù)據(jù)預(yù)處理
在貝葉斯方法中,把參數(shù)看做具有某種概率分布的隨機(jī)變量,對(duì)參數(shù)的這種不確定性建模。
在極大似然估計(jì)中,把參數(shù)看做未知常數(shù),取最大化似然的參數(shù)為估計(jì)值。但在使用小樣本時(shí),極大似然估計(jì)可能是很差的估計(jì),在不同的訓(xùn)練集上求得的參數(shù)相差較大,具有較大方差。
在貝葉斯估計(jì)中,利用估計(jì)具有不確定這一事實(shí),不是估計(jì)單個(gè)
,而是通過(guò)估計(jì)分布
,加權(quán)使用所有的
。也就是分?jǐn)偣烙?jì)的不確定性。
在估計(jì)時(shí),可以利用我們可能具有的關(guān)于參數(shù)值的先驗(yàn)信息
。尤其在使用小樣本時(shí),先驗(yàn)信息很重。使用貝葉斯規(guī)則,將先驗(yàn)與似然結(jié)合在一起,來(lái)計(jì)算后驗(yàn)
。
這樣,給定樣本X,能夠用它估計(jì)新實(shí)例的概率分布:
如果是離散值,則用
取代積分,后驗(yàn)則為樣本X下每個(gè)
的可能性。
這與《參數(shù)方法——類密度模型參數(shù)的估計(jì)》中介紹的貝葉斯估計(jì)不同,沒(méi)有先估計(jì)確定的,而是對(duì)所有可能的后驗(yàn)進(jìn)行了積分,是全貝葉斯方法。
但大多數(shù)情況下這個(gè)積分很難計(jì)算的,除非后驗(yàn)有很好的形式(所以《參數(shù)方法——類密度模型參數(shù)的估計(jì)》中的方法,將參數(shù)歸結(jié)到一點(diǎn),不去計(jì)算這個(gè)積分)。
但貝葉斯估計(jì)還是有其獨(dú)有的優(yōu)點(diǎn)。首先先驗(yàn)幫助忽略了不太可能的值。此外,不是在預(yù)測(cè)時(shí)使用單個(gè)
,而是生成可能的
值集合,并在預(yù)測(cè)時(shí)全部使用,用可能性加權(quán)。
而最大后驗(yàn)(MAP)方法使用先驗(yàn),則只利用了第一個(gè)優(yōu)點(diǎn)。而對(duì)于極大似然(ML)方法,這兩個(gè)優(yōu)點(diǎn)都不具備。
對(duì)于很多無(wú)法計(jì)算的情況,通過(guò)近似計(jì)算來(lái)處理,包括馬爾科夫鏈蒙特卡洛抽樣,拉普拉斯近似、變分近似。
對(duì)離散分布的參數(shù)的貝葉斯估計(jì)
兩類K=2
樣本服從伯努利分布,假定q 為樣本為1 的概率。樣本似然為
需要對(duì)伯努利分布的參數(shù) q 進(jìn)行估計(jì)。采用貝塔分布描述參數(shù)的先驗(yàn)。其中
,
是先驗(yàn)分布的參數(shù),稱作超參數(shù)。
是伽馬函數(shù),定義為
。
這樣給定了先驗(yàn)和似然,可以得到參數(shù)的后驗(yàn)
其中,N 是樣本總量??梢钥吹较闰?yàn)和后驗(yàn)具有相同的的形式,稱這樣的先驗(yàn)為共軛先驗(yàn)。
通過(guò)后驗(yàn),可以對(duì)超參數(shù),
做出這樣的解釋。A是N個(gè)樣本中為1 的次數(shù),
可以看做在假想的
個(gè)樣本中出現(xiàn)1 的次數(shù)。后驗(yàn)結(jié)合了實(shí)際樣本和假想樣本。當(dāng)
時(shí),有均勻的先驗(yàn),并且后驗(yàn)和似然有相同的形狀。隨著兩數(shù)的增大,及它們之差的增加,根據(jù)伽馬分布,整個(gè)后驗(yàn)具有更小方差的分布。
多類K>2
對(duì)多類情況,樣本服從多項(xiàng)式分布,記表示實(shí)例
屬于類
,并且對(duì)
。多項(xiàng)式分布的參數(shù)為
,滿足
,
。
樣本似然是。
對(duì)q的先驗(yàn)的描述是狄利克雷分布
其中是先驗(yàn)的參數(shù),
。同樣到處后驗(yàn)有
其中。同樣,后驗(yàn)和先驗(yàn)有同樣的形式,都是
的冪的乘積形式。并且同樣地看到,后驗(yàn)組合了實(shí)際樣本和假想樣本。
對(duì)高斯分布的參數(shù)的貝葉斯估計(jì)
一元高斯分布的參數(shù)估計(jì)
考慮樣本來(lái)自一元高斯分布,,分布的參數(shù)
,
是需要估計(jì)的。樣本似然是
在未知均值,已知方差的情況下。均值
的共軛先驗(yàn)是高斯的,
,后驗(yàn)是
其中,
。
是樣本均值。
可以看到,后驗(yàn)均值是先驗(yàn)均值和樣本均值的加權(quán)和。當(dāng)樣本規(guī)模N或先驗(yàn)的方差大時(shí),后驗(yàn)的均值越接近樣本均值 m ,后驗(yàn)更多地依賴樣本提供的信息。而當(dāng)
較小時(shí),即當(dāng)
的先驗(yàn)的不確定性較小時(shí),先驗(yàn)
具有更大的影響。
方差方面,當(dāng)先驗(yàn)方差更小,或樣本量N更大時(shí),后驗(yàn)方差
更小。
通過(guò)在后驗(yàn)(在)上積分,得到 x 的分布
對(duì)于方差為未知的情況,為了推導(dǎo)的方便,使用精度
,方差的倒數(shù)來(lái)描述方差。重寫(xiě)樣本似然有
參數(shù)的共軛先驗(yàn)是伽馬分布
。
其中,其中
是方差的先驗(yàn)估計(jì),
是先驗(yàn)的影響程度,類似于假想樣本的大小。
后驗(yàn)也是伽馬分布,其中
,
是樣本方差。
于已知方差的情況一樣,后驗(yàn)的估計(jì)是先驗(yàn)和樣本統(tǒng)計(jì)量的加權(quán)和。當(dāng)均值和方差均未知時(shí),需要聯(lián)合后驗(yàn)
(仍用
的形式來(lái)反應(yīng)方差)。其中,方差先驗(yàn)
,均值先驗(yàn)
。
也可以看做假想樣本的大小,反應(yīng)
的影響程度。
這種情況下的聯(lián)合共軛先驗(yàn)稱為正態(tài)-伽馬分布
后驗(yàn)是
其中,
,
,
在后驗(yàn)上積分,得到對(duì)x的概率分布估計(jì):
是一個(gè)具有給定均值和方差的、自由度為的
分布。
多元高斯分布的參數(shù)估計(jì)
對(duì)多元變量樣本,與一元樣本的方法相同,只是使用了多元高斯分布。其中
是精度矩陣。
對(duì)于均值,使用多元高斯先驗(yàn)
對(duì)于精度矩陣,使用多元版本的伽馬分布(又稱Wishart分布)先驗(yàn)。
對(duì)函數(shù)參數(shù)的貝葉斯估計(jì)
同上面概率分布的參數(shù)一樣,對(duì)函數(shù)參數(shù)的估計(jì),同樣將參數(shù)看做具有一種先驗(yàn)分布的隨機(jī)變量。使用貝葉斯規(guī)則計(jì)算后驗(yàn),再求積分。
回歸函數(shù)
考慮線性回歸模型,其中
,
是噪聲的精度。
模型的參數(shù)是權(quán)重,記樣本為
,其中
,
。將樣本記為輸入矩陣和期望輸出向量?jī)刹糠?img class="math-inline" src="https://math.jianshu.com/math?formula=%5B%5Cmathbf%7BX%7D%2C%5Cmathbf%7Br%7D%5D" alt="[\mathbf{X},\mathbf{r}]" mathimg="1">。
給定輸入的輸出有概率分布
在貝葉斯估計(jì)的情況下,為參數(shù)定義一個(gè)高斯先驗(yàn)
。對(duì)于后驗(yàn),可得到
。
其中,
。
為了得到新輸入的輸出
。
如果采用最大后驗(yàn)估計(jì)對(duì)參數(shù)做點(diǎn)估計(jì),由于后驗(yàn)為高斯分布,則有
MAP等同于最大化后驗(yàn)的對(duì)數(shù)
而同樣作為點(diǎn)估計(jì)的極大似然估計(jì),并沒(méi)有利用先驗(yàn)信息。整體樣本的對(duì)數(shù)似然為,其中第二項(xiàng)相對(duì)于參數(shù)是常數(shù)。
把似然的第一項(xiàng)展開(kāi)成
最大似然估計(jì)要最大化對(duì)數(shù)似然,等價(jià)于最小化最后一項(xiàng),即最小化誤差的平方和的參數(shù)。誤差平方和為
關(guān)于求導(dǎo)并令其等于零,可得到
對(duì)于一般模型,不便于像線性模型一樣求解最大似然和最大后驗(yàn)估計(jì)。但思想是類似地,一樣可通過(guò)最小化誤差平方和
求得最小二乘估計(jì)子
,來(lái)計(jì)算輸入的輸出
。
或采用最大后驗(yàn)作為參數(shù)估計(jì),由(b)的形式可寫(xiě)出一個(gè)適用于一般函數(shù)的增廣誤差函數(shù)
該目標(biāo)函數(shù)比誤差平方和多了一項(xiàng),在統(tǒng)計(jì)學(xué)中稱之為嶺回歸。是一種改良的最小二乘估計(jì)法,通過(guò)放棄最小二乘法的無(wú)偏性,使更為符合實(shí)際、更可靠的回歸方法。對(duì)病態(tài)數(shù)據(jù)的擬合要強(qiáng)于最小二乘法。(對(duì)于線性模型來(lái)說(shuō),則避免(c)中矩陣中某個(gè)元素的一個(gè)很小的變動(dòng),會(huì)引起最后計(jì)算結(jié)果誤差很大。正如MAP的解(a)比ML的解(c)在對(duì)角線增加了闡述想
,保證矩陣可逆。)
在《多層感知器》一節(jié)中的網(wǎng)絡(luò)規(guī)模部分介紹的權(quán)重衰減(a),也有嶺回歸的形式,由第二項(xiàng)給每個(gè)一個(gè)靠近0的趨勢(shì)。它們的目的都是降低模型復(fù)雜度,是正則化方法。
盡管嶺回歸的方法減少
,但并不強(qiáng)制單個(gè)
為0。即它不能用于特征選擇,不能用于確定哪些
是冗余的。為此可使用
范數(shù)的拉普拉斯先驗(yàn)
,而不是
范數(shù)的高斯先驗(yàn)。
對(duì)應(yīng)的后驗(yàn)不再是高斯的,MAP估計(jì)通過(guò)最小化下式得到:
其中是噪聲方差。這種方法做lasso(最小絕對(duì)值收縮和選擇算子)回歸。
具有噪聲精度先驗(yàn)的回歸——MCMC抽樣
前一部分假設(shè)噪聲服從給定的正態(tài)分布,。如果
也是未知的,那么也可以對(duì)它定義先驗(yàn)。同前文對(duì)高斯分布參數(shù)的貝葉斯估計(jì)一樣,對(duì)精度
定義伽馬先驗(yàn)
,
進(jìn)一步定義基于
的先驗(yàn)
。
如果,
,則如前一部分所討論的。
參數(shù)和
的共軛先驗(yàn)為正態(tài)-伽馬先驗(yàn):
可得后驗(yàn)
其中
這里采用馬爾科夫鏈蒙特卡洛抽樣(MCMC)來(lái)得到貝葉斯擬合。首先從中抽取一個(gè)
值,然后從
抽取
。
這樣得到一個(gè)從后驗(yàn)中抽樣的模型,通過(guò)抽取多個(gè)模型,并取這些模型的平均,作為全貝葉斯積分的近似。
基函數(shù)或核函數(shù)的使用
對(duì)給定輸入,使用參數(shù)
的MAP估計(jì)(a)來(lái)計(jì)算輸出
這是對(duì)偶表示,其中包含先驗(yàn)參數(shù)。如果像用支持向量機(jī)那樣用訓(xùn)練數(shù)據(jù)表示參數(shù),可以把預(yù)測(cè)輸出寫(xiě)成輸入和懸鏈數(shù)據(jù)的函數(shù),我們可以把這表示為
。
其中
考慮到可以使用非線性基函數(shù)映射到新空間,在新空間中擬合線性模型(《核機(jī)器》)。這種情況下,作為線性核(d)的推廣,其中的 d 維
變?yōu)?k 維的
。
其中,,
,
是
映射后的數(shù)據(jù)矩陣。這是
的空間中的對(duì)偶表示。
貝葉斯分類
在《監(jiān)督學(xué)習(xí)——分類(基于判別式的方法)》中介紹的邏輯斯蒂判別式,對(duì)兩類問(wèn)題,假定線性可分,有。伯努利樣本的對(duì)數(shù)似然為
。通過(guò)最大似然估計(jì)得到參數(shù)
的估計(jì)。
在貝葉斯方法中,假定參數(shù)的高斯先驗(yàn),而后驗(yàn)的對(duì)數(shù)為
這個(gè)后驗(yàn)分布不再是高斯分布,并且不能精確地積分。這里使用拉普拉斯近似。
- 拉普拉斯近似
對(duì)某個(gè)分布,首先找出
的眾數(shù)
,在拉普拉斯近似使用高斯函數(shù)
來(lái)近似它,其中均值中心為
,方差由均值附近的
的曲率給定。
為了得到高斯的方差,考慮在
處的泰勒展開(kāi)式
其中
泰勒展開(kāi)式的一階線性項(xiàng)為0,因?yàn)樵诒姅?shù)處的導(dǎo)數(shù)為0。
忽略高階項(xiàng),由對(duì)數(shù)取指數(shù),得到。從指數(shù)部分可知方差為
。令由均值為
。
得到的高斯估計(jì)
。
在多元情況下,,類似地有
其中是二階導(dǎo)數(shù)的矩陣
拉普拉斯近似為
這樣,根據(jù)多元情況的拉普拉斯近似,可估計(jì)類概率為,其中
是對(duì)后驗(yàn)
的拉普拉斯近似。
模型的比較——貝葉斯方法
對(duì)給定數(shù)據(jù)集,可以用不同的模型去擬合它,每個(gè)模型有其各自的參數(shù)。以不同次數(shù)的多項(xiàng)式模型為例,不同的多項(xiàng)式對(duì)數(shù)據(jù)的擬合情況是不同的,存在過(guò)擬合和欠擬合的平衡問(wèn)題。
本節(jié)對(duì)模型假設(shè)先驗(yàn),來(lái)對(duì)不同的模型進(jìn)行比較。
對(duì)給定數(shù)據(jù)X(N個(gè)實(shí)例),給定模型和參數(shù)
,數(shù)據(jù)的似然是
,那么在所有
上取平均,得到貝葉斯邊緣似然(又稱模型證據(jù))
其中是模型 M 的參數(shù)先驗(yàn)假設(shè)。
可以計(jì)算模型的后驗(yàn)。其中
是模型的先驗(yàn)假設(shè)。
下面介紹如何利用模型的后驗(yàn)來(lái)選擇模型。
對(duì)任意模型M,對(duì)來(lái)自M的所有可能的包含N個(gè)實(shí)例的數(shù)據(jù)集,有
。
因?yàn)閷?duì)復(fù)雜模型而言,它的泛化能力強(qiáng)于簡(jiǎn)單模型,其能擬合的數(shù)據(jù)集也就明顯多于簡(jiǎn)單模型。也就是說(shuō),對(duì)給定的數(shù)據(jù),復(fù)雜模型的
會(huì)較小。
如果有兩個(gè)模型和
,則可以比較它們的后驗(yàn)
其中兩個(gè)邊緣似然的比稱作貝葉斯因子。如果兩個(gè)模型的先驗(yàn)相等,則可直接通過(guò)貝葉斯因子選擇后驗(yàn)較大的模型。
在貝葉斯方法中,也可不做模型選擇,而是像參數(shù)的貝葉斯估計(jì)一樣,平均各個(gè)模型的預(yù)測(cè)。用貝葉斯邊緣似然加權(quán),求得所有模型輸出的加權(quán)和。