介紹
第一部分?參數(shù)方法——類(lèi)密度模型參數(shù)估計(jì)
第二部分?監(jiān)督學(xué)習(xí)——分類(lèi)(基于似然的方法)
第三部分?監(jiān)督學(xué)習(xí)——分類(lèi)(基于判別式的方法)(參數(shù)方法——判別式參數(shù)估計(jì))
第四部分?監(jiān)督學(xué)習(xí)——回歸
第五部分?監(jiān)督學(xué)習(xí)——關(guān)聯(lián)規(guī)則
第六部分?維度規(guī)約(特征的提取和組合)
第七部分?半?yún)?shù)方法
第八部分?非監(jiān)督學(xué)習(xí)——聚類(lèi)
第九部分?非參數(shù)方法——密度估計(jì)
第十部分?非參數(shù)方法——決策樹(shù)實(shí)現(xiàn)的判別式
第十一部分?多層感知器——非參數(shù)估計(jì)器
第十二部分?局部模型
第十三部分?支持向量機(jī)與核機(jī)器
第十四部分?隱馬爾科夫模型
第十五部分?參數(shù)的貝葉斯估計(jì)
第十六部分?集成學(xué)習(xí)——組合多學(xué)習(xí)器
第十七部分?增強(qiáng)學(xué)習(xí)
第十八部分?機(jī)器學(xué)習(xí)實(shí)驗(yàn)
第十九部分?特征工程與數(shù)據(jù)預(yù)處理
本節(jié)介紹基于類(lèi)密度的參數(shù)方法。從訓(xùn)練集中估計(jì)概率分布。通過(guò)訓(xùn)練樣本提供的信息進(jìn)行決策。
假設(shè)樣本取自服從已知模型的某個(gè)分布,如高斯分布。模型定義在少數(shù)參數(shù)上,通過(guò)樣本估計(jì)這些參數(shù),就知道了整個(gè)分布。對(duì)參數(shù)的估計(jì)方式有很多。如貝葉斯估計(jì)將參數(shù)
看作是一個(gè)具有某種概率分布的隨機(jī)變量。
最大似然估計(jì)
設(shè)獨(dú)立同分布樣本從某個(gè)定義在參數(shù)
上的概率密度組
抽取實(shí)例。我們希望找到這樣的
,使X盡可能像使從
抽取的。
是獨(dú)立的,所以給定參數(shù)
,樣本X的似然(likelihood):
在最大似然估計(jì)(MLE)中,希望找到這樣的,是X最想是從中抽取的。所以,尋找最大化樣本似然的
.
計(jì)算中嘗試用對(duì)數(shù)似然:
各概率分布的最大似然估計(jì)計(jì)算,可查閱相關(guān)教材。
利用先驗(yàn)信息進(jìn)行估計(jì)
在樣本之外,可能存在一些有關(guān)參數(shù)的可能取值的先驗(yàn)(prior)信息。尤其當(dāng)樣本較小時(shí),應(yīng)當(dāng)把這些先驗(yàn)信息利用起來(lái)。通過(guò)把參數(shù)
看作一個(gè)隨機(jī)變量,并為它定義先驗(yàn)密度
來(lái)對(duì)
的不確定性建模。先驗(yàn)密度告訴我們?cè)诘玫綐颖局?img class="math-inline" alt="\theta " src="https://math.jianshu.com/math?formula=%5Ctheta%20" mathimg="1">的可能取值。我們把它與樣本數(shù)據(jù)告訴我們的(似然密度
)結(jié)合起來(lái),利用貝葉斯規(guī)則,得到
的后驗(yàn)密度。后驗(yàn)密度告訴我們,在得到樣本之后
的可能取值。
,其中
。
有了對(duì)參數(shù)的估計(jì),進(jìn)而可估計(jì)樣本x分布的概率密度:
只要知道,就了解了分布的一切。這樣使用所有
的值,按后驗(yàn)概率加權(quán)求得x的分布。然而除非后驗(yàn)有很好的形式,否則該積分很難求得。經(jīng)常把后驗(yàn)縮減為單個(gè)點(diǎn),不計(jì)算積分,常用下面兩種方法。
????????最大后驗(yàn)估計(jì)
如果可以假定后驗(yàn)在其眾數(shù)周?chē)c一個(gè)窄峰,則使用最大后驗(yàn)估計(jì)(MAP)可使計(jì)算比較容易:
這樣取單點(diǎn)計(jì)算,不計(jì)算積分比較容易。。
如果沒(méi)有先驗(yàn)信息來(lái)偏向的某些值,既先驗(yàn)是扁平的。后驗(yàn)則與似然有相同的形式
,MAP估計(jì)等價(jià)于MLE。
????????貝葉斯估計(jì)
其定義參數(shù)為后驗(yàn)密度的期望值
取期望的原因是,隨機(jī)變量的最佳估計(jì)是它的均值。在正態(tài)分布情況下,眾數(shù)就是期望值。所以說(shuō)如果是正態(tài)分布,那么
。
最大后驗(yàn)估計(jì)和貝葉斯估計(jì)兩種方法,都將后驗(yàn)密度歸約到單個(gè)點(diǎn)(,
)上,損失了信息。
在《貝葉斯估計(jì)》一節(jié),不再將后驗(yàn)約束為單個(gè)值,而是在所有可能的參數(shù)上計(jì)算估計(jì)分布的加權(quán)和(a)。
對(duì)評(píng)價(jià)的估計(jì)
X是取自參數(shù)給定的總體上的樣本,令
是
的一個(gè)估計(jì)。評(píng)價(jià)估計(jì)的質(zhì)量,就看其與
的不同,也就是度量
。由于估計(jì)所依賴的樣本來(lái)自隨機(jī)變量,所以需要在可能的X上取平均。故考慮估計(jì)的均方誤差:
估計(jì)的偏倚(bias)是:。如果對(duì)
都有
,則
是
的無(wú)偏估計(jì)。
均方誤差可以寫(xiě)為:
第一項(xiàng)是方差,度量在平均狀態(tài)下,不同數(shù)據(jù)下估計(jì)得到的在期望值附近附近的變化程度。后一項(xiàng)是偏倚,反應(yīng)期望值偏離正確值
的程度。
上面介紹了對(duì)類(lèi)密度的模型參數(shù)進(jìn)行估計(jì)的常用方法。而在機(jī)器學(xué)習(xí)中,除了對(duì)類(lèi)密度建模來(lái)解決問(wèn)題,直接判別式直接建模也是一種常用的方法。在基于判別式的方法中需要對(duì)判別式的參數(shù)進(jìn)行估計(jì),也屬于參數(shù)方法。具體的內(nèi)容見(jiàn)《監(jiān)督學(xué)習(xí)——分類(lèi)(基于判別式的方法)》