參數(shù)方法——類(lèi)密度模型參數(shù)的估計(jì)

介紹
第一部分?參數(shù)方法——類(lèi)密度模型參數(shù)估計(jì)
第二部分?監(jiān)督學(xué)習(xí)——分類(lèi)(基于似然的方法)
第三部分?監(jiān)督學(xué)習(xí)——分類(lèi)(基于判別式的方法)(參數(shù)方法——判別式參數(shù)估計(jì))
第四部分?監(jiān)督學(xué)習(xí)——回歸
第五部分?監(jiān)督學(xué)習(xí)——關(guān)聯(lián)規(guī)則
第六部分?維度規(guī)約(特征的提取和組合)
第七部分?半?yún)?shù)方法
第八部分?非監(jiān)督學(xué)習(xí)——聚類(lèi)
第九部分?非參數(shù)方法——密度估計(jì)
第十部分?非參數(shù)方法——決策樹(shù)實(shí)現(xiàn)的判別式
第十一部分?多層感知器——非參數(shù)估計(jì)器
第十二部分?局部模型
第十三部分?支持向量機(jī)與核機(jī)器
第十四部分?隱馬爾科夫模型
第十五部分?參數(shù)的貝葉斯估計(jì)
第十六部分?集成學(xué)習(xí)——組合多學(xué)習(xí)器
第十七部分?增強(qiáng)學(xué)習(xí)
第十八部分?機(jī)器學(xué)習(xí)實(shí)驗(yàn)
第十九部分?特征工程與數(shù)據(jù)預(yù)處理

本節(jié)介紹基于類(lèi)密度的參數(shù)方法。從訓(xùn)練集中估計(jì)概率分布。通過(guò)訓(xùn)練樣本提供的信息進(jìn)行決策。

假設(shè)樣本取自服從已知模型的某個(gè)分布,如高斯分布。模型定義在少數(shù)參數(shù)上,通過(guò)樣本估計(jì)這些參數(shù)\theta _i,就知道了整個(gè)分布。對(duì)參數(shù)的估計(jì)方式有很多。如貝葉斯估計(jì)將參數(shù)\theta _i看作是一個(gè)具有某種概率分布的隨機(jī)變量。

最大似然估計(jì)

設(shè)獨(dú)立同分布樣本X = \{x^t\}_{t=1}^N從某個(gè)定義在參數(shù)\theta 上的概率密度組p(x|\theta)抽取實(shí)例。我們希望找到這樣的\theta ,使X盡可能像使從p(x|\theta)抽取的。x^t是獨(dú)立的,所以給定參數(shù)\theta ,樣本X的似然(likelihood):

l(\theta|X)\equiv p(X|\theta)=\prod_{t=1}^N p(x^t|\theta)

最大似然估計(jì)(MLE)中,希望找到這樣的\theta ,是X最想是從中抽取的。所以,尋找最大化樣本似然的\theta .

計(jì)算中嘗試用對(duì)數(shù)似然:L(\theta|X)\equiv \log l(\theta|X)=\sum_{t=1}^N \log p(x^t|\theta)

各概率分布的最大似然估計(jì)計(jì)算,可查閱相關(guān)教材。

利用先驗(yàn)信息進(jìn)行估計(jì)

在樣本之外,可能存在一些有關(guān)參數(shù)\theta的可能取值的先驗(yàn)(prior)信息。尤其當(dāng)樣本較小時(shí),應(yīng)當(dāng)把這些先驗(yàn)信息利用起來(lái)。通過(guò)把參數(shù)\theta 看作一個(gè)隨機(jī)變量,并為它定義先驗(yàn)密度p(\theta)來(lái)對(duì)\theta的不確定性建模。先驗(yàn)密度告訴我們?cè)诘玫綐颖局?img class="math-inline" alt="\theta " src="https://math.jianshu.com/math?formula=%5Ctheta%20" mathimg="1">的可能取值。我們把它與樣本數(shù)據(jù)告訴我們的(似然密度p(X|\theta))結(jié)合起來(lái),利用貝葉斯規(guī)則,得到\theta的后驗(yàn)密度。后驗(yàn)密度告訴我們,在得到樣本之后\theta 的可能取值。

p(\theta|X)=\frac{p(X|\theta)p(\theta)}{p(X)},其中p(X)=\int p(X|\theta)p(\theta)d\theta。

有了對(duì)參數(shù)\theta 的估計(jì),進(jìn)而可估計(jì)樣本x分布的概率密度:

\begin{align}p(x|X) &=\int p(x,\theta|X)d\theta \\ &=\int p(x|\theta,X)p(\theta|X)d\theta \\&=\int p(x|\theta)p(\theta|X)d\theta\end{align}\tag{a}

只要知道\theta ,就了解了分布的一切。這樣使用所有\theta的值,按后驗(yàn)概率加權(quán)求得x的分布。然而除非后驗(yàn)有很好的形式,否則該積分很難求得。經(jīng)常把后驗(yàn)縮減為單個(gè)點(diǎn),不計(jì)算積分,常用下面兩種方法。

????????最大后驗(yàn)估計(jì)

如果可以假定后驗(yàn)p(\theta|X)在其眾數(shù)周?chē)c一個(gè)窄峰,則使用最大后驗(yàn)估計(jì)(MAP)可使計(jì)算比較容易:

\theta_{MAP} = arg\max_{\theta}p(\theta|X)

這樣取單點(diǎn)計(jì)算,不計(jì)算積分比較容易。p(x|X)=p(x|\theta_{MAP})

如果沒(méi)有先驗(yàn)信息來(lái)偏向\theta 的某些值,既先驗(yàn)是扁平的。后驗(yàn)則與似然有相同的形式

\theta_{MAP}=arg\max_{\theta} p(\theta|X)=arg \max_{\theta}\frac{p(X|\theta)p(\theta)}{p(X)}=arg \max_{\theta}p(X|\theta)=\theta_{MLE},MAP估計(jì)等價(jià)于MLE。

????????貝葉斯估計(jì)

其定義參數(shù)\theta 為后驗(yàn)密度的期望值

\theta_{Bayes}=E[\theta|X]=\int \theta p(\theta|X)d\theta

取期望的原因是,隨機(jī)變量的最佳估計(jì)是它的均值。在正態(tài)分布情況下,眾數(shù)就是期望值。所以說(shuō)如果p(\theta|X)是正態(tài)分布,那么\theta_{Bayes}=\theta_{MAP}。

最大后驗(yàn)估計(jì)和貝葉斯估計(jì)兩種方法,都將后驗(yàn)密度歸約到單個(gè)點(diǎn)(\theta_{Bayes},\theta_{MAP})上,損失了信息。

在《貝葉斯估計(jì)》一節(jié),不再將后驗(yàn)約束為單個(gè)值,而是在所有可能的參數(shù)上計(jì)算估計(jì)分布的加權(quán)和(a)。


對(duì)評(píng)價(jià)的估計(jì)

X是取自參數(shù)\theta給定的總體上的樣本,令d(X)\theta的一個(gè)估計(jì)。評(píng)價(jià)估計(jì)的質(zhì)量,就看其與\theta的不同,也就是度量(d(X)-\theta)^2。由于估計(jì)所依賴的樣本來(lái)自隨機(jī)變量,所以需要在可能的X上取平均。故考慮估計(jì)的均方誤差:

r(d,\theta)=E[(d(X)-\theta)^2]

估計(jì)的偏倚(bias)是:b_\theta(d)=E[d(X)]-\theta。如果對(duì)\theta都有b_\theta(d)=0,則d(X)\theta的無(wú)偏估計(jì)。

均方誤差可以寫(xiě)為:

\begin{align*}  r(d,\theta) &=E[(d-\theta)^2] \\  &= E[(d-E[d]+E[d]-\theta)^2]  \\   &= E[(d-E[d])^2+(E[d]-\theta)^2+2(E[d]-\theta)(d-E[d])] \\ &= E[(d-E[d])^2]+E[(E[d]-\theta)^2]+2E[(E[d]-\theta)(d-E[d])] \\ &= E[(d-E[d])^2]+(E[d]-\theta)^2+2(E[d]-\theta)E[d-E[d]] \\&= E[(d-E[d])^2]+(E[d]-\theta)^2\end{align*}

第一項(xiàng)是方差,度量在平均狀態(tài)下,不同數(shù)據(jù)下估計(jì)得到的d_i在期望值附近附近的變化程度。后一項(xiàng)是偏倚,反應(yīng)期望值偏離正確值\theta的程度。


上面介紹了對(duì)類(lèi)密度的模型參數(shù)進(jìn)行估計(jì)的常用方法。而在機(jī)器學(xué)習(xí)中,除了對(duì)類(lèi)密度建模來(lái)解決問(wèn)題,直接判別式直接建模也是一種常用的方法。在基于判別式的方法中需要對(duì)判別式的參數(shù)進(jìn)行估計(jì),也屬于參數(shù)方法。具體的內(nèi)容見(jiàn)《監(jiān)督學(xué)習(xí)——分類(lèi)(基于判別式的方法)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容