概率建模中的參數(shù)估計-最大似然估計MLE

當(dāng)我們用概率對一個問題進行建模后,最重要的就是如何求解其中的概率參數(shù)。
例如在樸素貝葉斯 中,我們通過X事件的相互獨立假設(shè),削減了參數(shù)量。那么如何求解這些參數(shù)(在簡單的郵件分類問題中,我們直覺上通過統(tǒng)計計算,即可獲得各個參數(shù)項的解,實際上這種直覺的方法,本身就是計算了其概率的極大似然)

一、Maximum Likelihood Estimate,MLE
????從最根本的定義上來講,我們要求的是P(theta|D)最大,即在當(dāng)前數(shù)據(jù)集上,參數(shù)theta的概率,并求得這個概率最大的theta。但是P(theta|D)很難計算,由posterior=likelihood * prior / evidence 。prior和evidence我們設(shè)為常數(shù),則最大化這個后驗概率就是最大化likelihood ie:P(D| theta),在假設(shè)所有樣本獨立同分布后,對P(X|theta)進行建模,則當(dāng)前樣本上的likelihood就是下面的似然函數(shù)。

0、樸素貝葉斯的參數(shù)估計:
P(Y=c) =Sum( I(yi=c) )/N
c為分類(比如垃圾郵件以及非垃圾郵件),N為樣本總數(shù),I為指示函數(shù)
即P(Y=c)這個參數(shù)的值(為垃圾,非垃圾郵件的概率)在當(dāng)前N個樣本的知識下,最大似然的估計為: (非)垃圾郵件總數(shù) / 郵件總數(shù)。
同理,P(Xi = b | Y = c) 的概率也可以通過這樣的統(tǒng)計得出其在當(dāng)前N個樣本知識下的最大似然的估計
在這里,最大似然從直覺上確實也等于相應(yīng)特征詞出現(xiàn)的期望。
如果用MLE來解釋也是可以的,對垃圾郵件而言,建模出現(xiàn)sex字眼的概率為theta,則不出現(xiàn)的概率為1-theta,對于數(shù)據(jù)集D,n個樣本中有m個樣本有sex,
Likelihood 可以寫為theta^m * theta^ (n-m)
取log可以解得theta=m/n

1、通用的解法描述:
a.寫出似然函數(shù)
b.帶入當(dāng)前樣本,求解theta使其值最大

?? 例如離散型變量X1,X2....Xn,Y,簡記為X,Y
則建模:P(X,Y; theta) = p(x,y;theta)
對于m個樣本(x1,y1).....(xm,ym)來說,假設(shè)這m個樣本獨立同分布于我們建模的概率P,那么其聯(lián)合概率分布則為其概率的乘積:p1*p2...*pm
對其取log,Likelihood = Sigma{1,m} (pi)
最大似然概率就是求argmax {theta} Likelihood(theta)
??對于連續(xù)型變量,將建模的概率P改為其概率密度函數(shù)f(x,y;theta)(PDF)即可
由于概率密度函數(shù)在區(qū)間的積分的意義才為概率,所以其聯(lián)合概率密度函數(shù)為:
f(x1,y1)dx1 * f(x2,y2)dx2 ....* f(xm,ym)dxm
其物理意義為:當(dāng)前m個樣本落在(x1,y1),..(xm,ym)的鄰邊(邊長為dx1,dx2...dxm的m維立方體)內(nèi)的概率
但在求其似然函數(shù)的時候,則直接將p替換為f即可。但是其物理含義并不像離散變量的似然那么易于理解。[1]

[1]:概率密度函數(shù)PDF在某個點x的取值沒有實際的物理含義,不像離散的概率質(zhì)量函數(shù)PMF在某點的取值代表其概率。相關(guān)概念:measure theroy,Radon-Nikodym derivative,likelihood ratio
https://math.stackexchange.com/questions/1373806/intuition-for-probability-density-function-as-a-radon-nikodym-derivative
更深入需要測度理論以及實分析的學(xué)習(xí)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容