似然與概率

在統(tǒng)計(jì)學(xué)中,似然函數(shù)(likelihood function,通常簡(jiǎn)寫(xiě)為likelihood,似然)是一個(gè)非常重要的內(nèi)容,在非正式場(chǎng)合似然和概率(Probability)幾乎是一對(duì)同義詞,但是在統(tǒng)計(jì)學(xué)中似然和概率卻是兩個(gè)不同的概念。概率是在特定環(huán)境下某件事情發(fā)生的可能性,也就是結(jié)果沒(méi)有產(chǎn)生之前依據(jù)環(huán)境所對(duì)應(yīng)的參數(shù)來(lái)預(yù)測(cè)某件事情發(fā)生的可能性,比如拋硬幣,拋之前我們不知道最后是哪一面朝上,但是根據(jù)硬幣的性質(zhì)我們可以推測(cè)任何一面朝上的可能性均為50%,這個(gè)概率只有在拋硬幣之前才是有意義的,拋完硬幣后的結(jié)果便是確定的;而似然剛好相反,是在確定的結(jié)果下去推測(cè)產(chǎn)生這個(gè)結(jié)果的可能環(huán)境(參數(shù)),還是拋硬幣的例子,假設(shè)我們隨機(jī)拋擲一枚硬幣1,000次,結(jié)果500次人頭朝上,500次數(shù)字朝上(實(shí)際情況一般不會(huì)這么理想,這里只是舉個(gè)例子),我們很容易判斷這是一枚標(biāo)準(zhǔn)的硬幣,兩面朝上的概率均為50%,這個(gè)過(guò)程就是我們根據(jù)結(jié)果來(lái)判斷這個(gè)事情本身的性質(zhì)(參數(shù)),也就是似然。

結(jié)果和參數(shù)相互對(duì)應(yīng)的時(shí)候,似然和概率在數(shù)值上是相等的,如果用 θ 表示環(huán)境對(duì)應(yīng)的參數(shù),x 表示結(jié)果,那么概率可以表示為:

P(x|θ)

P(x|θ)

是條件概率的表示方法,θ是前置條件,理解為在θ 的前提下,事件 x 發(fā)生的概率,相對(duì)應(yīng)的似然可以表示為:

理解為已知結(jié)果為 x ,參數(shù)為θ (似然函數(shù)里θ 是變量,這里## 標(biāo)題 ##說(shuō)的參數(shù)是相對(duì)與概率而言的)對(duì)應(yīng)的概率,即:

需要說(shuō)明的是兩者在數(shù)值上相等,但是意義并不相同,

是關(guān)于 θ 的函數(shù),而 P 則是關(guān)于 x 的函數(shù),兩者從不同的角度描述一件事情。

舉個(gè)例子

以伯努利分布(Bernoulli distribution,又叫做兩點(diǎn)分布或0-1分布)為例:

也可以寫(xiě)成以下形式:

這里注意區(qū)分 f(x;p)f(x;p) 與前面的條件概率的區(qū)別,引號(hào)后的 pp 僅表示 ff 依賴于 pp 的值,pp 并不是 ff 的前置條件,而只是這個(gè)概率分布的一個(gè)參數(shù)而已,也可以省略引號(hào)后的內(nèi)容:

對(duì)于任意的參數(shù) pp 我們都可以畫(huà)出伯努利分布的概率圖,當(dāng) p=0.5p=0.5 時(shí):

? ? ? ? ? ? ? ? ? ? f(x)=0.5

1

2

我們可以得到下面的概率密度圖:

從似然的角度出發(fā),假設(shè)我們觀測(cè)到的結(jié)果是 x=0.5x=0.5(即某一面朝上的概率是50%,這個(gè)結(jié)果可能是通過(guò)幾千次幾萬(wàn)次的試驗(yàn)得到的,總之我們現(xiàn)在知道這個(gè)結(jié)論),可以得到以下的似然函數(shù):

對(duì)應(yīng)的圖是這樣的:

與概率分布圖不同的是,似然函數(shù)是一個(gè)(0, 1)內(nèi)連續(xù)的函數(shù),所以得到的圖也是連續(xù)的,我們很容易看出似然函數(shù)的極值(也是最大值)在 p=0.5p=0.5 處得到,通常不需要做圖來(lái)觀察極值,令似然函數(shù)的偏導(dǎo)數(shù)為零即可求得極值條件。

ps. 似然函數(shù)里的 pp 描述的是硬幣的性質(zhì)而非事件發(fā)生的概率(比如 p=0.5p=0.5 描述的是一枚兩面均勻的硬幣)。為了避免混淆,可以用其他字母來(lái)表示這個(gè)性質(zhì),如果我們用 ππ 來(lái)表示,那么似然函數(shù)就可以寫(xiě)成:

似然函數(shù)的最大值

似然函數(shù)的最大值意味著什么?讓我們回到概率和似然的定義,概率描述的是在一定條件下某個(gè)事件發(fā)生的可能性,概率越大說(shuō)明這件事情越可能會(huì)發(fā)生;而似然描述的是結(jié)果已知的情況下,該事件在不同條件下發(fā)生的可能性,似然函數(shù)的值越大說(shuō)明該事件在對(duì)應(yīng)的條件下發(fā)生的可能性越大。

現(xiàn)在再來(lái)看看之前提到的拋硬幣的例子:

上面的 pp (硬幣的性質(zhì))就是我們說(shuō)的事件發(fā)生的條件,LL 描述的是性質(zhì)不同的硬幣,任意一面向上概率為50% 的可能性有多大,是不是有點(diǎn)繞?讓我們來(lái)定義 A:

A=事件的結(jié)果=任意一面向上概率為50%

那么 LL 描述的是性質(zhì)不同的硬幣,A 事件的可能性有多大,這么一說(shuō)是不是清楚多了?

在很多實(shí)際問(wèn)題中,比如機(jī)器學(xué)習(xí)領(lǐng)域,我們更關(guān)注的是似然函數(shù)的最大值,我們需要根據(jù)已知事件來(lái)找出產(chǎn)生這種結(jié)果最有可能的條件,目的當(dāng)然是根據(jù)這個(gè)最有可能的條件去推測(cè)未知事件的概率。在這個(gè)拋硬幣的事件中,pp 可以取 [0, 1] 內(nèi)的所有值,這是由硬幣的性質(zhì)所決定的,顯而易見(jiàn)的是 p=0.5p=0.5 這種硬幣最有可能產(chǎn)生我們觀測(cè)到的結(jié)果。

對(duì)數(shù)化的似然函數(shù)

實(shí)際問(wèn)題往往要比拋一次硬幣復(fù)雜得多,會(huì)涉及到多個(gè)獨(dú)立事件,在似然函數(shù)的表達(dá)式中通常都會(huì)出現(xiàn)連乘:

對(duì)多項(xiàng)乘積的求導(dǎo)往往非常復(fù)雜,但是對(duì)于多項(xiàng)求和的求導(dǎo)卻要簡(jiǎn)單的多,對(duì)數(shù)函數(shù)不改變?cè)瘮?shù)的單調(diào)性和極值位置,而且根據(jù)對(duì)數(shù)函數(shù)的性質(zhì)可以將乘積轉(zhuǎn)換為加減式,這可以大大簡(jiǎn)化求導(dǎo)的過(guò)程:

在機(jī)器學(xué)習(xí)的公式推導(dǎo)中,經(jīng)常能看到類(lèi)似的轉(zhuǎn)化。

看到這應(yīng)該不會(huì)再那么迷糊了吧~最后再來(lái)個(gè)例子:

舉個(gè)別人博客中的例子,假如有一個(gè)罐子,里面有黑白兩種顏色的球,數(shù)目多少不知,兩種顏色的比例也不知。我 們想知道罐中白球和黑球的比例,但我們不能把罐中的球全部拿出來(lái)數(shù)?,F(xiàn)在我們可以每次任意從已經(jīng)搖勻的罐中拿一個(gè)球出來(lái),記錄球的顏色,然后把拿出來(lái)的球 再放回罐中。這個(gè)過(guò)程可以重復(fù),我們可以用記錄的球的顏色來(lái)估計(jì)罐中黑白球的比例。假如在前面的一百次重復(fù)記錄中,有七十次是白球,請(qǐng)問(wèn)罐中白球所占的比例最有可能是多少?很多人馬上就有答案了:70%。而其后的理論支撐是什么呢?

我們假設(shè)罐中白球的比例是p,那么黑球的比例就是1-p。因?yàn)槊砍橐粋€(gè)球出來(lái),在記錄顏色之后,我們把抽出的球放回了罐中并搖勻,所以每次抽出來(lái)的球的顏 色服從同一獨(dú)立分布。這里我們把一次抽出來(lái)球的顏色稱為一次抽樣。題目中在一百次抽樣中,七十次是白球的概率是P(Data | M),這里Data是所有的數(shù)據(jù),M是所給出的模型,表示每次抽出來(lái)的球是白色的概率為p。如果第一抽樣的結(jié)果記為x1,第二抽樣的結(jié)果記為x2... 那么Data = (x1,x2,…,x100)。這樣,

1

2

    P(Data | M)

     = P(x1,x2,…,x100|M)

     = P(x1|M)P(x2|M)…P(x100|M)

     = p^70(1-p)^30.

那么p在取什么值的時(shí)候,P(Data |M)的值最大呢?將p^70(1-p)^30對(duì)p求導(dǎo),并其等于零。

    70p^69(1-p)^30-p^70*30(1-p)^29=0。

    解方程可以得到p=0.7。

在邊界點(diǎn)p=0,1,P(Data|M)=0。所以當(dāng)p=0.7時(shí),P(Data|M)的值最大。這和我們常識(shí)中按抽樣中的比例來(lái)計(jì)算的結(jié)果是一樣的。

假如我們有一組連續(xù)變量的采樣值(x1,x2,…,xn),我們知道這組數(shù)據(jù)服從正態(tài)分布,標(biāo)準(zhǔn)差已知。請(qǐng)問(wèn)這個(gè)正態(tài)分布的期望值為多少時(shí),產(chǎn)生這個(gè)已有數(shù)據(jù)的概率最大?

    P(Data | M) = ?

根據(jù)公式

由上可知最大似然估計(jì)的一般求解過(guò)程:

 ?。?) 寫(xiě)出似然函數(shù);

 ?。?) 對(duì)似然函數(shù)取對(duì)數(shù),并整理;

 ?。?) 求導(dǎo)數(shù) ;

  (4) 解似然方程

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容