最大似然估計的應(yīng)用

一、似然函數(shù)

已知有一組樣本X1,X2,...Xn,X服從分布律P{X=x} = p(x;θ),又設(shè)x1,x2,...xn是相應(yīng)于樣本X1,X2,...Xn的一個樣本值,(已知分布,所以可以知道樣本Xi的值取到xi的概率,也就可以知道,對于所有的樣本來說X1,X2,...Xn取到x1,x2,...xn的概率。)
那么 ,若是 已知一組數(shù)據(jù)為x1,x2,...xn,那么可以認(rèn)為,這是一組從樣本中采樣得到的值,那么事件{X1=x1,X2=x2,...Xn=xn}的發(fā)生的概率為

這一概率隨著θ的取值而變化,他是θ的函數(shù),L(θ)稱為樣本的似然函數(shù)。(這里的x1,x2,...xn是已知的樣本值,都是常數(shù)。)

通俗的講就是,我現(xiàn)在手里有一組數(shù)據(jù),也知道這組數(shù)據(jù)的樣本服從什么分布(不知道的就假設(shè)一個),那么我就可以認(rèn)為每個數(shù)據(jù)是一個事件,發(fā)生的概率為P{X=x} = p(x;θ),那么這整組數(shù)據(jù),是連續(xù)對樣本采樣得到的一個事件,這個事件發(fā)生的概率就是所有小事件的乘積。(也可以認(rèn)為這組數(shù)據(jù),是不斷地對服從一定分布的樣本采樣得到的

二、最大似然估計法

由上面可知,假使現(xiàn)在有一組數(shù)據(jù),樣本服從一定分布,但是分布的參數(shù)θ并不知道,怎么求得這個θ?

由上面可知,既然事情已經(jīng)發(fā)生了,那么就說明在參數(shù)θ下,這個事件發(fā)生(取得的手中的樣本值)的概率L(θ)比較大,若估計出一個θ1和θ2,函數(shù)L(θ1)<L(θ2),那么我們就認(rèn)為θ2更接近于參數(shù)θ,因為θ2更能使這件事情發(fā)生。所以,我們就是想要找到一個參數(shù)θ,使這個事件盡可能的發(fā)生,也就是說,L(θ)要盡可能的大。

能使L(θ)最大的值,就作為參數(shù)的最大似然估計值。

三、最大似然估計法的應(yīng)用

無論是在有監(jiān)督還是無監(jiān)督,判別模型還是生成模型,但凡是和概率有掛鉤的,最終是模型是預(yù)測概率的,都少補(bǔ)了最大似然估計的應(yīng)用。

3.1、有監(jiān)督學(xué)習(xí)

3.1.1 邏輯回歸分類(判別模型==>條件概率)
  • 目標(biāo):對于新來的樣例,預(yù)測其屬于y=1 該類的概率

  • 已有數(shù)據(jù):樣例x,標(biāo)簽y。

  • 事件:在樣例X(i)=x(i)的條件下,類別是y。(這是已知的,這個事件也是服從一個由參數(shù)θ控制的分布的。)
    于是得到模型:

對于所有的樣本來說,在樣例取得m個值的情況下,m個類別分別是y的概率。就是這些小事件一起發(fā)生的概率。于是有極大似然函數(shù):

image.png

于是此時,找到使L(θ)最大的參數(shù)θ,就能夠使上述事件盡可能的發(fā)生, 也是最接近實際值的θ了。于是可以用來預(yù)測。

3.1.2、高斯判別模型(生成模型 ==>聯(lián)合分布)

為什么是生成模型,因為這里認(rèn)為,數(shù)據(jù)(樣本,類別)都是在滿足這些分布的情況下生成的。
判別的時候,模型表達(dá)的意思 ,“先采樣生成類別y,再采樣生成新來樣例xi”,這個事件發(fā)生的概率,那個大,就說明更符合實際情況。比如在類別是1的情況下, 采樣生成新來樣例的概率是0.6,在類比是2的情況下采樣生成新來樣例的概率 是0.8,那么新來陽歷屬于類比2的情況更符合實際。

  • 目標(biāo):每個類別服從一個分布P(Y=y) = p(y),確定類別以后每個樣例也服從一個分布P(X=x|Y=y) ~p,學(xué)習(xí)完后,最終可以用“先采樣生成一個類別標(biāo)簽,在已知類別標(biāo)簽的情況下采樣生成新來樣例”的概率,來判斷數(shù)據(jù)哪一類 。
  • 數(shù)據(jù):樣例x,標(biāo)簽y
  • 事件:1、同時觀測到(x,y),于是我們可以認(rèn)為一個事件是(X=x,Y=y)同時發(fā)生。2、由聯(lián)合分布公式可知,p(x,y)=p(x|y)p(y)。于是我們也可以認(rèn)為,一個事件(x,y)是 先采樣得到y(tǒng),再在y的條件下采樣生成x得到的 。
    所以此時,我們想要知道的是,y的分布(伯努利分布),以及在y確定的情況下x的分布(多值高斯分布),于是可以得到模型。

已有的m個數(shù)據(jù)對,就是取到m個(x,y)數(shù)據(jù)對的事件,它發(fā)生的概率為:

找到上式中的參數(shù),使上述事件盡可能的發(fā)生,就是要估計的參數(shù)了。

并且,參數(shù)的實際意義是 可以根據(jù)表達(dá)式理解出來的。也就是最接近似然函數(shù)的情況下,參數(shù)的理想狀況。
比如對上面目標(biāo)函數(shù)求導(dǎo)以后得到各參數(shù)的值。其中

這里的φ代表類別是1的概率,就等于 樣本中y=1對的個數(shù)除以樣本總數(shù)m。

3.2、無監(jiān)督學(xué)習(xí)

  • 目標(biāo),對于新來的樣例,預(yù)測其屬于某一類(k個類)的概率
  • 已有數(shù)據(jù): 樣例x
  • 事件:不同于有監(jiān)督學(xué)習(xí)中,(有監(jiān)督:一個事件是(X=x,Y=y)同時發(fā)生,y已經(jīng)確定,所以可以直接用p(x,y)=p(x|y)p(y)來 表示此事件。)
    此時的每個事件,就是樣例x發(fā)生。(但是每個樣例都有k個可能的類與之對應(yīng),所以需要全概率公式。)所以得到每個事件的模型:

那么數(shù)據(jù)就是代表著,m個事件X=x同時發(fā)生的概率 :

但是,這個式子一開始并不好求,于是我們先隨機(jī)為每個樣例選一個相應(yīng)的類別,,,接下來就是EM思想,可以看EM算法這一塊。

每個類別的概率是所有樣例的后驗概率的平均值(參考GMM)

總之,最大化這個似然函數(shù),最終得到的,也是我們想要的參數(shù)。

3.3 最大后驗概率估計(MAP)

邏輯回歸中的模型是,認(rèn)為θ是一個常數(shù),一個事件就是,在樣例X=x的條件下,類別是y的概率。

而貝葉斯學(xué)派就認(rèn)為,θ是一個隨機(jī)變量,最大后驗概率估計的模型是:

也就是認(rèn)為,是先采樣生成θ以后,再在x和θ的情況下,類別是y的概率。

二者(邏輯回歸與MAp)都是通過極大似然來找到合適的θ,為什么說貝葉斯最大后驗概率估計就能跟好的克服過擬合問題呢?

在《規(guī)則化和模型選擇》中給出了解釋。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容