亚洲禁久一二三区,蜜桃欧洲一区,久久久在线

一、似然函數(shù)

已知有一組樣本X₁，X₂，...X_n，X服從分布律P{X=x} = p(x;θ)，又設(shè)x₁，x₂，...x_n是相應(yīng)于樣本X₁，X₂，...X_n的一個樣本值，（已知分布，所以可以知道樣本X_i的值取到x_i的概率，也就可以知道，對于所有的樣本來說X₁，X₂，...X_n取到x₁，x₂，...x_n的概率。）
那么，若是已知一組數(shù)據(jù)為x₁，x₂，...x_n，那么可以認(rèn)為，這是一組從樣本中采樣得到的值，那么事件{X₁=x₁，X₂=x₂，...X_n=x_n}的發(fā)生的概率為

這一概率隨著θ的取值而變化，他是θ的函數(shù)，L(θ)稱為樣本的似然函數(shù)。（這里的x₁，x₂，...x_n是已知的樣本值，都是常數(shù)。）

通俗的講就是，我現(xiàn)在手里有一組數(shù)據(jù)，也知道這組數(shù)據(jù)的樣本服從什么分布（不知道的就假設(shè)一個），那么我就可以認(rèn)為每個數(shù)據(jù)是一個事件，發(fā)生的概率為P{X=x} = p(x;θ)，那么這整組數(shù)據(jù)，是連續(xù)對樣本采樣得到的一個事件，這個事件發(fā)生的概率就是所有小事件的乘積。（也可以認(rèn)為這組數(shù)據(jù)，是不斷地對服從一定分布的樣本采樣得到的）

二、最大似然估計法

由上面可知，假使現(xiàn)在有一組數(shù)據(jù)，樣本服從一定分布，但是分布的參數(shù)θ并不知道，怎么求得這個θ？

由上面可知，既然事情已經(jīng)發(fā)生了，那么就說明在參數(shù)θ下，這個事件發(fā)生（取得的手中的樣本值）的概率L(θ)比較大，若估計出一個θ₁和θ₂，函數(shù)L(θ₁)<L(θ₂)，那么我們就認(rèn)為θ₂更接近于參數(shù)θ，因為θ₂更能使這件事情發(fā)生。所以，我們就是想要找到一個參數(shù)θ，使這個事件盡可能的發(fā)生，也就是說，L(θ)要盡可能的大。

能使L(θ)最大的值，就作為參數(shù)的最大似然估計值。

三、最大似然估計法的應(yīng)用

無論是在有監(jiān)督還是無監(jiān)督，判別模型還是生成模型，但凡是和概率有掛鉤的，最終是模型是預(yù)測概率的，都少補(bǔ)了最大似然估計的應(yīng)用。

3.1、有監(jiān)督學(xué)習(xí)

3.1.1 邏輯回歸分類（判別模型==>條件概率）

目標(biāo)：對于新來的樣例，預(yù)測其屬于y=1 該類的概率
已有數(shù)據(jù)：樣例x，標(biāo)簽y。
事件：在樣例X_(i)=x_(i)的條件下，類別是y。（這是已知的，這個事件也是服從一個由參數(shù)θ控制的分布的。）
于是得到模型：

對于所有的樣本來說，在樣例取得m個值的情況下，m個類別分別是y的概率。就是這些小事件一起發(fā)生的概率。于是有極大似然函數(shù)：

image.png

于是此時，找到使L(θ)最大的參數(shù)θ，就能夠使上述事件盡可能的發(fā)生，也是最接近實際值的θ了。于是可以用來預(yù)測。

3.1.2、高斯判別模型（生成模型 ==>聯(lián)合分布）

為什么是生成模型，因為這里認(rèn)為，數(shù)據(jù)（樣本，類別）都是在滿足這些分布的情況下生成的。
判別的時候，模型表達(dá)的意思，“先采樣生成類別y，再采樣生成新來樣例xi”，這個事件發(fā)生的概率，那個大，就說明更符合實際情況。比如在類別是1的情況下，采樣生成新來樣例的概率是0.6，在類比是2的情況下采樣生成新來樣例的概率是0.8，那么新來陽歷屬于類比2的情況更符合實際。

目標(biāo)：每個類別服從一個分布P(Y=y) = p(y)，確定類別以后每個樣例也服從一個分布P(X=x|Y=y) ~p，學(xué)習(xí)完后，最終可以用“先采樣生成一個類別標(biāo)簽，在已知類別標(biāo)簽的情況下采樣生成新來樣例”的概率，來判斷數(shù)據(jù)哪一類。
數(shù)據(jù)：樣例x，標(biāo)簽y
事件：1、同時觀測到（x，y），于是我們可以認(rèn)為一個事件是（X=x，Y=y）同時發(fā)生。2、由聯(lián)合分布公式可知，p(x,y)=p(x|y)p(y)。于是我們也可以認(rèn)為，一個事件（x，y）是先采樣得到y(tǒng)，再在y的條件下采樣生成x得到的。
所以此時，我們想要知道的是，y的分布（伯努利分布），以及在y確定的情況下x的分布（多值高斯分布），于是可以得到模型。

已有的m個數(shù)據(jù)對，就是取到m個（x，y）數(shù)據(jù)對的事件，它發(fā)生的概率為：

找到上式中的參數(shù)，使上述事件盡可能的發(fā)生，就是要估計的參數(shù)了。

并且，參數(shù)的實際意義是可以根據(jù)表達(dá)式理解出來的。也就是最接近似然函數(shù)的情況下，參數(shù)的理想狀況。
比如對上面目標(biāo)函數(shù)求導(dǎo)以后得到各參數(shù)的值。其中

這里的φ代表類別是1的概率，就等于樣本中y=1對的個數(shù)除以樣本總數(shù)m。

3.2、無監(jiān)督學(xué)習(xí)

目標(biāo)，對于新來的樣例，預(yù)測其屬于某一類（k個類）的概率
已有數(shù)據(jù)：樣例x
事件：不同于有監(jiān)督學(xué)習(xí)中，（有監(jiān)督：一個事件是（X=x，Y=y）同時發(fā)生，y已經(jīng)確定，所以可以直接用p(x,y)=p(x|y)p(y)來表示此事件。）
此時的每個事件，就是樣例x發(fā)生。（但是每個樣例都有k個可能的類與之對應(yīng)，所以需要全概率公式。）所以得到每個事件的模型：

那么數(shù)據(jù)就是代表著，m個事件X=x同時發(fā)生的概率：

但是，這個式子一開始并不好求，于是我們先隨機(jī)為每個樣例選一個相應(yīng)的類別，，，接下來就是EM思想，可以看EM算法這一塊。

每個類別的概率是所有樣例的后驗概率的平均值（參考GMM）

總之，最大化這個似然函數(shù)，最終得到的，也是我們想要的參數(shù)。

3.3 最大后驗概率估計（MAP）

邏輯回歸中的模型是，認(rèn)為θ是一個常數(shù)，一個事件就是，在樣例X=x的條件下，類別是y的概率。

而貝葉斯學(xué)派就認(rèn)為，θ是一個隨機(jī)變量，最大后驗概率估計的模型是：

也就是認(rèn)為，是先采樣生成θ以后，再在x和θ的情況下，類別是y的概率。

二者（邏輯回歸與MAp）都是通過極大似然來找到合適的θ，為什么說貝葉斯最大后驗概率估計就能跟好的克服過擬合問題呢？

在《規(guī)則化和模型選擇》中給出了解釋。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

最大似然估計的應(yīng)用

最大似然估計的應(yīng)用

一、似然函數(shù)

二、最大似然估計法