深度學(xué)習(xí)擴(kuò)展_最大似然估計(jì)

極大似然估計(jì),通俗理解來說,就是利用已知的樣本結(jié)果信息,反推最具有可能(最大概率)導(dǎo)致這些樣本結(jié)果出現(xiàn)的模型參數(shù)值!

換句話說,極大似然估計(jì)提供了一種給定觀察數(shù)據(jù)來評估模型參數(shù)的方法,即:“模型已定,參數(shù)未知”。

例如,我們假定模型服從于正態(tài)分布,但是不知道均值和方差;或者是二項(xiàng)分布,但是不知道均值。


Q(x;θ)輸入有兩個(gè):x表示某一個(gè)具體的數(shù)據(jù); θ表示模型的參數(shù)

如果x是已知確定的,θ是變量,這個(gè)函數(shù)叫做似然函數(shù)(likelihood function), 它描述對于不同的模型參數(shù)θ,出現(xiàn)x這個(gè)樣本點(diǎn)的概率是多少。

θ_{ML}=\underset{θ}{\arg \max}\ Q(\mathbf{x};θ)=\underset{θ}{\arg \max} \prod_{i}^{m} Q(x_{i};θ)=\underset{θ}{\arg \max} \sum_{i}^{m} \ln Q(x_{i};θ)

由于重新縮放\sum_{i}^{m} \ln Q(x_{i};θ)并不會(huì)改變\underset{θ}{\arg \max} 的結(jié)果,即θ_{ML}=\underset{θ}{\arg \max} \frac{1}{m}\sum_{i}^{m} \ln Q(x_{i};θ)=\underset{θ}{\arg \max}\ \mathbb{E}_{\mathbf{x} \sim P}[\ln Q(\mathbf{x};θ)]

當(dāng)m趨于無窮的時(shí)候,最大似然函數(shù)是最好的漸進(jìn)估計(jì)(也就是說對參數(shù)估計(jì)的準(zhǔn)確度最高)

上面說到期望就是平均數(shù)隨樣本趨于無窮的極限,那么這句話是什么意思呢?

我們還是以上面的擲骰子為例子:

如果我們擲了無數(shù)次的骰子,然后將其中的點(diǎn)數(shù)進(jìn)行相加,然后除以他們擲骰子的次數(shù)得到均值,這個(gè)有無數(shù)次樣本得出的均值就趨向于期望。

個(gè)人理解:均值為多個(gè)隨機(jī)變量的和再除以個(gè)數(shù),相當(dāng)于還是一個(gè)隨機(jī)變量,當(dāng)數(shù)量足夠多的時(shí)候,這個(gè)隨機(jī)變量會(huì)收斂,這個(gè)收斂的值為期望

由于 P與模型無關(guān),即\arg \min \mathbb{E}_{x \sim P}[\ln P(x)-\ln Q(x)] \Leftrightarrow \arg \min \mathbb{E}_{x \sim P}[-\ln Q(x)]\Leftrightarrow \arg \max\ \mathbb{E}_{x \sim P}[\ln Q(x)]

所以一種解釋最大似然的觀點(diǎn)是將它看作最小化訓(xùn)練集上的經(jīng)驗(yàn)分布P和模型分布Q之間的差異,可以通過KL散度來度量。

需要注意的是這種方法雖然簡單,但是結(jié)果準(zhǔn)確度嚴(yán)重依賴于 假設(shè)的模型分布Q?是否符合 潛在的真實(shí)分布。不能靠瞎猜就確定模型分布

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容