極大似然估計(jì),通俗理解來說,就是利用已知的樣本結(jié)果信息,反推最具有可能(最大概率)導(dǎo)致這些樣本結(jié)果出現(xiàn)的模型參數(shù)值!
換句話說,極大似然估計(jì)提供了一種給定觀察數(shù)據(jù)來評估模型參數(shù)的方法,即:“模型已定,參數(shù)未知”。
例如,我們假定模型服從于正態(tài)分布,但是不知道均值和方差;或者是二項(xiàng)分布,但是不知道均值。
輸入有兩個(gè):
表示某一個(gè)具體的數(shù)據(jù);
表示模型的參數(shù)
如果是已知確定的,
是變量,這個(gè)函數(shù)叫做似然函數(shù)(likelihood function), 它描述對于不同的模型參數(shù)
,出現(xiàn)
這個(gè)樣本點(diǎn)的概率是多少。
由于重新縮放并不會(huì)改變
的結(jié)果,即
當(dāng)趨于無窮的時(shí)候,最大似然函數(shù)是最好的漸進(jìn)估計(jì)(也就是說對參數(shù)估計(jì)的準(zhǔn)確度最高)
上面說到期望就是平均數(shù)隨樣本趨于無窮的極限,那么這句話是什么意思呢?
我們還是以上面的擲骰子為例子:
如果我們擲了無數(shù)次的骰子,然后將其中的點(diǎn)數(shù)進(jìn)行相加,然后除以他們擲骰子的次數(shù)得到均值,這個(gè)有無數(shù)次樣本得出的均值就趨向于期望。
個(gè)人理解:均值為多個(gè)隨機(jī)變量的和再除以個(gè)數(shù),相當(dāng)于還是一個(gè)隨機(jī)變量,當(dāng)數(shù)量足夠多的時(shí)候,這個(gè)隨機(jī)變量會(huì)收斂,這個(gè)收斂的值為期望
由于與模型無關(guān),即
所以一種解釋最大似然的觀點(diǎn)是將它看作最小化訓(xùn)練集上的經(jīng)驗(yàn)分布和模型分布
之間的差異,可以通過KL散度來度量。
需要注意的是這種方法雖然簡單,但是結(jié)果準(zhǔn)確度嚴(yán)重依賴于 假設(shè)的模型分布?是否符合 潛在的真實(shí)分布。不能靠瞎猜就確定模型分布