大師兄的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)筆記(三十四):貝葉斯網(wǎng)絡(luò)(八)

大師兄的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)筆記(三十三):貝葉斯網(wǎng)絡(luò)(七)
大師兄的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)筆記(三十五):貝葉斯網(wǎng)絡(luò)(九)

七、缺值數(shù)據(jù)最大似然估計(jì)

  • 在分析缺值數(shù)據(jù)時(shí),人們往往假設(shè)數(shù)據(jù)是隨機(jī)缺失(missing at random,MAR)的,即一個(gè)變量值的確實(shí)與它的實(shí)際取值無(wú)關(guān),從而不能基于前者對(duì)后者做任何推測(cè)。
  • 設(shè)D是一個(gè)樣本
  • O是所有其值在D中已知變量的集合
  • H是其值在D未知的一個(gè)變量
  • 隨機(jī)缺失假設(shè)可表述為:P(H|H-值缺,O) = P(H|O)
  • 隨機(jī)缺失假設(shè)有時(shí)不成立,這時(shí)可以引入一個(gè)輔助變量H_{obs},
  • 當(dāng)H的取值被觀測(cè)到時(shí),他的取值為“真”;
  • 而當(dāng)H值缺時(shí),它的取值為“假”。
  • 顯然H_{obs}的取值總是已知的,而且P(H|H-值缺,H_{obs},O) = P(H+H_{obs},O)。
  • 所以通過(guò)引入輔助變量H_{obs},總可以保證隨機(jī)缺失假設(shè)成立。
  • 引入H_{obs}意味著在建立貝葉斯網(wǎng)絡(luò)時(shí)需要把它考慮進(jìn)去。
  • 在完整數(shù)據(jù)情況下,最大似然估計(jì)可以用一個(gè)閉公式(closed formula)來(lái)計(jì)算。
  • 但當(dāng)數(shù)據(jù)有缺失時(shí),logP(D_t|\theta)不能按上面公式的形式分解,對(duì)數(shù)似然函數(shù)l(\theta|D)也沒(méi)有計(jì)算最大似然估計(jì)的閉公式。在實(shí)際中,人們通常使用迭代法對(duì)它進(jìn)行近似。
  • 最常用的迭代算法,即期望優(yōu)化(expectation maximization)算法,簡(jiǎn)稱EM算法。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容