大師兄的貝葉斯網絡學習筆記(三十四):貝葉斯網絡(八)

大師兄的貝葉斯網絡學習筆記(三十三):貝葉斯網絡(七)
大師兄的貝葉斯網絡學習筆記(三十五):貝葉斯網絡(九)

七、缺值數據最大似然估計

  • 在分析缺值數據時,人們往往假設數據是隨機缺失(missing at random,MAR)的,即一個變量值的確實與它的實際取值無關,從而不能基于前者對后者做任何推測。
  • 設D是一個樣本
  • O是所有其值在D中已知變量的集合
  • H是其值在D未知的一個變量
  • 隨機缺失假設可表述為:P(H|H-值缺,O) = P(H|O)。
  • 隨機缺失假設有時不成立,這時可以引入一個輔助變量H_{obs},
  • 當H的取值被觀測到時,他的取值為“真”;
  • 而當H值缺時,它的取值為“假”。
  • 顯然H_{obs}的取值總是已知的,而且P(H|H-值缺,H_{obs},O) = P(H+H_{obs},O)。
  • 所以通過引入輔助變量H_{obs},總可以保證隨機缺失假設成立。
  • 引入H_{obs}意味著在建立貝葉斯網絡時需要把它考慮進去。
  • 在完整數據情況下,最大似然估計可以用一個閉公式(closed formula)來計算。
  • 但當數據有缺失時,logP(D_t|\theta)不能按上面公式的形式分解,對數似然函數l(\theta|D)也沒有計算最大似然估計的閉公式。在實際中,人們通常使用迭代法對它進行近似。
  • 最常用的迭代算法,即期望優(yōu)化(expectation maximization)算法,簡稱EM算法。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內容