簡述:從樣本中統(tǒng)計每個特征對分類類別的概率,最后求將預測對象分為每個類別的概率,取最大為預測分類
優(yōu)點:在數據較少的情況下仍然有效,可以處理多分類問題
缺點:對于輸入數據的準備方式較為敏感
適用數據類型:標稱型數據 ? ? ? ?
概率論是許多機器學習算法的基礎,核心思想:選擇具有最高概率的決策
條件概率:P(A|B) = P(A B)/P(B)
P(C|X) = P(X|C)*P(C)/P(X) 求條件互換概率
獨立性假設是指一個現象的發(fā)生不依賴于其他現象,如一個詞的出現不依賴于文檔中其他詞,這個假設過于簡單,所以稱之為樸素貝葉斯
拉普拉斯修正:
若某個屬性值在訓練集中沒有與某個類同時出現過,則直接基于概率進行判別會出現問題,*0
將概率P(c) = |Dc|/|D| ?改為P(c) = |Dc+1|/|D|+N, N為類別個數
如果對預測速度要求高,則對給定訓練集,可將所有概率事先計算存表
如果數據更新頻繁,可采用懶惰學習,待收到預測請求后進行概率估算
如果數據不斷增加,可在現有估值基礎上,僅對新增樣本所涉及的概率估值進行計算修正,實現增量學習
半樸素貝葉斯分類
適當放松獨立性假設
獨依賴估計:假設每個屬性在類別之外最多僅依賴于一個其他屬性
SPODE:通過交叉驗證等選擇方法確定“超父”屬性,所以其他屬性依賴這個超父屬性
TAN:以屬性的條件互信息為權構建最大生成樹
AODE:基于集成學習,嘗試將每個屬性作為超父來構建SPODE,將SPODE集成起來作為最終結果
貝葉斯網
有向無環(huán)圖,以屬性為點,量化依賴關系為邊,有效表達屬性間的條件獨立性
道德圖:找到所有V型結構,在兩個父節(jié)點上加上一條無向邊,將所有有向邊改為無向邊,
若X,Y能被變量集合Z切開,則X,Y存在基于Z的條件獨立關系
“評分搜索”是求解貝葉斯網的常見辦法,詳見西瓜書P160
使用貝葉斯網可根據已有屬性值推斷其余屬性值:
精確推斷是NP難的,近似推斷常采用吉布斯采樣
吉布斯采樣:在E= e的基礎上采樣T次,計算其中Q=q的次數
實質上實在貝葉斯網所有變量的聯合狀態(tài)空間與證據E=e一致的子空間中進行隨機游走
EM算法
隱變量:未觀測到的變量
X:表示已觀測到的變量集,Z:表示未觀測到的變量集,欲對Θ做極大似然估計,則應最大化對數似然:
LL(Θ|X,Z)= lnP(X,Z|Θ)
Z未知,上式無法直接求解,需通過對Z計算期望,來最大化已觀測數據的對數“邊際似然”
流程:
E步:基于Θt 推斷隱變量Z的期望,記為Zt(推斷Z的分布P(Z|X,Θt), 并計算對數似然LL((Θ|X,Z) 關于Z的期望)
M步:基于Zt和X對參數Θ做極大似然估計,記為Θt+1(尋找參數最大化期望似然)
直到收斂
常用來學習高斯混合模型GMM的參數,K均值聚類就是典型的EM算法