1、信息熵
只考慮離散情況
- 熵:度量變量不確定性,越確定熵越小,完全確定的事件熵為0
信息熵的定義:
$$ - 條件熵:
h(y | x) = h(x, y) - h(x) x與y的不確定性,減去x的不確定性得到當(dāng)x確定時(shí)y的不確定性,即h(y | x) = 條件上公式
相對(duì)熵:
2、決策樹算法
從根節(jié)點(diǎn)開始建立一個(gè)熵下降的樹,葉子節(jié)點(diǎn)熵為0。同時(shí)有可能采用預(yù)剪枝,使得最后的熵不至于為0,導(dǎo)致在訓(xùn)練集上過擬合。
- ID3
- C4.5
- CART
前3個(gè)是分類的依據(jù),若使用MSE作為依據(jù)則對(duì)應(yīng)擬合。
3、隨機(jī)森林與Bagging
bagging是有放回的重采樣,重復(fù)m次得到m個(gè)分類器,最后根據(jù)這m個(gè)分類器投票決定類別。
重采樣的樣本規(guī)模和特征維度不一定要跟原始數(shù)據(jù)的一樣,即可以存在一個(gè)采樣率,按照一定比例隨機(jī)選擇出樣本和特征。
進(jìn)階
(1)logistic的四種解釋
(2)OOB問題
(3)不是很建議用強(qiáng)分類器做bagging
上圖
(4)關(guān)于隨機(jī)森林的投票機(jī)制,大部分場(chǎng)景中使用的是少數(shù)服從多數(shù)、加權(quán)少數(shù)服從多數(shù)、一票否決等機(jī)制。在一些場(chǎng)景中會(huì)用到先驗(yàn)知識(shí),即貝葉斯投票機(jī)制,如電影評(píng)分,一個(gè)可行的方案是:
(6)RF計(jì)算樣本相似度
(7)RF計(jì)算特征重要度
(8)RF用于異常值檢測(cè)