決策樹與隨機(jī)森林

1、信息熵

只考慮離散情況

  • 熵:度量變量不確定性,越確定熵越小,完全確定的事件熵為0
    信息熵的定義:
    $$
  • 條件熵:
    h(y | x) = h(x, y) - h(x) x與y的不確定性,減去x的不確定性得到當(dāng)x確定時(shí)y的不確定性,即h(y | x) = 條件上公式
    相對(duì)熵:

2、決策樹算法

從根節(jié)點(diǎn)開始建立一個(gè)熵下降的樹,葉子節(jié)點(diǎn)熵為0。同時(shí)有可能采用預(yù)剪枝,使得最后的熵不至于為0,導(dǎo)致在訓(xùn)練集上過擬合。

  • ID3
  • C4.5
  • CART
    前3個(gè)是分類的依據(jù),若使用MSE作為依據(jù)則對(duì)應(yīng)擬合。

3、隨機(jī)森林與Bagging

bagging是有放回的重采樣,重復(fù)m次得到m個(gè)分類器,最后根據(jù)這m個(gè)分類器投票決定類別。

重采樣的樣本規(guī)模和特征維度不一定要跟原始數(shù)據(jù)的一樣,即可以存在一個(gè)采樣率,按照一定比例隨機(jī)選擇出樣本和特征。

進(jìn)階

(1)logistic的四種解釋

(2)OOB問題

(3)不是很建議用強(qiáng)分類器做bagging
上圖

(4)關(guān)于隨機(jī)森林的投票機(jī)制,大部分場(chǎng)景中使用的是少數(shù)服從多數(shù)、加權(quán)少數(shù)服從多數(shù)、一票否決等機(jī)制。在一些場(chǎng)景中會(huì)用到先驗(yàn)知識(shí),即貝葉斯投票機(jī)制,如電影評(píng)分,一個(gè)可行的方案是:

(6)RF計(jì)算樣本相似度
(7)RF計(jì)算特征重要度
(8)RF用于異常值檢測(cè)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容