基于圖論的決策樹(shù)模型

————DDL:2017/11/15——不定期記錄以便寫(xiě)實(shí)驗(yàn)報(bào)告

信息論(需補(bǔ)充知識(shí))
結(jié)果的不確定性
熵值H(X)=-plog2(p)-(1-p)log2(1-p)
條件熵
聯(lián)合熵
方差

協(xié)方差與相關(guān)系數(shù)

P(X=1)=p
P(X=0)=1-p

誤分類(lèi)率 1-max(p,1-p)
條件熵取最小
互信息取最大

H(Y)-H(Y|X)
原始數(shù)據(jù)集的熵 減去 (引入某條件)條件熵
I(X;Y)差值越大,表示X對(duì)Y的預(yù)測(cè)更重要

基于信息增益的ID3模型

缺點(diǎn):當(dāng)某個(gè)屬性分類(lèi)過(guò)多時(shí),比如說(shuō)userID,更偏向與互信息更高的節(jié)點(diǎn),會(huì)被分到較高的根節(jié)點(diǎn),但是沒(méi)有任何意義

改進(jìn):C4.5 引入信息增益率,即每次選取最大增益率的屬性進(jìn)行劃分

信息增益率的分子,把屬性自己的熵作為分母,信息增益率越大越好

基于Gini指數(shù)的CART模型

處理離散型變量
如何處理連續(xù)型變量

實(shí)驗(yàn)課筆記:
決策樹(shù)剪枝
1、預(yù)剪枝
a 規(guī)定樹(shù)的層次
b 根據(jù)數(shù)據(jù)葉子節(jié)點(diǎn)個(gè)個(gè)數(shù) 做一個(gè)閾值(假如該節(jié)點(diǎn)下只有一個(gè)label,有可能是噪聲,也許有可能是對(duì)模型決策沒(méi)有什么幫助的節(jié)點(diǎn)),假如該葉子節(jié)點(diǎn)的數(shù)量小于一個(gè)閾值,那么把這個(gè)葉子節(jié)點(diǎn)歸并到父節(jié)點(diǎn)中,不再繼續(xù)向下分支
c 從訓(xùn)練集中,用交叉驗(yàn)證,構(gòu)建驗(yàn)證集
使用驗(yàn)證集,在生成新的節(jié)點(diǎn),判斷分出新節(jié)點(diǎn)的決策是否效果更好

2、后剪枝
a 基于錯(cuò)誤率的剪枝
b 基于模型復(fù)雜度的剪枝 懲罰系數(shù)(協(xié)同錯(cuò)誤率和模型復(fù)雜度的關(guān)系)
(理論課知識(shí)補(bǔ)充)

別的優(yōu)化方法:
a 隨機(jī)森林(決策樹(shù)泛化能力太差),對(duì)某一個(gè)訓(xùn)練集生成一顆完整的樹(shù),正確率很高,這樣子在測(cè)試集上容易出現(xiàn)過(guò)擬合

begging 抽取數(shù)據(jù)集放回去,抽出放回如100次

然后進(jìn)行10次

有了10個(gè)訓(xùn)練集,然后再分別生產(chǎn)決策樹(shù),這種方法用于泛化模型

第二個(gè)隨機(jī)
重新選取 特征維度(10選7)

原來(lái)的一個(gè)節(jié)點(diǎn) 加入51個(gè)+,49個(gè)-,那如果挑選51個(gè)的+樣例作為決策目標(biāo),那么也許沒(méi)什么代表性,可以利用KNN算法對(duì)節(jié)點(diǎn)重新建模(原來(lái)的模型為眾數(shù))

歸一化:不等于讓和等于1
為什么歸一化?
消除量綱
使屬性對(duì)結(jié)果的影響平均一些,不讓某些數(shù)字差別極大的屬性,直接決定整個(gè)模型的決策
對(duì)什么歸一化:
對(duì)屬性歸一化

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容