————DDL:2017/11/15——不定期記錄以便寫(xiě)實(shí)驗(yàn)報(bào)告
信息論(需補(bǔ)充知識(shí))
結(jié)果的不確定性
熵值H(X)=-plog2(p)-(1-p)log2(1-p)
條件熵
聯(lián)合熵
方差
熵
協(xié)方差與相關(guān)系數(shù)
P(X=1)=p
P(X=0)=1-p
誤分類(lèi)率 1-max(p,1-p)
條件熵取最小
互信息取最大
H(Y)-H(Y|X)
原始數(shù)據(jù)集的熵 減去 (引入某條件)條件熵
I(X;Y)差值越大,表示X對(duì)Y的預(yù)測(cè)更重要
基于信息增益的ID3模型
缺點(diǎn):當(dāng)某個(gè)屬性分類(lèi)過(guò)多時(shí),比如說(shuō)userID,更偏向與互信息更高的節(jié)點(diǎn),會(huì)被分到較高的根節(jié)點(diǎn),但是沒(méi)有任何意義
改進(jìn):C4.5 引入信息增益率,即每次選取最大增益率的屬性進(jìn)行劃分
信息增益率的分子,把屬性自己的熵作為分母,信息增益率越大越好
基于Gini指數(shù)的CART模型
處理離散型變量
如何處理連續(xù)型變量
實(shí)驗(yàn)課筆記:
決策樹(shù)剪枝
1、預(yù)剪枝
a 規(guī)定樹(shù)的層次
b 根據(jù)數(shù)據(jù)葉子節(jié)點(diǎn)個(gè)個(gè)數(shù) 做一個(gè)閾值(假如該節(jié)點(diǎn)下只有一個(gè)label,有可能是噪聲,也許有可能是對(duì)模型決策沒(méi)有什么幫助的節(jié)點(diǎn)),假如該葉子節(jié)點(diǎn)的數(shù)量小于一個(gè)閾值,那么把這個(gè)葉子節(jié)點(diǎn)歸并到父節(jié)點(diǎn)中,不再繼續(xù)向下分支
c 從訓(xùn)練集中,用交叉驗(yàn)證,構(gòu)建驗(yàn)證集
使用驗(yàn)證集,在生成新的節(jié)點(diǎn),判斷分出新節(jié)點(diǎn)的決策是否效果更好
2、后剪枝
a 基于錯(cuò)誤率的剪枝
b 基于模型復(fù)雜度的剪枝 懲罰系數(shù)(協(xié)同錯(cuò)誤率和模型復(fù)雜度的關(guān)系)
(理論課知識(shí)補(bǔ)充)
別的優(yōu)化方法:
a 隨機(jī)森林(決策樹(shù)泛化能力太差),對(duì)某一個(gè)訓(xùn)練集生成一顆完整的樹(shù),正確率很高,這樣子在測(cè)試集上容易出現(xiàn)過(guò)擬合
begging 抽取數(shù)據(jù)集放回去,抽出放回如100次
然后進(jìn)行10次
有了10個(gè)訓(xùn)練集,然后再分別生產(chǎn)決策樹(shù),這種方法用于泛化模型
第二個(gè)隨機(jī)
重新選取 特征維度(10選7)
原來(lái)的一個(gè)節(jié)點(diǎn) 加入51個(gè)+,49個(gè)-,那如果挑選51個(gè)的+樣例作為決策目標(biāo),那么也許沒(méi)什么代表性,可以利用KNN算法對(duì)節(jié)點(diǎn)重新建模(原來(lái)的模型為眾數(shù))
歸一化:不等于讓和等于1
為什么歸一化?
消除量綱
使屬性對(duì)結(jié)果的影響平均一些,不讓某些數(shù)字差別極大的屬性,直接決定整個(gè)模型的決策
對(duì)什么歸一化:
對(duì)屬性歸一化