区码精品视频久,日本久久在线

————DDL：2017/11/15——不定期記錄以便寫(xiě)實(shí)驗(yàn)報(bào)告

信息論（需補(bǔ)充知識(shí)）
結(jié)果的不確定性
熵值H(X)=-plog2(p)-(1-p)log2(1-p)
條件熵
聯(lián)合熵
方差
熵
協(xié)方差與相關(guān)系數(shù)

P(X=1)=p
P(X=0)=1-p

誤分類(lèi)率 1-max(p,1-p)
條件熵取最小
互信息取最大

H(Y)-H(Y|X)
原始數(shù)據(jù)集的熵減去（引入某條件）條件熵
I(X;Y)差值越大，表示X對(duì)Y的預(yù)測(cè)更重要

基于信息增益的ID3模型

缺點(diǎn)：當(dāng)某個(gè)屬性分類(lèi)過(guò)多時(shí)，比如說(shuō)userID，更偏向與互信息更高的節(jié)點(diǎn)，會(huì)被分到較高的根節(jié)點(diǎn)，但是沒(méi)有任何意義

改進(jìn)：C4.5 引入信息增益率，即每次選取最大增益率的屬性進(jìn)行劃分

信息增益率的分子，把屬性自己的熵作為分母，信息增益率越大越好

基于Gini指數(shù)的CART模型

處理離散型變量
如何處理連續(xù)型變量

實(shí)驗(yàn)課筆記：
決策樹(shù)剪枝
1、預(yù)剪枝
a 規(guī)定樹(shù)的層次
b 根據(jù)數(shù)據(jù)葉子節(jié)點(diǎn)個(gè)個(gè)數(shù) 做一個(gè)閾值（假如該節(jié)點(diǎn)下只有一個(gè)label，有可能是噪聲，也許有可能是對(duì)模型決策沒(méi)有什么幫助的節(jié)點(diǎn)），假如該葉子節(jié)點(diǎn)的數(shù)量小于一個(gè)閾值，那么把這個(gè)葉子節(jié)點(diǎn)歸并到父節(jié)點(diǎn)中，不再繼續(xù)向下分支
c 從訓(xùn)練集中，用交叉驗(yàn)證，構(gòu)建驗(yàn)證集
使用驗(yàn)證集，在生成新的節(jié)點(diǎn)，判斷分出新節(jié)點(diǎn)的決策是否效果更好

2、后剪枝
a 基于錯(cuò)誤率的剪枝
b 基于模型復(fù)雜度的剪枝懲罰系數(shù)（協(xié)同錯(cuò)誤率和模型復(fù)雜度的關(guān)系）
（理論課知識(shí)補(bǔ)充）

別的優(yōu)化方法：
a 隨機(jī)森林（決策樹(shù)泛化能力太差），對(duì)某一個(gè)訓(xùn)練集生成一顆完整的樹(shù)，正確率很高，這樣子在測(cè)試集上容易出現(xiàn)過(guò)擬合

begging 抽取數(shù)據(jù)集放回去，抽出放回如100次

然后進(jìn)行10次

有了10個(gè)訓(xùn)練集，然后再分別生產(chǎn)決策樹(shù)，這種方法用于泛化模型

第二個(gè)隨機(jī)
重新選取特征維度（10選7）

原來(lái)的一個(gè)節(jié)點(diǎn) 加入51個(gè)+，49個(gè)-，那如果挑選51個(gè)的+樣例作為決策目標(biāo)，那么也許沒(méi)什么代表性，可以利用KNN算法對(duì)節(jié)點(diǎn)重新建模（原來(lái)的模型為眾數(shù)）

歸一化：不等于讓和等于1
為什么歸一化？
消除量綱
使屬性對(duì)結(jié)果的影響平均一些，不讓某些數(shù)字差別極大的屬性，直接決定整個(gè)模型的決策
對(duì)什么歸一化：
對(duì)屬性歸一化

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

基于圖論的決策樹(shù)模型

基于圖論的決策樹(shù)模型

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

基于圖論的決策樹(shù)模型

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av