《統(tǒng)計(jì)學(xué)習(xí)方法》python實(shí)現(xiàn) chapter5 決策樹1

看書的時(shí)候很憂傷,作為一個(gè)專門關(guān)注回歸問題的時(shí)候,書上說主要關(guān)注的是分類問題。


決策樹: 分類決策樹模型是一種描述對(duì)實(shí)例進(jìn)行分類的樹形結(jié)構(gòu)。決策樹由結(jié)點(diǎn)(Node)和有向邊(directed edge)組成。結(jié)點(diǎn)有兩種類型:內(nèi)部結(jié)點(diǎn)(internal node)和葉節(jié)點(diǎn)(leaf node).內(nèi)部結(jié)點(diǎn)表示一個(gè)特征或?qū)傩?,葉結(jié)點(diǎn)表示一個(gè)類。
信息增益
在信息論與概率統(tǒng)計(jì)中,熵(entropy)是表示隨機(jī)變量不確定性的度量。設(shè)X是一個(gè)取有限個(gè)的離散隨機(jī)變量,其概率分布為
P(X = x_i )= p_i
則隨機(jī)變量X的熵的定義為H( X ) = -\sum_{i=1}^n p_i logp_i
通常對(duì)數(shù)是以2或者 e為底,單位為比特(bit)或納特(nat)。由于熵只依賴于X的分布,而與X的取值無關(guān),所以也可以將X的熵記作 H(p ),即
H(p) = -\sum_{i=1}^np_ilogp_i
熵越大,隨機(jī)變量的不確定性越大,從定義可驗(yàn)證0 \le H(P) \le logn
信息增益表示得知特征X的信息而使得類Y的信息的不確定性減少的程度
定義:信息增益是,特征A對(duì)訓(xùn)練數(shù)據(jù)集D的信息增益g(D,A),定義為數(shù)據(jù)集D的經(jīng)驗(yàn)熵H(D)與特征A給定條件下的經(jīng)驗(yàn)條件熵H(D|A)之差,即g(D,A) = H(D) - H(D|A)
信息增益大的特征具有更強(qiáng)的分類能力

信息增益算法

信息增益比
以信息增益作為劃分?jǐn)?shù)據(jù)集的特征,存在偏向于取值較多的特征的問題。使用信息增益比可以對(duì)這個(gè)問題進(jìn)行校正。這是特征選擇的另一準(zhǔn)則。
信息增益比

ID3算法
ID3算法的核心是在決策樹各個(gè)結(jié)點(diǎn)熵應(yīng)用信息增益準(zhǔn)則選擇特征,遞歸地構(gòu)建決策樹。
具體方法:
從根結(jié)點(diǎn)開始,對(duì)結(jié)點(diǎn)計(jì)算所有可能的特征的信息增益,選擇信息增益最大的特征作為結(jié)點(diǎn)的特征,由該特征的不同取值建立子結(jié)點(diǎn);再對(duì)子節(jié)點(diǎn)遞歸地調(diào)用以上方法,構(gòu)建決策樹;直到所有特征的信息增益均很小或沒有特征可以選擇為止。最后得到一棵決策樹。


ID3算法

ID3 算法只有樹的生成,所以該算法生成的樹容易產(chǎn)生過擬合

C4.5算法
與ID3算法唯一的區(qū)別在于,C4.5將信息增益改成了信息增益比

C4.5

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容