看書的時(shí)候很憂傷,作為一個(gè)專門關(guān)注回歸問題的時(shí)候,書上說主要關(guān)注的是分類問題。
決策樹: 分類決策樹模型是一種描述對(duì)實(shí)例進(jìn)行分類的樹形結(jié)構(gòu)。決策樹由結(jié)點(diǎn)(Node)和有向邊(directed edge)組成。結(jié)點(diǎn)有兩種類型:內(nèi)部結(jié)點(diǎn)(internal node)和葉節(jié)點(diǎn)(leaf node).內(nèi)部結(jié)點(diǎn)表示一個(gè)特征或?qū)傩?,葉結(jié)點(diǎn)表示一個(gè)類。
信息增益
在信息論與概率統(tǒng)計(jì)中,熵(entropy)是表示隨機(jī)變量不確定性的度量。設(shè)X是一個(gè)取有限個(gè)的離散隨機(jī)變量,其概率分布為
則隨機(jī)變量X的熵的定義為
通常對(duì)數(shù)是以2或者 e為底,單位為比特(bit)或納特(nat)。由于熵只依賴于X的分布,而與X的取值無關(guān),所以也可以將X的熵記作 ,即
熵越大,隨機(jī)變量的不確定性越大,從定義可驗(yàn)證
信息增益表示得知特征X的信息而使得類Y的信息的不確定性減少的程度
定義:信息增益是,特征A對(duì)訓(xùn)練數(shù)據(jù)集D的信息增益g(D,A),定義為數(shù)據(jù)集D的經(jīng)驗(yàn)熵H(D)與特征A給定條件下的經(jīng)驗(yàn)條件熵H(D|A)之差,即
信息增益大的特征具有更強(qiáng)的分類能力

信息增益比
以信息增益作為劃分?jǐn)?shù)據(jù)集的特征,存在偏向于取值較多的特征的問題。使用信息增益比可以對(duì)這個(gè)問題進(jìn)行校正。這是特征選擇的另一準(zhǔn)則。

ID3算法
ID3算法的核心是在決策樹各個(gè)結(jié)點(diǎn)熵應(yīng)用信息增益準(zhǔn)則選擇特征,遞歸地構(gòu)建決策樹。
具體方法:
從根結(jié)點(diǎn)開始,對(duì)結(jié)點(diǎn)計(jì)算所有可能的特征的信息增益,選擇信息增益最大的特征作為結(jié)點(diǎn)的特征,由該特征的不同取值建立子結(jié)點(diǎn);再對(duì)子節(jié)點(diǎn)遞歸地調(diào)用以上方法,構(gòu)建決策樹;直到所有特征的信息增益均很小或沒有特征可以選擇為止。最后得到一棵決策樹。


ID3 算法只有樹的生成,所以該算法生成的樹容易產(chǎn)生過擬合
C4.5算法
與ID3算法唯一的區(qū)別在于,C4.5將信息增益改成了信息增益比
