概要
- 關(guān)于決策樹(shù)
決策樹(shù)其實(shí)是一種分類算法,目標(biāo)是將具有P個(gè)維度特征的樣本n劃分到c個(gè)類別中: c = f(n); 通過(guò)這種分類的過(guò)程表示為一棵樹(shù),每次通過(guò)選擇一個(gè)特征pi來(lái)進(jìn)行分叉。
每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)分類,非葉節(jié)點(diǎn)對(duì)應(yīng)著在每個(gè)屬性上的劃分,根據(jù)樣本在該屬性上的不同取值將其劃分成若干個(gè)子集。對(duì)于非純的葉節(jié)點(diǎn),多數(shù)類的標(biāo)號(hào)給出到達(dá)這個(gè)節(jié)點(diǎn)的樣本所屬的類。
構(gòu)建決策樹(shù)的核心問(wèn)題: 在每一步如何選擇適當(dāng)?shù)膶傩詫?duì)樣本進(jìn)行拆分。
- 不同的決策樹(shù)算法有著不同的特征選擇方案
1、ID3: 信息增益
2、C4.5: 信息增益率
3、CART: gini系數(shù)(基尼系數(shù))
| 算法 | 描述 | 適用 |
|---|---|---|
| ID3 | 在決策樹(shù)的各級(jí)節(jié)點(diǎn)上,使用信息增益方法作為屬性選擇標(biāo)準(zhǔn),來(lái)確定生成每個(gè)節(jié)點(diǎn)時(shí)所采用的合適屬性 | 適用于離散的描述屬性 |
| C4.5 | 使用信息增益率來(lái)選擇節(jié)點(diǎn)屬性,并克服ID3算法的不足 | 即適用離散的描述屬性呦適用連續(xù)的描述屬性 |
| CART | 是一種有效的非參數(shù)分類和回歸方法,通過(guò)構(gòu)建樹(shù)、修建樹(shù)、評(píng)估樹(shù)來(lái)構(gòu)建二叉樹(shù) | 當(dāng)終結(jié)點(diǎn)為連續(xù)屬性時(shí)該樹(shù)為回歸樹(shù);當(dāng)終節(jié)點(diǎn)為分類變量時(shí),即為分類樹(shù) |
實(shí)例

數(shù)據(jù)總結(jié): 屬性數(shù)據(jù)4個(gè) = {天氣,溫度,濕度,風(fēng)速}
類別2個(gè) = {進(jìn)行,取消}
1、類型信息熵
定義:所有樣本中各種類別出現(xiàn)的不確定性之和,根據(jù)熵的概念,熵越大,不確定性就越大。需要研究清楚信息就越多。

2、每個(gè)屬性的信息熵
每個(gè)屬性信息熵相當(dāng)于一種條件熵。表示在某種屬性的條件下,各種類別出現(xiàn)的不確定性之和。屬性的信息熵越大,該屬性擁有的樣本類型越不“純”。

3、信息增益
信息增益 = 熵 - 條件熵(信息類別熵 - 屬性信息熵);表示信息不確定性減少的程度。若是一個(gè)屬性的信息增益越大,就表示用這個(gè)屬性進(jìn)行樣本劃分可以更好的減少劃分后樣本的不確定性。當(dāng)然,選擇該屬性就可以更快更好的完成分類目標(biāo)。
信息增益的ID3算法的特征選擇指標(biāo)

4.屬性分裂信息度量
通過(guò)分裂信息度量來(lái)考慮某種屬性進(jìn)行分裂時(shí)分支的數(shù)量信息和尺寸信息,而這些信息稱之為屬性的內(nèi)在信息。
信息增益率 = 信息增益 / 內(nèi)存信息,導(dǎo)致屬性的重要性隨內(nèi)在信息的增大而減?。〒Q句話說(shuō):若是某個(gè)屬性本身的不確定性很大,那就不傾向選取它)。是對(duì)單純使用信息增益有所補(bǔ)償

5、信息增益率
IGR(天氣) = Gain(天氣) / H(天氣) = 0.246 / 1.577 = 0.155
IGR(溫度) = Gain(溫度) / H(溫度) = 0.029 / 1.556 = 0.0186
IGR(濕度) = Gain(濕度) / H(濕度) = 0.151 / 1.0 = 0.151
IGR(風(fēng)速) = Gain(風(fēng)速) / H(風(fēng)速) = 0.048 / 0.985 = 0.048

結(jié)論

后續(xù)
信息熵:體現(xiàn)的是在整個(gè)樣本數(shù)據(jù)集中,結(jié)果類型或條件屬性在對(duì)應(yīng)的結(jié)果集中單一事件出現(xiàn)不確定性的概率;而這個(gè)不確定性的結(jié)果和對(duì)應(yīng)的結(jié)果類型或條件屬性存在log的聯(lián)系;信息的不確定性越大,熵的值也就越大; 針對(duì)的是一元模型的概率
-(同一結(jié)果類型記錄的個(gè)數(shù)) / (整個(gè)樣本數(shù)據(jù)結(jié)果類型記錄的總數(shù)) * log2((同一結(jié)果類型記錄的個(gè)數(shù)) / (整個(gè)樣本數(shù)據(jù)結(jié)果類型記錄的總數(shù)))
條件熵: 通過(guò)多元模型的方式來(lái)減少一元模型中不確定性,或者說(shuō)降低對(duì)應(yīng)的熵,越低意味著信息的不確定性就越小。
條件熵 = -某個(gè)條件屬性某個(gè)類型/總結(jié)果記錄數(shù) * 該條件屬性某個(gè)類型的不同細(xì)分類的信息熵 之和
該條件屬性某個(gè)類型的不同細(xì)分類的信息熵 = 同個(gè)屬性不同內(nèi)容類型相對(duì)結(jié)果類型的信息熵的之和