国产伦理一二区,久操精品在线

概要

關(guān)于決策樹(shù)
決策樹(shù)其實(shí)是一種分類算法，目標(biāo)是將具有P個(gè)維度特征的樣本n劃分到c個(gè)類別中： c = f(n); 通過(guò)這種分類的過(guò)程表示為一棵樹(shù)，每次通過(guò)選擇一個(gè)特征pi來(lái)進(jìn)行分叉。
每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)分類，非葉節(jié)點(diǎn)對(duì)應(yīng)著在每個(gè)屬性上的劃分，根據(jù)樣本在該屬性上的不同取值將其劃分成若干個(gè)子集。對(duì)于非純的葉節(jié)點(diǎn)，多數(shù)類的標(biāo)號(hào)給出到達(dá)這個(gè)節(jié)點(diǎn)的樣本所屬的類。

構(gòu)建決策樹(shù)的核心問(wèn)題：在每一步如何選擇適當(dāng)?shù)膶傩詫?duì)樣本進(jìn)行拆分。

不同的決策樹(shù)算法有著不同的特征選擇方案
1、ID3：信息增益
2、C4.5：信息增益率
3、CART: gini系數(shù)（基尼系數(shù)）

算法	描述	適用
ID3	在決策樹(shù)的各級(jí)節(jié)點(diǎn)上，使用信息增益方法作為屬性選擇標(biāo)準(zhǔn)，來(lái)確定生成每個(gè)節(jié)點(diǎn)時(shí)所采用的合適屬性	適用于離散的描述屬性
C4.5	使用信息增益率來(lái)選擇節(jié)點(diǎn)屬性，并克服ID3算法的不足	即適用離散的描述屬性呦適用連續(xù)的描述屬性
CART	是一種有效的非參數(shù)分類和回歸方法，通過(guò)構(gòu)建樹(shù)、修建樹(shù)、評(píng)估樹(shù)來(lái)構(gòu)建二叉樹(shù)	當(dāng)終結(jié)點(diǎn)為連續(xù)屬性時(shí)該樹(shù)為回歸樹(shù)；當(dāng)終節(jié)點(diǎn)為分類變量時(shí)，即為分類樹(shù)

實(shí)例

決策樹(shù)-分類.png

數(shù)據(jù)總結(jié)：屬性數(shù)據(jù)4個(gè) = {天氣，溫度，濕度，風(fēng)速}
類別2個(gè) = {進(jìn)行，取消}
1、類型信息熵
定義：所有樣本中各種類別出現(xiàn)的不確定性之和，根據(jù)熵的概念，熵越大，不確定性就越大。需要研究清楚信息就越多。

2、每個(gè)屬性的信息熵
每個(gè)屬性信息熵相當(dāng)于一種條件熵。表示在某種屬性的條件下，各種類別出現(xiàn)的不確定性之和。屬性的信息熵越大，該屬性擁有的樣本類型越不“純”。

3、信息增益
信息增益 = 熵 - 條件熵（信息類別熵 - 屬性信息熵）；表示信息不確定性減少的程度。若是一個(gè)屬性的信息增益越大，就表示用這個(gè)屬性進(jìn)行樣本劃分可以更好的減少劃分后樣本的不確定性。當(dāng)然，選擇該屬性就可以更快更好的完成分類目標(biāo)。
信息增益的ID3算法的特征選擇指標(biāo)

4.屬性分裂信息度量
通過(guò)分裂信息度量來(lái)考慮某種屬性進(jìn)行分裂時(shí)分支的數(shù)量信息和尺寸信息，而這些信息稱之為屬性的內(nèi)在信息。

信息增益率 = 信息增益 / 內(nèi)存信息，導(dǎo)致屬性的重要性隨內(nèi)在信息的增大而減?。〒Q句話說(shuō)：若是某個(gè)屬性本身的不確定性很大，那就不傾向選取它）。是對(duì)單純使用信息增益有所補(bǔ)償

5、信息增益率
IGR(天氣) = Gain(天氣) / H(天氣) = 0.246 / 1.577 = 0.155
IGR(溫度) = Gain(溫度) / H(溫度) = 0.029 / 1.556 = 0.0186
IGR(濕度) = Gain(濕度) / H(濕度) = 0.151 / 1.0 = 0.151
IGR(風(fēng)速) = Gain(風(fēng)速) / H(風(fēng)速) = 0.048 / 0.985 = 0.048

信息增益率

結(jié)論

后續(xù)

信息熵：體現(xiàn)的是在整個(gè)樣本數(shù)據(jù)集中，結(jié)果類型或條件屬性在對(duì)應(yīng)的結(jié)果集中單一事件出現(xiàn)不確定性的概率；而這個(gè)不確定性的結(jié)果和對(duì)應(yīng)的結(jié)果類型或條件屬性存在log的聯(lián)系；信息的不確定性越大，熵的值也就越大; 針對(duì)的是一元模型的概率
-(同一結(jié)果類型記錄的個(gè)數(shù)) / (整個(gè)樣本數(shù)據(jù)結(jié)果類型記錄的總數(shù)) * log2((同一結(jié)果類型記錄的個(gè)數(shù)) / (整個(gè)樣本數(shù)據(jù)結(jié)果類型記錄的總數(shù)))
條件熵：通過(guò)多元模型的方式來(lái)減少一元模型中不確定性，或者說(shuō)降低對(duì)應(yīng)的熵，越低意味著信息的不確定性就越小。
條件熵 = -某個(gè)條件屬性某個(gè)類型/總結(jié)果記錄數(shù) * 該條件屬性某個(gè)類型的不同細(xì)分類的信息熵之和
該條件屬性某個(gè)類型的不同細(xì)分類的信息熵 = 同個(gè)屬性不同內(nèi)容類型相對(duì)結(jié)果類型的信息熵的之和

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

決策樹(shù)之C4.5算法

決策樹(shù)之C4.5算法

概要

實(shí)例

結(jié)論

后續(xù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

決策樹(shù)之C4.5算法

概要

實(shí)例

結(jié)論

后續(xù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av