信息熵

信息熵就是度量信息的不確定度，例如現(xiàn)在總共10份數(shù)據(jù)，其中5份正5份負(fù)，那么正負(fù)的概率就是0.5

image.png

根據(jù)這個(gè)公式，來計(jì)算信息熵，p(xi)代表每一類的概率，這樣計(jì)算出來的值代表目前數(shù)據(jù)的不確定度。

條件熵

我們知道條件概率，p（y|x）就是在X的條件下我們計(jì)算Y的概率
那么條件熵也是相同的，就是我們先按照X做為分類標(biāo)準(zhǔn)，再計(jì)算以Y作為分類標(biāo)準(zhǔn)的熵值。

image.png

這里的H（y|x）就是我們?nèi)绻凑誜先進(jìn)行分類之后，再以Y分類的信息熵
條件熵是另一個(gè)變量Y熵對(duì)X（條件）的期望
其實(shí)條件熵意思是按一個(gè)新的變量的每個(gè)值對(duì)原變量進(jìn)行分類，比如上面這個(gè)題把嫁與不嫁按帥，不帥分成了倆類。

然后在每一個(gè)小類里面，都計(jì)算一個(gè)小熵，然后每一個(gè)小熵乘以各個(gè)類別的概率，然后求和。

我們用另一個(gè)變量對(duì)原變量分類后，原變量的不確定性就會(huì)減小了，因?yàn)樾略隽薡的信息，可以感受一下。不確定程度減少了多少就是信息的增益。

信息增益

信息增益恰好是：信息熵-條件熵。
（解釋：如果目前Y代表lable，那么H（Y）就是當(dāng)前的信息熵，H（Y|X）代表以X特征作為分類條件的lable信息熵，兩者相減就是如果使用X特征進(jìn)行分類所獲得的信息增益，如果信息增益為正的話那么按照X分類后的不確定度降低）

換句話說，信息增益代表了在一個(gè)條件下，信息復(fù)雜度（不確定性）減少的程度。那么我們現(xiàn)在也很好理解了，在決策樹算法中，我們的關(guān)鍵就是每次選擇一個(gè)特征，特征有多個(gè)，那么到底按照什么標(biāo)準(zhǔn)來選擇哪一個(gè)特征。這個(gè)問題就可以用信息增益來度量。如果選擇一個(gè)特征后，信息增益最大（信息不確定性減少的程度最大），那么我們就選取這個(gè)特征。

信息增益比

以信息作為劃分訓(xùn)練數(shù)據(jù)的特征，存在偏向選擇取值較多的特征的問題，使用信息增益比可以校正這一問題。
信息增益比等于特征A的信息增益g(D,A)除以,訓(xùn)練數(shù)據(jù)集D關(guān)于在特征A下的熵H（D）的比值。

image.png

基尼系數(shù)

基尼指數(shù)（ CART算法 ---分類樹）
定義：基尼指數(shù)（基尼不純度）：表示在樣本集合中一個(gè)隨機(jī)選中的樣本被分錯(cuò)的概率。

注意： Gini指數(shù)越小表示集合中被選中的樣本被分錯(cuò)的概率越小，也就是說集合的純度越高，反之，集合越不純。
即基尼指數(shù)（基尼不純度）= 樣本被選中的概率 * 樣本被分錯(cuò)的概率

書中公式：

image.png

說明:

1. p_k表示選中的樣本屬于k類別的概率，則這個(gè)樣本被分錯(cuò)的概率是(1-p_k)

2. 樣本集合中有K個(gè)類別，一個(gè)隨機(jī)選中的樣本可以屬于這k個(gè)類別中的任意一個(gè)，因而對(duì)類別就加和

3. 當(dāng)為二分類是，Gini(P) = 2p(1-p)

**樣本集合D的Gini指數(shù) ： **假設(shè)集合中有K個(gè)類別，則：

image

基于特征A劃分樣本集合D之后的基尼指數(shù)：

需要說明的是CART是個(gè)二叉樹，也就是當(dāng)使用某個(gè)特征劃分樣本集合只有兩個(gè)集合：1. 等于給定的特征值的樣本集合D₁ ， 2 不等于給定的特征值的樣本集合D₂

實(shí)際上是對(duì)擁有多個(gè)取值的特征的二值處理。

舉個(gè)例子：
假設(shè)現(xiàn)在有特征 “學(xué)歷”，此特征有三個(gè)特征取值： “本科”，“碩士”， “博士”，

當(dāng)使用“學(xué)歷”這個(gè)特征對(duì)樣本集合D進(jìn)行劃分時(shí)，劃分值分別有三個(gè)，因而有三種劃分的可能集合，劃分后的子集如下：

1. 劃分點(diǎn)： “本科”，劃分后的子集合： {本科}，{碩士，博士}
2. 劃分點(diǎn)： “碩士”，劃分后的子集合： {碩士}，{本科，博士}
3. 劃分點(diǎn)： “碩士”，劃分后的子集合： {博士}，{本科，碩士}
  
  對(duì)于上述的每一種劃分，都可以計(jì)算出基于 劃分特征= 某個(gè)特征值 將樣本集合D劃分為兩個(gè)子集的純度：

image.png

因而對(duì)于一個(gè)具有多個(gè)取值（超過2個(gè)）的特征，需要計(jì)算以每一個(gè)取值作為劃分點(diǎn)，對(duì)樣本D劃分之后子集的純度Gini(D,A_i)，(其中A_i 表示特征A的可能取值)**
然后從所有的可能劃分的Gini(D,A_i)中找出Gini指數(shù)最小的劃分，這個(gè)劃分的劃分點(diǎn)，便是使用特征A對(duì)樣本集合D進(jìn)行劃分的最佳劃分點(diǎn)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

決策樹常見劃分原則信息熵、條件熵、信息增益、信息增益比、基尼指數(shù)的一般化描述

決策樹常見劃分原則信息熵、條件熵、信息增益、信息增益比、基尼指數(shù)的一般化描述

信息熵

條件熵

信息增益

信息增益比

基尼系數(shù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

決策樹常見劃分原則信息熵、條件熵、信息增益、信息增益比、基尼指數(shù)的一般化描述

信息熵

條件熵

信息增益

信息增益比

基尼系數(shù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

決策樹常見劃分原則信息熵、條件熵、信息增益、信息增益比、基尼指數(shù)的一般化描述