決策樹常見劃分原則信息熵、條件熵、信息增益、信息增益比、基尼指數(shù)的一般化描述

信息熵

信息熵就是度量信息的不確定度,例如現(xiàn)在總共10份數(shù)據(jù),其中5份正5份負(fù),那么正負(fù)的概率就是0.5

image.png

根據(jù)這個(gè)公式,來計(jì)算信息熵,p(xi)代表每一類的概率,這樣計(jì)算出來的值代表目前數(shù)據(jù)的不確定度。

條件熵

我們知道條件概率,p(y|x)就是在X的條件下我們計(jì)算Y的概率
那么條件熵也是相同的,就是我們先按照X做為分類標(biāo)準(zhǔn),再計(jì)算以Y作為分類標(biāo)準(zhǔn)的熵值。

image.png

這里的H(y|x)就是我們?nèi)绻凑誜先進(jìn)行分類之后,再以Y分類的信息熵
條件熵是另一個(gè)變量Y熵對(duì)X(條件)的期望
其實(shí)條件熵意思是按一個(gè)新的變量的每個(gè)值對(duì)原變量進(jìn)行分類,比如上面這個(gè)題把嫁與不嫁按帥,不帥分成了倆類。

然后在每一個(gè)小類里面,都計(jì)算一個(gè)小熵,然后每一個(gè)小熵乘以各個(gè)類別的概率,然后求和。

我們用另一個(gè)變量對(duì)原變量分類后,原變量的不確定性就會(huì)減小了,因?yàn)樾略隽薡的信息,可以感受一下。不確定程度減少了多少就是信息的增益。

信息增益

信息增益恰好是:信息熵-條件熵。
(解釋:如果目前Y代表lable,那么H(Y)就是當(dāng)前的信息熵,H(Y|X)代表以X特征作為分類條件的lable信息熵,兩者相減就是如果使用X特征進(jìn)行分類所獲得的信息增益,如果信息增益為正的話那么按照X分類后的不確定度降低)

換句話說,信息增益代表了在一個(gè)條件下,信息復(fù)雜度(不確定性)減少的程度。那么我們現(xiàn)在也很好理解了,在決策樹算法中,我們的關(guān)鍵就是每次選擇一個(gè)特征,特征有多個(gè),那么到底按照什么標(biāo)準(zhǔn)來選擇哪一個(gè)特征。這個(gè)問題就可以用信息增益來度量。如果選擇一個(gè)特征后,信息增益最大(信息不確定性減少的程度最大),那么我們就選取這個(gè)特征。

信息增益比

以信息作為劃分訓(xùn)練數(shù)據(jù)的特征,存在偏向選擇取值較多的特征的問題,使用信息增益比可以校正這一問題。
信息增益比等于特征A的信息增益g(D,A)除以,訓(xùn)練數(shù)據(jù)集D關(guān)于在特征A下的熵H(D)的比值。

image.png

image.png

基尼系數(shù)

基尼指數(shù)( CART算法 ---分類樹)
定義:基尼指數(shù)(基尼不純度):表示在樣本集合中一個(gè)隨機(jī)選中的樣本被分錯(cuò)的概率。

注意: Gini指數(shù)越小表示集合中被選中的樣本被分錯(cuò)的概率越小,也就是說集合的純度越高,反之,集合越不純。
即 基尼指數(shù)(基尼不純度)= 樣本被選中的概率 * 樣本被分錯(cuò)的概率

書中公式:

image.png

說明:

1. pk表示選中的樣本屬于k類別的概率,則這個(gè)樣本被分錯(cuò)的概率是(1-pk)

2. 樣本集合中有K個(gè)類別,一個(gè)隨機(jī)選中的樣本可以屬于這k個(gè)類別中的任意一個(gè),因而對(duì)類別就加和

3. 當(dāng)為二分類是,Gini(P) = 2p(1-p)

**樣本集合D的Gini指數(shù) : **假設(shè)集合中有K個(gè)類別,則:

image

基于特征A劃分樣本集合D之后的基尼指數(shù):

需要說明的是CART是個(gè)二叉樹,也就是當(dāng)使用某個(gè)特征劃分樣本集合只有兩個(gè)集合:1. 等于給定的特征值 的樣本集合D1 , 2 不等于給定的特征值 的樣本集合D2

實(shí)際上是對(duì)擁有多個(gè)取值的特征的二值處理。

舉個(gè)例子:
假設(shè)現(xiàn)在有特征 “學(xué)歷”,此特征有三個(gè)特征取值: “本科”,“碩士”, “博士”,

當(dāng)使用“學(xué)歷”這個(gè)特征對(duì)樣本集合D進(jìn)行劃分時(shí),劃分值分別有三個(gè),因而有三種劃分的可能集合,劃分后的子集如下:

    1. 劃分點(diǎn): “本科”,劃分后的子集合 : {本科},{碩士,博士}

    2. 劃分點(diǎn): “碩士”,劃分后的子集合 : {碩士},{本科,博士}

    3. 劃分點(diǎn): “碩士”,劃分后的子集合 : {博士},{本科,碩士}

      對(duì)于上述的每一種劃分,都可以計(jì)算出基于 劃分特征= 某個(gè)特征值 將樣本集合D劃分為兩個(gè)子集的純度:

image.png

因而對(duì)于一個(gè)具有多個(gè)取值(超過2個(gè))的特征,需要計(jì)算以每一個(gè)取值作為劃分點(diǎn),對(duì)樣本D劃分之后子集的純度Gini(D,Ai),(其中Ai 表示特征A的可能取值)**
然后從所有的可能劃分的Gini(D,Ai)中找出Gini指數(shù)最小的劃分,這個(gè)劃分的劃分點(diǎn),便是使用特征A對(duì)樣本集合D進(jìn)行劃分的最佳劃分點(diǎn)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 決策樹理論在決策樹理論中,有這樣一句話,“用較少的東西,照樣可以做很好的事情。越是小的決策樹,越優(yōu)于大的決策樹”。...
    制杖灶灶閱讀 6,068評(píng)論 0 25
  • 經(jīng)文“且愛你耶和華你的神,聽從他的話,??克?yàn)樗悄愕纳?,你的日子長久也在乎他”
    亮儷護(hù)窗閱讀 146評(píng)論 0 0
  • 在這個(gè)經(jīng)濟(jì)高速變化的時(shí)代,人們對(duì)成功的渴望近似瘋狂的追求。這也造就了大批的成功學(xué)導(dǎo)師以及成功學(xué)的流行書。關(guān)于成功的...
    艾克書閱讀 933評(píng)論 0 50
  • 今天的題目想到了一首老歌范曉萱的《數(shù)字戀愛》 :3 1 5 5 5 3 0 都是都是我想你 ,5 2 0 是我愛...
    賣藝的小青年Ace劍心閱讀 351評(píng)論 0 0
  • 第二十六天修改則,修改則×2 我小心翼翼的,抱著綠蘿棲身的不太重的白色盆子,輕輕放進(jìn)結(jié)實(shí)的黑色車簍子,望見有幾片剛...
    April2005閱讀 101評(píng)論 1 0

友情鏈接更多精彩內(nèi)容