信息熵
信息熵就是度量信息的不確定度,例如現(xiàn)在總共10份數(shù)據(jù),其中5份正5份負(fù),那么正負(fù)的概率就是0.5

根據(jù)這個(gè)公式,來計(jì)算信息熵,p(xi)代表每一類的概率,這樣計(jì)算出來的值代表目前數(shù)據(jù)的不確定度。
條件熵
我們知道條件概率,p(y|x)就是在X的條件下我們計(jì)算Y的概率
那么條件熵也是相同的,就是我們先按照X做為分類標(biāo)準(zhǔn),再計(jì)算以Y作為分類標(biāo)準(zhǔn)的熵值。

這里的H(y|x)就是我們?nèi)绻凑誜先進(jìn)行分類之后,再以Y分類的信息熵
條件熵是另一個(gè)變量Y熵對(duì)X(條件)的期望
其實(shí)條件熵意思是按一個(gè)新的變量的每個(gè)值對(duì)原變量進(jìn)行分類,比如上面這個(gè)題把嫁與不嫁按帥,不帥分成了倆類。
然后在每一個(gè)小類里面,都計(jì)算一個(gè)小熵,然后每一個(gè)小熵乘以各個(gè)類別的概率,然后求和。
我們用另一個(gè)變量對(duì)原變量分類后,原變量的不確定性就會(huì)減小了,因?yàn)樾略隽薡的信息,可以感受一下。不確定程度減少了多少就是信息的增益。
信息增益
信息增益恰好是:信息熵-條件熵。
(解釋:如果目前Y代表lable,那么H(Y)就是當(dāng)前的信息熵,H(Y|X)代表以X特征作為分類條件的lable信息熵,兩者相減就是如果使用X特征進(jìn)行分類所獲得的信息增益,如果信息增益為正的話那么按照X分類后的不確定度降低)
換句話說,信息增益代表了在一個(gè)條件下,信息復(fù)雜度(不確定性)減少的程度。那么我們現(xiàn)在也很好理解了,在決策樹算法中,我們的關(guān)鍵就是每次選擇一個(gè)特征,特征有多個(gè),那么到底按照什么標(biāo)準(zhǔn)來選擇哪一個(gè)特征。這個(gè)問題就可以用信息增益來度量。如果選擇一個(gè)特征后,信息增益最大(信息不確定性減少的程度最大),那么我們就選取這個(gè)特征。
信息增益比
以信息作為劃分訓(xùn)練數(shù)據(jù)的特征,存在偏向選擇取值較多的特征的問題,使用信息增益比可以校正這一問題。
信息增益比等于特征A的信息增益g(D,A)除以,訓(xùn)練數(shù)據(jù)集D關(guān)于在特征A下的熵H(D)的比值。


基尼系數(shù)
基尼指數(shù)( CART算法 ---分類樹)
定義:基尼指數(shù)(基尼不純度):表示在樣本集合中一個(gè)隨機(jī)選中的樣本被分錯(cuò)的概率。
注意: Gini指數(shù)越小表示集合中被選中的樣本被分錯(cuò)的概率越小,也就是說集合的純度越高,反之,集合越不純。
即 基尼指數(shù)(基尼不純度)= 樣本被選中的概率 * 樣本被分錯(cuò)的概率
書中公式:

說明:
1. pk表示選中的樣本屬于k類別的概率,則這個(gè)樣本被分錯(cuò)的概率是(1-pk)
2. 樣本集合中有K個(gè)類別,一個(gè)隨機(jī)選中的樣本可以屬于這k個(gè)類別中的任意一個(gè),因而對(duì)類別就加和
3. 當(dāng)為二分類是,Gini(P) = 2p(1-p)
**樣本集合D的Gini指數(shù) : **假設(shè)集合中有K個(gè)類別,則:

基于特征A劃分樣本集合D之后的基尼指數(shù):
需要說明的是CART是個(gè)二叉樹,也就是當(dāng)使用某個(gè)特征劃分樣本集合只有兩個(gè)集合:1. 等于給定的特征值 的樣本集合D1 , 2 不等于給定的特征值 的樣本集合D2
實(shí)際上是對(duì)擁有多個(gè)取值的特征的二值處理。
舉個(gè)例子:
假設(shè)現(xiàn)在有特征 “學(xué)歷”,此特征有三個(gè)特征取值: “本科”,“碩士”, “博士”,
當(dāng)使用“學(xué)歷”這個(gè)特征對(duì)樣本集合D進(jìn)行劃分時(shí),劃分值分別有三個(gè),因而有三種劃分的可能集合,劃分后的子集如下:
劃分點(diǎn): “本科”,劃分后的子集合 : {本科},{碩士,博士}
劃分點(diǎn): “碩士”,劃分后的子集合 : {碩士},{本科,博士}
-
劃分點(diǎn): “碩士”,劃分后的子集合 : {博士},{本科,碩士}
對(duì)于上述的每一種劃分,都可以計(jì)算出基于 劃分特征= 某個(gè)特征值 將樣本集合D劃分為兩個(gè)子集的純度:

因而對(duì)于一個(gè)具有多個(gè)取值(超過2個(gè))的特征,需要計(jì)算以每一個(gè)取值作為劃分點(diǎn),對(duì)樣本D劃分之后子集的純度Gini(D,Ai),(其中Ai 表示特征A的可能取值)**
然后從所有的可能劃分的Gini(D,Ai)中找出Gini指數(shù)最小的劃分,這個(gè)劃分的劃分點(diǎn),便是使用特征A對(duì)樣本集合D進(jìn)行劃分的最佳劃分點(diǎn)。