一、信息熵
1. 信息熵提出背景
? ? 我們生活在一個信息爆炸的時代,從信息學的角度來說,人類進步的本質(zhì)就是不斷的打破信息的不對稱性。我們討厭不確定性,我們一生都在試圖將所有的不確定性變成我們可能預測可能掌控的東西。
2. 什么是信息熵
? ? 在信息學中,對于接收者來說,發(fā)送者發(fā)送的信息是不確定的,所以對于接收者來說,他會接受到的信息是隨機的,這里就引入了熵的概念。統(tǒng)計學中說熵的概念是一個系統(tǒng)可能存在的狀態(tài)的個數(shù)的對數(shù)。雖然對于接收者來說,他可能接收的信息的個數(shù)是隨機的,但是總是在一個范圍內(nèi),他可能接收的信息的個數(shù)的對數(shù)就是信息熵。
3. 信息熵的公式
? ? 為了計算熵,我們需要計算所有類別所有肯能值所包含的期望值,事物的不確定越大,信息熵越大。
??,其中 m 代表將事物分類的概率為k種,
代表了將事物分類為k類型的概率。
4. 信息熵使用場景
? ? cart剪枝,一般有兩種,利用基尼系數(shù)或信息熵。
5. 信息熵存在的問題
? ? 從信息熵的公式我們可以看到,信息越確定,信息熵越小。在生活場景中,像id之類的特征通過信息熵公式計算得到的信息熵很高,但是實際上這個特征對我們判斷決策所起的作用很小,比如身份證號、手機號等信息。?
二、條件熵
1. 條件熵提出背景
? ? 我們知道有的特征攜帶的熵很多,但是這個特征又真正對我要決策的事情有多大的重要性呢,這時候我們很容易想到條件概率,這時候我們引出了條件熵這個概念。
2. 什么是條件熵
? ? 條件熵表示在已知隨機變量X的條件下隨機變量Y的不確定性。
3. 條件熵的公式
? ??隨機變量X給定的條件下隨機變量Y的條件熵公式如下:
? ???
? ? 其中,
三、信息增益
1.信息增益提出背景
? ? 拿我們生活的場景來舉個栗子, 比如閨蜜電話約我去逛街,提到我們逛街完了吃火鍋,那天剛好下雪,然后我恰巧還來例假了,我這時候有兩種決策,去或者不去。這里我們將上面場景中的信息概括下就是,買物品(買衣服?買包包?買鞋子?買花?買居家用品?)、吃飯(吃火鍋?吃串串?吃小吃?吃披薩?)、天氣(下雨?下雪?晴天?陰天?);例假(是?否?),聊天,那么這么多特征中,哪些是決定我去或者不去的重要因素呢?如果單從信息熵的角度來看,那么哪個特征的屬性越多,它的信息熵越大,重要性越大,事實卻不是如此。對我來說,去的理由也許買物品不重要,吃什么也不重要,而我好長時間沒有見到她了,想她了是真的,所以“聊天”這個特征決定我會做出赴約這個決策。串起來就是"在聊天這個特征條件下極大的增加了我做出赴約決策的確定性"。
2. 什么是信息增益
? ??信息增益表示得知特征X的信息而使得類Y的信息不確定性減少的程度。
3. 信息增益公式
? ??
? ? 這里D是決策,A是條件特征
4. 信息增益的使用場景
? ?信息處理中, ID3算法的核心是在決策樹各個結(jié)點上對應信息增益準則選擇特征,遞歸地構建決策樹。
5. 信息增益存在的問題
? ? 從信息增益公式我們可以看到,前面唯一id特征信息熵的問題還是沒有解決掉。那么有沒有什么方法可以平衡id特征信息熵過大的問題,我們很容易想到將特征id自身的信息熵作為分母去平衡整個的計算結(jié)果,這時候就有人提出了信息增益率這個概念。
四、信息增益率
1. 信息增益率提出背景
? ?信息增益率,其表示節(jié)點的信息與節(jié)點分裂信息度量的比值,增益率通常作為屬性選擇的方法之一
2. 什么是信息增益率
? 信息增益率,其表示節(jié)點的信息與節(jié)點分裂信息度量的比值,增益率通常作為屬性選擇的方法之一
3. 信息增益率公式

上圖為盜圖,解釋的比較清楚,這里就不重復說了。
4. 信息增益率使用場景
? ??C4.5算法就使用了信息增益率作為剪枝條件。
五、參考文獻
????https://www.cnblogs.com/ironan-liu/p/11769229.html