
上一次分享給出決策樹(shù)劃分幾種算法,如下。
信息增益
信息增益率
但是為什么這樣按特征對(duì)數(shù)據(jù)劃分就可以達(dá)到分類(lèi)或回歸的效果呢? 今天我們就嘗試來(lái)回答這個(gè)問(wèn)題。
我們對(duì)數(shù)據(jù)了解程度決定了我們是否可以對(duì)數(shù)據(jù)進(jìn)行分類(lèi)和預(yù)測(cè)。數(shù)據(jù)對(duì)于我們是一些信息,在決策樹(shù)我們是通過(guò)一些列方法讓我們更了解這些數(shù)據(jù),也就是數(shù)據(jù)提供給我們更多信息。
所以我們通過(guò)對(duì)數(shù)據(jù)某個(gè)特征對(duì)數(shù)據(jù)進(jìn)行劃分來(lái)不斷了解數(shù)據(jù),我們同過(guò)了解數(shù)據(jù)特征,更加了解數(shù)據(jù)。我們可以根據(jù)特征對(duì)數(shù)據(jù)進(jìn)行劃分,降低我們對(duì)數(shù)據(jù)不確定性。數(shù)據(jù)的不確定性是通過(guò)信息熵可以衡量。降低數(shù)據(jù)信息熵就等同于降低數(shù)據(jù)不確定性。那么我們將要盡快了解數(shù)據(jù),就要找到可以讓信息熵下降最快的特征作為我們劃分?jǐn)?shù)據(jù)的依據(jù)。
今天我們會(huì)首先介紹信息熵,接下來(lái)介紹在給定條件(就是已知什么條件下)數(shù)據(jù)下的條件熵。衡量連個(gè)對(duì)同一個(gè)數(shù)據(jù)不同概率分布之間的距離(差異性)的交叉熵。這些都是為證明互信息的公式?;バ畔⒕褪切畔⒃鲆?,也就是我們今天主要分享的內(nèi)容。

圖中很直觀表示了互信息 和條件熵
以及聯(lián)合熵
他們之間關(guān)系。
信息熵
熵概念最早是在物理熱力學(xué)中提出概念后來(lái)也被在統(tǒng)計(jì)學(xué)中使用,表示提出了信息熵的概念,用以度量信息的不確定性。以及信息熵關(guān)系。我們先說(shuō)介紹一下事件,什么是事件呢?例如太陽(yáng)從東方升起就是一個(gè)事件、老板告訴你升職了也是一個(gè)事件。這些事件發(fā)生都是有一定概率的,例如太陽(yáng)升起的概率是 100%,而老板告訴你升職卻是一個(gè)小概率事件。然后這些事件也是帶有一定信息量,如果你告訴朋友太陽(yáng)會(huì)從東方升起,朋友會(huì)感覺(jué)你無(wú)聊,沒(méi)話找話。因?yàn)檫@個(gè)這個(gè)事件對(duì)于他的信息量幾乎為 0。
然后用概率表示事件發(fā)生可能性,我們用熵來(lái)衡量信息量大小。通過(guò)上面例子我們已經(jīng)了解到信息熵越大則概率越小,概率為 1 時(shí)信息熵為 0。好現(xiàn)在我們先給出熵計(jì)算公式,然后再給出合理解釋為什么熵公式長(zhǎng)成這個(gè)樣子
計(jì)算均勻分布信息熵
條件熵
之前已經(jīng)學(xué)習(xí)過(guò)條件概率, 就是在 X 事件發(fā)生前提下,發(fā)生 Y 事件的概率。那么什么是條件熵呢?這里用
來(lái)表示在 X 發(fā)生前提下,Y 的信息熵的值,
通過(guò)推導(dǎo)我們得出 ,這里我們可能會(huì)感覺(jué)有點(diǎn)不舒服就是,如果根據(jù)信息熵定義應(yīng)該是
相對(duì)熵
相對(duì)熵,又稱互熵、交叉熵,鑒別信息,Kullback 熵或則 Kullback_Leible 散度。我們假設(shè)有和
分別是 X 中取值的兩個(gè)概率分布,則 p 相對(duì)于 q 的相對(duì)熵為
在 p 概率分布上求 的期望。那么相對(duì)熵也就是可以衡量?jī)蓚€(gè)概率分布
和
之間的距離。我們知道KL散度可以用于進(jìn)行分類(lèi)問(wèn)題。
互信息
上面介紹相對(duì)熵就是為了介紹互信息,兩個(gè)隨機(jī)變量 X,Y 的互信息,定義為 X,Y 的聯(lián)合分布和獨(dú)立分布乘積的相對(duì)熵。
如果兩個(gè)隨機(jī)變量和
是相互獨(dú)立那么,就是
也就是
如果兩個(gè)隨機(jī)變量的互信息為 0 就是說(shuō)明兩個(gè)隨機(jī)變量是相互獨(dú)立,反之就是大于 0。
有了互信息我們想證明一件事
之前介紹條件熵、還是相交熵或是互信息都是為了證明下面結(jié)論做準(zhǔn)備,根據(jù)條件熵有了下面結(jié)論
通過(guò)上面證明
我們對(duì)上上面式子交互 X 和 Y 來(lái)得到對(duì)偶式
因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=I(X%2CY)" alt="I(X,Y)" mathimg="1"> 所以
最后希望大家關(guān)注我們微信公眾號(hào)
