- 在信息論中,期望信息越小,那么信息增益就越大,從而純度就越高.
- ID3算法的核心思想就是以信息增益來度量屬性的選擇,選擇分裂后信息增益最大的屬性進行分裂
- 在信息增益中,重要性的衡量標(biāo)準(zhǔn)就是看特征能夠為分類系統(tǒng)帶來多少信息,帶來的信息越多,該特征越重要。
圖片.png
舉個例子
根據(jù)天氣情況決定今天打球與否:
Firefox_Screenshot_2017-09-26T13-27-38.839Z.png可以看出,一共14個樣例,包括9個正例和5個負(fù)例。那么當(dāng)前信息的熵計算如下:
Firefox_Screenshot_2017-09-26T13-33-26.951Z.png- 在決策樹分類問題中,信息增益就是決策樹在進行屬性選擇劃分前和劃分后信息的差值。假設(shè)利用屬性O(shè)utlook來分類,那么如下圖:
Firefox_Screenshot_2017-09-26T13-39-00.161Z.png
劃分后,數(shù)據(jù)被分為三部分了,那么各個分支的信息熵計算如下:
Firefox_Screenshot_2017-09-26T13-40-33.327Z.png
那么劃分后的信息熵為:
Paste_Image.png
- 如果按照溫度來劃分
1179285551.jpg
如果按照濕度以及刮風(fēng)來劃分
微信圖片_20170926234931.jpg
- 由此可以看出,屬性“outlook”的信息增益最大,所以第一層利用“溫度”來進行劃分:
- ID3算法可用于劃分標(biāo)準(zhǔn)稱型數(shù)據(jù),但存在一些問題:
1.只可以處理離散分布的數(shù)據(jù)特征
2.信息增益的方法偏向選擇具有大量值的屬性,也就是說某個屬性特征索取的不同值越多,那么越有可能作為分裂屬性,這樣是不合理的;
3.沒有剪枝過程,為了去除過渡數(shù)據(jù)匹配的問題,可通過裁剪合并相鄰的無法產(chǎn)生大量信息增益的葉子節(jié)點;







