ID3算法

  • 在信息論中,期望信息越小,那么信息增益就越大,從而純度就越高.
  • ID3算法的核心思想就是以信息增益來度量屬性的選擇,選擇分裂后信息增益最大的屬性進行分裂
  • 在信息增益中,重要性的衡量標(biāo)準(zhǔn)就是看特征能夠為分類系統(tǒng)帶來多少信息,帶來的信息越多,該特征越重要。
  • 圖片.png
  • 舉個例子
    根據(jù)天氣情況決定今天打球與否:


    Firefox_Screenshot_2017-09-26T13-27-38.839Z.png
  • 可以看出,一共14個樣例,包括9個正例和5個負(fù)例。那么當(dāng)前信息的熵計算如下:


    Firefox_Screenshot_2017-09-26T13-33-26.951Z.png
  • 在決策樹分類問題中,信息增益就是決策樹在進行屬性選擇劃分前和劃分后信息的差值。假設(shè)利用屬性O(shè)utlook來分類,那么如下圖:
    Firefox_Screenshot_2017-09-26T13-39-00.161Z.png

    劃分后,數(shù)據(jù)被分為三部分了,那么各個分支的信息熵計算如下:
    Firefox_Screenshot_2017-09-26T13-40-33.327Z.png

    那么劃分后的信息熵為:
    Paste_Image.png
  • 如果按照溫度來劃分
    1179285551.jpg
  • 如果按照濕度以及刮風(fēng)來劃分


    微信圖片_20170926234931.jpg
  • 由此可以看出,屬性“outlook”的信息增益最大,所以第一層利用“溫度”來進行劃分:
  • ID3算法可用于劃分標(biāo)準(zhǔn)稱型數(shù)據(jù),但存在一些問題:
    1.只可以處理離散分布的數(shù)據(jù)特征
    2.信息增益的方法偏向選擇具有大量值的屬性,也就是說某個屬性特征索取的不同值越多,那么越有可能作為分裂屬性,這樣是不合理的;
    3.沒有剪枝過程,為了去除過渡數(shù)據(jù)匹配的問題,可通過裁剪合并相鄰的無法產(chǎn)生大量信息增益的葉子節(jié)點;
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 決策樹學(xué)習(xí) 決策樹學(xué)習(xí)是應(yīng)用最廣的歸納推理算法之一,它是一種逼近離散值函數(shù)的方法,對噪聲數(shù)據(jù)又很好地健壯性且能夠?qū)W...
    貳拾貳畫生閱讀 3,154評論 0 7
  • PS:看起來簡書好像不支持MathJax,文章中的數(shù)學(xué)公式都沒渲染出來,大家將就點看吧...(或者可以訪問我的個人...
    gaunthan閱讀 2,652評論 0 2
  • 決策樹理論在決策樹理論中,有這樣一句話,“用較少的東西,照樣可以做很好的事情。越是小的決策樹,越優(yōu)于大的決策樹”。...
    制杖灶灶閱讀 6,063評論 0 25
  • 本文摘錄于http://www.itdecent.cn/p/ed9ae5385b89 一句話概要,決策樹算法的核心...
    liuzg0734閱讀 429評論 0 0
  • 你需要足夠堅強才能放下過去。你需要足夠智慧才能爭取到你所應(yīng)得的東西。有時你不得不退一兩步,才能達到比以往更高的高度...
    夕子寧洋閱讀 351評論 0 0

友情鏈接更多精彩內(nèi)容