2018-07-30 決策樹(shù)學(xué)習(xí)記錄

決策樹(shù)的一些基礎(chǔ)概念(根節(jié)點(diǎn),內(nèi)部結(jié)點(diǎn),葉子結(jié)點(diǎn)等),結(jié)合數(shù)據(jù)結(jié)構(gòu)的二叉樹(shù)/非二叉樹(shù)其實(shí)很好理解。

純度

這個(gè)好像還是第一次看到。決策樹(shù)在選擇最優(yōu)的劃分屬性時(shí),希望分支節(jié)點(diǎn)包含盡可能多的同一類(lèi)別的樣本,這個(gè)就是指結(jié)點(diǎn)的“純度”盡可能高。

劃分方法對(duì)比

ID3(信息增益)

使用信息熵來(lái)度量樣本集合的純度;

  • 信息熵定義:


    image1.png
  • 信息增益:


    image2.png

信息增益越大,代表著使用此屬性a劃分的子集不確定性越小,而“純度”越大。

  • 缺點(diǎn):對(duì)可取值較多的屬性有偏好。

C4.5(增益率)

為了減少I(mǎi)D3(信息增益)算法的偏好問(wèn)題,C4.5算法提出了用增益率來(lái)選擇最優(yōu)劃分屬性。

  • 增益率定義:


    圖片發(fā)自簡(jiǎn)書(shū)App
  • 缺點(diǎn):對(duì)可取值較少的屬性有偏好。
注意:C4.5使用時(shí),先從候選的劃分屬性中選出信息增益高與平均水平的屬性,再?gòu)闹羞x擇增益率最高的。

CART(基尼指數(shù))

數(shù)據(jù)集D的純度可用基尼值度量:


圖片發(fā)自簡(jiǎn)書(shū)App

Gini(D)反映了從D中隨機(jī)抽取兩個(gè)樣本,類(lèi)別標(biāo)記不一致的概率。因此,Gini(D)越小,代表著D的純度越高。
屬性a的基尼指數(shù)定義:


圖片發(fā)自簡(jiǎn)書(shū)App

因此,在候選屬性中選擇哪個(gè)使得劃分后,基尼指數(shù)最小的屬性作為劃分屬性。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容