決策樹(shù)

決策樹(shù):分類(lèi)決策樹(shù)模型使一種對(duì)實(shí)例進(jìn)行分類(lèi)的樹(shù)形結(jié)構(gòu)。決策樹(shù)由節(jié)點(diǎn)和有向邊組成,節(jié)點(diǎn)有兩種類(lèi)型:內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn)。內(nèi)部節(jié)點(diǎn)表示一個(gè)特征和屬性,葉節(jié)點(diǎn)表示一個(gè)類(lèi)。
特征選擇:特征選擇在于選取對(duì)訓(xùn)練數(shù)據(jù)具有分類(lèi)能力的特征。通常特征選擇的準(zhǔn)則是信息增益或信息增益比。
信息熵:熵是表示隨機(jī)變量不確定性的度量。由定義可知,熵只依賴(lài)于X的分布,而與X的取值無(wú)關(guān)。熵越大,隨機(jī)變量的不確定性越大。

信息熵.png

條件熵:條件熵H(Y|X)表示在已知隨機(jī)變量X的條件下隨機(jī)變量Y的不確定性。
條件熵.png

信息增益:
信息增益.png

信息增益比:信息增益值的大小是相對(duì)于訓(xùn)練數(shù)據(jù)集而言的,沒(méi)有絕對(duì)意義。在分類(lèi)問(wèn)題困難時(shí),也就是說(shuō)訓(xùn)練數(shù)據(jù)集的經(jīng)驗(yàn)熵大的時(shí)候,信息增益值就會(huì)偏大。反之,則偏小。使用信息增益比,可以對(duì)這一問(wèn)題進(jìn)行校正。
信息增益比.png

決策樹(shù)的生成

  • ID3算法:在決策樹(shù)各個(gè)節(jié)點(diǎn)上應(yīng)用信息增益準(zhǔn)則選擇特征,遞歸構(gòu)建決策樹(shù)。該算法只有決策樹(shù)的生成,所以該算法生成的樹(shù)容易產(chǎn)生過(guò)擬合。
  • C4.5算法:與ID3相似,在生成決策數(shù)的過(guò)程中,用信息增益比來(lái)選擇特征。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • ??決策樹(shù)(Decision Tree)是一種基本的分類(lèi)與回歸方法,其模型呈樹(shù)狀結(jié)構(gòu),在分類(lèi)問(wèn)題中,表示基于特征對(duì)...
    殉道者之花火閱讀 4,929評(píng)論 2 2
  • 運(yùn)行平臺(tái):Windows Python版本:Python3.x IDE:pycharm 一、決策樹(shù) 決策樹(shù)是什么?...
    ghostdogss閱讀 2,281評(píng)論 0 1
  • 1 前言 在了解樹(shù)模型之前,自然想到樹(shù)模型和線性模型,他們有什么區(qū)別呢? 樹(shù)形模型是一個(gè)一個(gè)特征進(jìn)行處理,之前線性...
    高永峰_GYF閱讀 1,505評(píng)論 0 1
  • 前言: 通過(guò)第前面的學(xué)習(xí)介紹了機(jī)器學(xué)習(xí)回歸模型創(chuàng)建的流程,并且知道了機(jī)器學(xué)習(xí)要做的事情是找到目標(biāo)函數(shù),優(yōu)化它,通過(guò)...
    飄涯閱讀 6,651評(píng)論 4 83
  • find . -name ".m" -or -name ".h" -or -name ".xib" -or -na...
    繁華落盡2018閱讀 218評(píng)論 0 0

友情鏈接更多精彩內(nèi)容