Decision Tree (決策樹(shù)/判定樹(shù))是監(jiān)督學(xué)習(xí)中的分類算法, 通常預(yù)測(cè)和分類算法的評(píng)估主要體現(xiàn)在:
準(zhǔn)確率:預(yù)測(cè)的準(zhǔn)確與否是本算法的核心問(wèn)題,其在征信系統(tǒng),商品購(gòu)買預(yù)測(cè)等都有應(yīng)用。
速度:一個(gè)好的算法不僅要求具備準(zhǔn)確性,其運(yùn)行速度也是衡量重要標(biāo)準(zhǔn)之一。
強(qiáng)壯行:具備容錯(cuò)等功能和擴(kuò)展性等。
可規(guī)模性:能夠應(yīng)對(duì)現(xiàn)實(shí)生活中的實(shí)際案例
可解釋性:運(yùn)行結(jié)果能夠說(shuō)明其含義。
通過(guò)信息熵的比較, 選擇屬性判斷節(jié)點(diǎn), 信息增益最大的作為根節(jié)點(diǎn). 關(guān)于信息增益的計(jì)算需要進(jìn)一步的理論支持.
在決策樹(shù)ID3基礎(chǔ)上,又進(jìn)行了算法改進(jìn),衍生出 其他算法如:C4.5: (Quinlan) 和Classification and Regression Trees (CART): (L. Breiman, J. Friedman, R. Olshen, C. Stone)。這些算法
其共同點(diǎn):都是貪心算法,自上而下(Top-down approach)
區(qū)別:屬性選擇度量方法不同: C4.5 (gain ratio,增益比), CART(gini index,基尼指數(shù)), ID3 (Information Gain,信息增益)