決策樹

1.決策樹定義

?通過對訓練樣本的學習,建立分類規(guī)則,然后依據(jù)分類規(guī)則,對新樣本數(shù)據(jù)進行分類預測。

?屬于有監(jiān)督學習

?優(yōu)缺點。優(yōu)點:決策樹易于理解和實現(xiàn)、決策樹可以處理數(shù)值型和非數(shù)值型數(shù)據(jù)(連續(xù)和種類字段)。缺點:如果各類別樣本數(shù)量差別較大,數(shù)據(jù)增益偏向量大的特征(此種情況模型質(zhì)量較低);容易過擬合;忽略了屬性間的相關(guān)性。


2.決策樹的理解

?決策樹的過程案例_相親決策樹,見下圖所示。

決策樹類似于流程圖過程,從根節(jié)點開始,對實例的某一特征進行測試,根據(jù)測試結(jié)果將實例分配到其子節(jié)點,如此遞歸對實例進行測試并分配,最終到達葉子節(jié)點,即該實例被分到節(jié)節(jié)點的類中。

?決策樹算法相關(guān)概念

信息熵:信息熵表示隨機變量的不確定度。對于一組數(shù)據(jù)來講,數(shù)據(jù)越隨機,信息熵越大,不確定性越低,信息熵越小。

條件熵:條件熵H(Y|X)表示在已知隨機變量X的條件下隨機變量Y的不確定性

信息增益:以某特征劃分數(shù)據(jù)集前后的熵的差值

信息增益率:特征A對訓練數(shù)據(jù)集D的信息增益比定義為:其信息增益g(D,A)與訓練數(shù)據(jù)集D關(guān)于特征A的值的熵HA(D)之比

基尼系數(shù):基尼系數(shù)(Gini),也被稱為基尼不純度,表示在樣本集合中一個隨機選中的樣本被分錯的概率。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

  • ??決策樹(Decision Tree)是一種基本的分類與回歸方法,其模型呈樹狀結(jié)構(gòu),在分類問題中,表示基于特征對...
    殉道者之花火閱讀 4,938評論 2 2
  • 決策樹理論在決策樹理論中,有這樣一句話,“用較少的東西,照樣可以做很好的事情。越是小的決策樹,越優(yōu)于大的決策樹”。...
    制杖灶灶閱讀 6,068評論 0 25
  • 決策樹是一種基本分類與回歸方法。其不要優(yōu)點是模型具有可讀性,分類速度快。學習時,利用訓練數(shù)據(jù),根據(jù)損失函數(shù)最小化的...
    rosyxiao閱讀 1,155評論 0 0
  • 1.前言 決策樹是一種基本的分類和回歸方法。決策樹呈樹形結(jié)構(gòu),在分類問題中,表示基于特征對實例進行分類的過程。采用...
    勝利主義章北海閱讀 2,752評論 0 0
  • 一、決策樹應用體驗 分類 ??從上面可以看出,決策樹對分類具有線性回歸無可比擬的優(yōu)勢, 如果對未參與訓練的數(shù)據(jù)集是...
    楊強AT南京閱讀 1,337評論 1 3

友情鏈接更多精彩內(nèi)容