1.決策樹定義
?通過對訓練樣本的學習,建立分類規(guī)則,然后依據(jù)分類規(guī)則,對新樣本數(shù)據(jù)進行分類預測。
?屬于有監(jiān)督學習
?優(yōu)缺點。優(yōu)點:決策樹易于理解和實現(xiàn)、決策樹可以處理數(shù)值型和非數(shù)值型數(shù)據(jù)(連續(xù)和種類字段)。缺點:如果各類別樣本數(shù)量差別較大,數(shù)據(jù)增益偏向量大的特征(此種情況模型質(zhì)量較低);容易過擬合;忽略了屬性間的相關(guān)性。
2.決策樹的理解
?決策樹的過程案例_相親決策樹,見下圖所示。
決策樹類似于流程圖過程,從根節(jié)點開始,對實例的某一特征進行測試,根據(jù)測試結(jié)果將實例分配到其子節(jié)點,如此遞歸對實例進行測試并分配,最終到達葉子節(jié)點,即該實例被分到節(jié)節(jié)點的類中。

?決策樹算法相關(guān)概念
信息熵:信息熵表示隨機變量的不確定度。對于一組數(shù)據(jù)來講,數(shù)據(jù)越隨機,信息熵越大,不確定性越低,信息熵越小。
條件熵:條件熵H(Y|X)表示在已知隨機變量X的條件下隨機變量Y的不確定性
信息增益:以某特征劃分數(shù)據(jù)集前后的熵的差值
信息增益率:特征A對訓練數(shù)據(jù)集D的信息增益比定義為:其信息增益g(D,A)與訓練數(shù)據(jù)集D關(guān)于特征A的值的熵HA(D)之比
基尼系數(shù):基尼系數(shù)(Gini),也被稱為基尼不純度,表示在樣本集合中一個隨機選中的樣本被分錯的概率。