信息論基礎
- 決策樹的思想是用節(jié)點代表樣本集合,通過某些判定條件來對節(jié)點內的樣本進行分配,將它們劃分到該節(jié)點下的子節(jié)點,并且要求各個子節(jié)點中類別的純度之和應高于該節(jié)點中的類別純度,從而起到分類效果。
- 節(jié)點純度反映的是節(jié)點樣本標簽的不確定性。當一個節(jié)點的純度較低時,說明每種類別都傾向于以比較均勻的頻率出現,從而我們較難在這個節(jié)點上得到關于樣本標簽的具體信息,其不確定性較高。當一個節(jié)點的純度很高時,說明有些類別傾向于以比較高的頻率出現,從而我們能夠更有信心地把握這個節(jié)點樣本標簽的具體信息,即確定性較高。
- 在決策樹的分裂過程中,我們不但需要考察本節(jié)點的不確定性或純度,而且還要考察子節(jié)點的平均不確定性或平均純度來決定是否進行分裂。子節(jié)點的產生來源于決策樹分支的條件,因此我們不但要研究隨機變量的信息熵,還要研究在給定條件下隨機變量的平均信息熵或條件熵(Conditional Entropy)。