樹模型與集成學習task0_Datawhale

信息論基礎

  • 決策樹的思想是用節(jié)點代表樣本集合,通過某些判定條件來對節(jié)點內的樣本進行分配,將它們劃分到該節(jié)點下的子節(jié)點,并且要求各個子節(jié)點中類別的純度之和應高于該節(jié)點中的類別純度,從而起到分類效果。
  • 節(jié)點純度反映的是節(jié)點樣本標簽的不確定性。當一個節(jié)點的純度較低時,說明每種類別都傾向于以比較均勻的頻率出現,從而我們較難在這個節(jié)點上得到關于樣本標簽的具體信息,其不確定性較高。當一個節(jié)點的純度很高時,說明有些類別傾向于以比較高的頻率出現,從而我們能夠更有信心地把握這個節(jié)點樣本標簽的具體信息,即確定性較高。
  • 在決策樹的分裂過程中,我們不但需要考察本節(jié)點的不確定性或純度,而且還要考察子節(jié)點的平均不確定性或平均純度來決定是否進行分裂。子節(jié)點的產生來源于決策樹分支的條件,因此我們不但要研究隨機變量的信息熵,還要研究在給定條件下隨機變量的平均信息熵或條件熵(Conditional Entropy)。

分類樹的節(jié)點分裂

?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容