系統(tǒng)講解了DT 算法理論
? 主要內(nèi)容:
? ? ? ? ? 1、決策樹算法
? ? ? ? ? 2、Entroy
? ? ? ? ? 3、Information Gain
例圖
DT 一般都是非線性分界面

sklearn 運(yùn)行效果圖

參數(shù)的作用
min_samples_split

一直區(qū)分到集合只有兩個(gè)元素,可以忽略

min_samples_split 太小導(dǎo)致overfitting


Entropy

數(shù)學(xué)推倒



Information Gain
信息增益,,主要用來算多個(gè)feature時(shí)使用哪個(gè)feature 來分割界面






DT算法的計(jì)算核心一般是計(jì)算各個(gè)feature 的information gain 決定采用哪個(gè)feature 分割平面以及怎樣分割。
DT 算法的優(yōu)缺點(diǎn):
easy use
圖形化比較直觀
容易o(hù)verfiting