[機器學(xué)習(xí)]決策樹(decision tree)--6.基尼指數(shù)

上一篇文章我們介紹了增益率,本文介紹基尼指數(shù)(Gini index)。

CART決策樹使用基尼指數(shù)來選擇劃分屬性。

CART是Classification and Regression Tree的簡稱,這是一種著名的決策樹學(xué)習(xí)算法,分類和回歸任務(wù)都可用。

分類樹:基尼指數(shù)最小準則。

回歸樹:平方誤差最小準則。

數(shù)據(jù)集D的純度可用基尼值來度量:Gini(D)=1-\sum_{k=1}^K p_{k}^2

屬性a的基尼指數(shù)定義為:Giniindex(D,a)=\sum_{v=1}^V \frac{\vert D^v   \vert }{\vert D  \vert } Gini(D^v  )

如何理解上面的公式呢?我們簡單舉個例子:

樣例數(shù)據(jù)

Gini(D,工資)=\frac{3}{8} *(1-(\frac{3}{3} )^2-(\frac{0}{3} ) ^2  )+\frac{5}{8} *(1-(\frac{3}{5} ) ^ 2 - (\frac{2}{5} ) ^ 2) =  0.3

簡單解釋下為啥要這樣算。

首先工資有兩個取值,分別是0和1。當工資=1時,有3個樣本。

所以:\frac{\vert D^v   \vert }{\vert D  \vert } = \frac{3}{8} 。

同時,在這三個樣本中,工作都是好。

所以:Gini(D^v )=1-(\frac{3}{3} )^2-(\frac{0}{3} ) ^2 。

就有了加號左邊的式子:\frac{3}{8} *(1-(\frac{3}{3} )^2-(\frac{0}{3} ) ^2  )

同理,當工資=0時,有5個樣本,在這五個樣本中,工作有3個是不好,2個是好。

就有了加號右邊的式子:\frac{5}{8} *(1-(\frac{3}{5} ) ^ 2 - (\frac{2}{5} ) ^ 2)  。

同理,可得壓力的基尼指數(shù)如下:

Gini(D,壓力)=\frac{3}{8} *(1-(\frac{2}{3} )^2-(\frac{1}{3} ) ^2  )+\frac{5}{8} *(1-(\frac{1}{5} ) ^ 2 - (\frac{4}{5} ) ^ 2) = 0.37

平臺的基尼指數(shù)如下:

Gini(D,平臺 = 0 )=\frac{3}{8} *(1-(\frac{3}{3} )^2-(\frac{0}{3} ) ^2  )+\frac{5}{8} *(1-(\frac{3}{5} ) ^ 2 - (\frac{2}{5} ) ^ 2) =  0.3

Gini(D,平臺 = 1 )=\frac{3}{8} *(1-(\frac{2}{3} )^2-(\frac{1 }{3} ) ^2  )+\frac{5}{8} *(1-(\frac{4}{5} ) ^ 2 - (\frac{1}{5} ) ^ 2) =  0.37

Gini(D,平臺 = 2 )=\frac{2}{8} *(1-(\frac{1}{2} )^2-(\frac{1}{2} ) ^2  )+\frac{6}{8} *(1-(\frac{4 }{6} ) ^ 2 - (\frac{2}{6} ) ^ 2) =  0.46

注意啦,在計算時,工資和平臺的計算方式有明顯的不同。因為工資只有兩個取值0和1,而平臺有三個取值0,1,2。所以在計算時,需要將平臺的每一個取值都單獨進行計算。比如:當平臺=0時,將數(shù)據(jù)集分為兩部分,第一部分是平臺=0,第二部分是平臺<>0。

根據(jù)基尼指數(shù)最小準則,我們優(yōu)先選擇工資或者平臺=0作為D的第一特征。

我們選擇工資作為第一特征,那么當工資=1時,工作=好,無需繼續(xù)劃分。當工資=0時,需要繼續(xù)劃分。

當工資=0時,繼續(xù)計算基尼指數(shù):

Gini(D_{0} ,壓力)=\frac{3}{5} *(1-(\frac{2}{3} )^2-(\frac{1}{3} ) ^2  )+\frac{2}{5} *(1-(\frac{2}{2} ) ^ 2 - (\frac{0}{2} ) ^ 2) = 0.27

Gini(D_{0} ,平臺 = 0 )=\frac{2}{5} *(1-(\frac{2}{2} )^2-(\frac{0}{2} ) ^2  )+\frac{3}{5} *(1-(\frac{3}{3} ) ^ 2 - (\frac{0}{3} ) ^ 2) =  0

Gini(D_{0} ,平臺 = 1 )=\frac{2}{5} *(1-(\frac{2}{2} )^2-(\frac{0}{2} ) ^2  )+\frac{3}{5} *(1-(\frac{2}{3} ) ^ 2 - (\frac{1}{3} ) ^ 2) =  0.27

Gini(D_{0} ,平臺 = 2 )=\frac{1 }{5} *(1-(\frac{1}{1} )^2-(\frac{0}{1} ) ^2  )+\frac{4}{5} *(1-(\frac{2}{4} ) ^ 2 - (\frac{2}{4 } ) ^ 2) =  0.4

當平臺=0時,基尼指數(shù)=0,可以優(yōu)先選擇。

同時,當平臺=0時,工作都是好,無需繼續(xù)劃分,當平臺=1,2時,工作都是不好,也無需繼續(xù)劃分。直接把1,2放到樹的一個結(jié)點就可以。

最后需要注意的是,CART算法構(gòu)建的決策樹是二叉樹。至于為什么是二叉樹,我們后面會繼續(xù)介紹。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容