上一篇文章我們介紹了增益率,本文介紹基尼指數(shù)(Gini index)。
CART決策樹使用基尼指數(shù)來選擇劃分屬性。
CART是Classification and Regression Tree的簡稱,這是一種著名的決策樹學(xué)習(xí)算法,分類和回歸任務(wù)都可用。
分類樹:基尼指數(shù)最小準則。
回歸樹:平方誤差最小準則。
數(shù)據(jù)集D的純度可用基尼值來度量:。
屬性a的基尼指數(shù)定義為:。
如何理解上面的公式呢?我們簡單舉個例子:

簡單解釋下為啥要這樣算。
首先工資有兩個取值,分別是0和1。當工資=1時,有3個樣本。
所以:。
同時,在這三個樣本中,工作都是好。
所以:。
就有了加號左邊的式子:
同理,當工資=0時,有5個樣本,在這五個樣本中,工作有3個是不好,2個是好。
就有了加號右邊的式子:。
同理,可得壓力的基尼指數(shù)如下:
平臺的基尼指數(shù)如下:
注意啦,在計算時,工資和平臺的計算方式有明顯的不同。因為工資只有兩個取值0和1,而平臺有三個取值0,1,2。所以在計算時,需要將平臺的每一個取值都單獨進行計算。比如:當平臺=0時,將數(shù)據(jù)集分為兩部分,第一部分是平臺=0,第二部分是平臺<>0。
根據(jù)基尼指數(shù)最小準則,我們優(yōu)先選擇工資或者平臺=0作為D的第一特征。
我們選擇工資作為第一特征,那么當工資=1時,工作=好,無需繼續(xù)劃分。當工資=0時,需要繼續(xù)劃分。
當工資=0時,繼續(xù)計算基尼指數(shù):
當平臺=0時,基尼指數(shù)=0,可以優(yōu)先選擇。
同時,當平臺=0時,工作都是好,無需繼續(xù)劃分,當平臺=1,2時,工作都是不好,也無需繼續(xù)劃分。直接把1,2放到樹的一個結(jié)點就可以。
最后需要注意的是,CART算法構(gòu)建的決策樹是二叉樹。至于為什么是二叉樹,我們后面會繼續(xù)介紹。