久久久久久色五月,欧美一区熟女久久

上一篇文章我們介紹了增益率，本文介紹基尼指數(shù)(Gini index)。

CART決策樹使用基尼指數(shù)來選擇劃分屬性。

CART是Classification and Regression Tree的簡稱，這是一種著名的決策樹學(xué)習(xí)算法，分類和回歸任務(wù)都可用。

分類樹：基尼指數(shù)最小準則。

回歸樹：平方誤差最小準則。

數(shù)據(jù)集D的純度可用基尼值來度量： $Gini(D)=1-\sum_{k=1}^K p_{k}^2$ 。

屬性a的基尼指數(shù)定義為： $Giniindex(D,a)=\sum_{v=1}^V \frac{\vert D^v \vert }{\vert D \vert } Gini(D^v )$ 。

如何理解上面的公式呢？我們簡單舉個例子：

樣例數(shù)據(jù)

$Gini(D,工資)=\frac{3}{8} *(1-(\frac{3}{3} )^2-(\frac{0}{3} ) ^2 )+\frac{5}{8} *(1-(\frac{3}{5} ) ^ 2 - (\frac{2}{5} ) ^ 2) = 0.3$

簡單解釋下為啥要這樣算。

首先工資有兩個取值，分別是0和1。當工資=1時，有3個樣本。

所以： $\frac{\vert D^v \vert }{\vert D \vert } = \frac{3}{8}$ 。

同時，在這三個樣本中，工作都是好。

所以： $Gini(D^v )=1-(\frac{3}{3} )^2-(\frac{0}{3} ) ^2$ 。

就有了加號左邊的式子： $\frac{3}{8} *(1-(\frac{3}{3} )^2-(\frac{0}{3} ) ^2 )$

同理，當工資=0時，有5個樣本，在這五個樣本中，工作有3個是不好，2個是好。

就有了加號右邊的式子： $\frac{5}{8} *(1-(\frac{3}{5} ) ^ 2 - (\frac{2}{5} ) ^ 2)$ 。

同理，可得壓力的基尼指數(shù)如下：

$Gini(D,壓力)=\frac{3}{8} *(1-(\frac{2}{3} )^2-(\frac{1}{3} ) ^2 )+\frac{5}{8} *(1-(\frac{1}{5} ) ^ 2 - (\frac{4}{5} ) ^ 2) = 0.37$

平臺的基尼指數(shù)如下：

$Gini(D,平臺 = 0 )=\frac{3}{8} *(1-(\frac{3}{3} )^2-(\frac{0}{3} ) ^2 )+\frac{5}{8} *(1-(\frac{3}{5} ) ^ 2 - (\frac{2}{5} ) ^ 2) = 0.3$

$Gini(D,平臺 = 1 )=\frac{3}{8} *(1-(\frac{2}{3} )^2-(\frac{1 }{3} ) ^2 )+\frac{5}{8} *(1-(\frac{4}{5} ) ^ 2 - (\frac{1}{5} ) ^ 2) = 0.37$

$Gini(D,平臺 = 2 )=\frac{2}{8} *(1-(\frac{1}{2} )^2-(\frac{1}{2} ) ^2 )+\frac{6}{8} *(1-(\frac{4 }{6} ) ^ 2 - (\frac{2}{6} ) ^ 2) = 0.46$

注意啦，在計算時，工資和平臺的計算方式有明顯的不同。因為工資只有兩個取值0和1，而平臺有三個取值0,1,2。所以在計算時，需要將平臺的每一個取值都單獨進行計算。比如：當平臺=0時，將數(shù)據(jù)集分為兩部分，第一部分是平臺=0，第二部分是平臺<>0。

根據(jù)基尼指數(shù)最小準則，我們優(yōu)先選擇工資或者平臺=0作為D的第一特征。

我們選擇工資作為第一特征，那么當工資=1時，工作=好，無需繼續(xù)劃分。當工資=0時，需要繼續(xù)劃分。

當工資=0時，繼續(xù)計算基尼指數(shù)：

$Gini(D_{0} ,壓力)=\frac{3}{5} *(1-(\frac{2}{3} )^2-(\frac{1}{3} ) ^2 )+\frac{2}{5} *(1-(\frac{2}{2} ) ^ 2 - (\frac{0}{2} ) ^ 2) = 0.27$

$Gini(D_{0} ,平臺 = 0 )=\frac{2}{5} *(1-(\frac{2}{2} )^2-(\frac{0}{2} ) ^2 )+\frac{3}{5} *(1-(\frac{3}{3} ) ^ 2 - (\frac{0}{3} ) ^ 2) = 0$

$Gini(D_{0} ,平臺 = 1 )=\frac{2}{5} *(1-(\frac{2}{2} )^2-(\frac{0}{2} ) ^2 )+\frac{3}{5} *(1-(\frac{2}{3} ) ^ 2 - (\frac{1}{3} ) ^ 2) = 0.27$

$Gini(D_{0} ,平臺 = 2 )=\frac{1 }{5} *(1-(\frac{1}{1} )^2-(\frac{0}{1} ) ^2 )+\frac{4}{5} *(1-(\frac{2}{4} ) ^ 2 - (\frac{2}{4 } ) ^ 2) = 0.4$

當平臺=0時，基尼指數(shù)=0，可以優(yōu)先選擇。

同時，當平臺=0時，工作都是好，無需繼續(xù)劃分，當平臺=1,2時，工作都是不好，也無需繼續(xù)劃分。直接把1,2放到樹的一個結(jié)點就可以。

最后需要注意的是，CART算法構(gòu)建的決策樹是二叉樹。至于為什么是二叉樹，我們后面會繼續(xù)介紹。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av