香農熵

變量的不確定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。例如，在一個數據集dataset中，dataset = [[1,1,'yes'],[1,1,'yes'],[1,0,'no'],][0,1,'no'],[0,1,'no']],在數據集dataset中隨機挑一個實例，挑出標簽值為'yes'的概率為0.4，挑出標簽值為‘no’的概率為0.6,這個數據集的熵值計算為

-0.6*log(0.6,2)-0.4*log(0.4,2) = 0.9709505944546687

下面有個函數可以用于計算給定數據集的香農熵：

計算香農熵的函數

以上函數的使用

香農熵主要是作為一個指標用于指導劃分數據集，以下函數用于按照特定特征劃分數據集

劃分數據集

信息增益（ID3）

基于香農熵的概念和以上兩個函數，我們可以再寫一個函數用于計算如何給一個數據集進行劃分，通過對數據集的每一個特征屬性進行劃分，然后計算劃分后的所有數據集熵值與其概率的乘積之和，并與數據集劃分前原始數據集的熵值相比較，計算降低的熵值。這部分降低的熵值就被成為‘信息增益’（用ID3表示），通過比較各特征屬性的信息增益后，可以推算出按照哪種特征屬性分類信息增益最大，就用這種方式進行分類。

判斷如何劃分數據集

這種分類方法看似很厲害，但是仍存在一個BUG：例如，你給每個值標一個ID，然后將ID作為一個特征項劃分數據集后得出的熵值是零，而對應的信息增益則最大，這顯然是不對的，為了規(guī)避在個問題，我們引入了另一個概率，信息增益率（C4.5）。

信息增益率（C4.5）

信息增益率 = 信息增益值／數據集本身的熵值

例如：接著上面的例子，數據集dataset = [[1,1,'yes'],[1,1,'yes'],[1,0,'no'],][0,1,'no'],[0,1,'no']]的熵值為

-0.6*log(0.6,2)-0.4*log(0.4,2) = 0.9709505944546687

然后給數據集每個實例添加一個特征屬性ID，dataset = [[1,1,1,'yes'],[2,1,1,'yes'],[3,1,0,'no'],][4,0,1,'no'],[5,0,1,'no']]，如果按照ID劃分數據集得出的熵值增益是0.97095059445466870 - 0 = 0.9709505944546687

但是數據集本身按照ID作為標簽計算的熵值則是-1/5log(1/5,2)*5 = log(5,2),所以信息增益率為

0.9709505944546687／log(5,2) = 0.41816566007905165

決策樹

決策樹的基本邏輯就是基于以上算法的：得到原始數據集后，基于各種特征屬性的信息增益（ID3）的判斷下一步通過哪個屬性值劃分數據集，由于特征值可能多于兩個，因此可能存在大于兩個分支的數據集劃分。經過一次劃分之后，數據將被向下傳遞到樹分支的下一個節(jié)點，這個節(jié)點上，我們可以再次劃分數據。我們利用這個邏輯，遞歸的處理數據集，直到程序遍歷完所有劃分數據集的屬性，或者每個分支下的所有實例都具有相同的分類。

生成決策樹的函數

連續(xù)值的處理邏輯

我們在前面處理的數值都是離散了，但是如果我們需要處理連續(xù)值又該怎樣處理呢

隨機森林

好了，在引入決策樹算法以后，我們可以擴展出一個新概念，叫“隨機森林”

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

python與機器學習（二.決策樹與隨機森林）

python與機器學習（二.決策樹與隨機森林）

香農熵

信息增益（ID3）

信息增益率（C4.5）

決策樹

連續(xù)值的處理邏輯

隨機森林

使用sklearn實現決策樹的代碼

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

python與機器學習（二.決策樹與隨機森林）

香農熵

信息增益（ID3）

信息增益率（C4.5）

決策樹

連續(xù)值的處理邏輯

隨機森林

使用sklearn實現決策樹的代碼

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av