日韩色色a,色系福利视频导航

5.1 決策樹模型與學(xué)習(xí)

5.1.1 決策樹模型

決策樹：結(jié)點(diǎn)（內(nèi)部結(jié)點(diǎn)和葉結(jié)點(diǎn)）和有向邊。內(nèi)部結(jié)點(diǎn)表示一個(gè)特征或?qū)傩?，葉節(jié)點(diǎn)表示一個(gè)類。

5.1.2? 決策樹與if-then規(guī)則

決策樹轉(zhuǎn)換成if-then規(guī)則的過(guò)程：由決策樹的根結(jié)點(diǎn)到葉結(jié)點(diǎn)的每一條路徑構(gòu)建一條規(guī)則；路徑上內(nèi)部結(jié)點(diǎn)的特征對(duì)應(yīng)著規(guī)則的條件，而葉節(jié)點(diǎn)的類對(duì)應(yīng)著規(guī)則的結(jié)論。

決策樹的路徑或其對(duì)應(yīng)的if-then規(guī)則集合具有一個(gè)重要的性質(zhì)：互斥且完備。

5.1.3 決策樹與條件概率分布

決策樹還表示給定特征條件下類的條件概率分布。這一條件概率分布定義在特征空間的一個(gè)劃分上。將特征空間劃分為互不相交的單元或區(qū)域，并在每個(gè)單元定義一個(gè)類的概率分布就構(gòu)成了一個(gè)條件概率分布。

5.1.4 決策樹學(xué)習(xí)

本質(zhì)：從訓(xùn)練數(shù)據(jù)集中歸納出一組分類規(guī)則

損失函數(shù)：正則化的極大似然函數(shù)

策略：以損失函數(shù)為目標(biāo)函數(shù)的最小化

決策樹學(xué)習(xí)算法：特征選擇、決策樹的生成和決策樹的剪枝。決策樹的生成對(duì)應(yīng)于模型的局部選擇，只考慮局部最優(yōu)；決策樹的剪枝對(duì)應(yīng)于模型的全局選擇，考慮全局最優(yōu)。

5.2 特征選擇

5.2.1 特征選擇問題

選取對(duì)訓(xùn)練數(shù)據(jù)具有分類能力的特征，通常的準(zhǔn)則是信息增益或信息增益比。

5.2.2 信息增益

熵：隨機(jī)變量不確定性

熵的定義

熵只依賴于X的分布，而與X的取值無(wú)關(guān)。熵越大，隨機(jī)變量的不確定性就越大。

設(shè)有隨機(jī)變量(X,Y)條件熵H(Y|X)表示在已知隨機(jī)變量X的條件下隨機(jī)變量Y的不確定性。定義為X給定條件下Y的條件概率分布的熵對(duì)X的數(shù)學(xué)期望

條件熵

當(dāng)熵和條件熵中的概率由數(shù)據(jù)估計(jì)得到時(shí)，所對(duì)應(yīng)的熵與條件熵分別稱為經(jīng)驗(yàn)熵和經(jīng)驗(yàn)條件熵。

信息增益表示得知特征X的信息而使得類Y的信息不確定性減少的程度。

信息增益：特征A對(duì)訓(xùn)練數(shù)據(jù)集D的信息增益g(D,A)，定義為集合D的經(jīng)驗(yàn)熵H(D)與特征A給定條件下D的經(jīng)驗(yàn)條件熵H(D|A)之差，即

信息增益

熵H(Y)與條件熵H(Y|X)之差稱為互信息。決策樹學(xué)習(xí)中的信息增益等價(jià)于訓(xùn)練數(shù)據(jù)集中類與特征的互信息。

根據(jù)信息增益準(zhǔn)則的特征選擇方法：對(duì)訓(xùn)練數(shù)據(jù)集D，計(jì)算其每個(gè)特征的信息增益，并比較它們的大小，選擇信息增益最大的特征。

信息增益算法：

輸入：訓(xùn)練數(shù)據(jù)集D和特征A

輸出：特征A對(duì)訓(xùn)練數(shù)據(jù)集D的信息增益g(D,A)

信息增益算法

5.2.3 信息增益比

以信息增益作為劃分訓(xùn)練數(shù)據(jù)集的特征，存在偏向于選擇取值較多的特征的問題。使用信息增益比可以矯正。

信息增益比：

信息增益比

5.3 決策樹的生成

5.3.1 ID3算法

核心：在決策樹各個(gè)結(jié)點(diǎn)上應(yīng)用信息增益準(zhǔn)則選擇特征，遞歸的構(gòu)建決策樹。

ID3算法

ID3算法只有樹的生成，所以容易過(guò)擬合。

5.3.2 C4.5的生成算法

用信息增益比來(lái)選特征

C4.5的生成算法

5.4 決策樹的剪枝

過(guò)擬合原因：學(xué)習(xí)時(shí)過(guò)多的考慮如何提高對(duì)訓(xùn)練數(shù)據(jù)的正確分類，從而構(gòu)建出過(guò)于復(fù)雜的決策樹。

決策樹的剪枝往往通過(guò)極小化決策樹整體的損失函數(shù)或代價(jià)函數(shù)來(lái)實(shí)現(xiàn)。

損失函數(shù)

C(T)表示模型對(duì)訓(xùn)練數(shù)據(jù)的預(yù)測(cè)誤差，即模型與訓(xùn)練數(shù)據(jù)的擬合程度，|T|表示模型復(fù)雜度，α>=0控制兩者之間的影響。

剪枝，當(dāng)α確定時(shí)，選擇損失函數(shù)最小的模型，即損失函數(shù)最小的子樹。

5.5 CART算法

分類與回歸樹（classification and regression tree,CART）

算法：

? ? ①?zèng)Q策樹生成：基于訓(xùn)練數(shù)據(jù)集生成決策樹，生成的決策樹要盡量大

? ? ②決策樹剪枝：用驗(yàn)證數(shù)據(jù)集對(duì)已生成的樹進(jìn)行剪枝并選擇最優(yōu)子樹，用損失函數(shù)最小作為剪枝的標(biāo)準(zhǔn)。

5.5.1 CART生成

對(duì)回歸樹用平方誤差最小化準(zhǔn)則，對(duì)分類樹用基尼指數(shù)(Gini index)最小化準(zhǔn)則，進(jìn)行特征選擇，生成二叉樹

1. 回歸樹的生成

回歸樹的生成

2. 分類樹的生成

基尼指數(shù)

CART生成算法

5.5.2 CART剪枝

①?gòu)纳伤惴óa(chǎn)生的決策樹T0底端開始不斷剪枝，直到T0的根節(jié)點(diǎn)，形成一個(gè)子樹序列{T0,T1,...,Tn}

②通過(guò)交叉驗(yàn)證法在獨(dú)立的驗(yàn)證數(shù)據(jù)集上對(duì)子樹序列進(jìn)行測(cè)試，從中選擇最優(yōu)子樹

CART剪枝算法

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第五章決策樹

第五章決策樹

5.1 決策樹模型與學(xué)習(xí)

5.1.1 決策樹模型

5.1.2? 決策樹與if-then規(guī)則

5.1.3 決策樹與條件概率分布

5.1.4 決策樹學(xué)習(xí)

5.2 特征選擇

5.2.1 特征選擇問題

5.2.2 信息增益

5.2.3 信息增益比

5.3 決策樹的生成

5.3.1 ID3算法

5.3.2 C4.5的生成算法

5.4 決策樹的剪枝

5.5 CART算法

5.5.1 CART生成

1. 回歸樹的生成

2. 分類樹的生成

5.5.2 CART剪枝

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

第五章 決策樹

5.1 決策樹模型與學(xué)習(xí)

5.1.1 決策樹模型

5.1.2? 決策樹與if-then規(guī)則

5.1.3 決策樹與條件概率分布

5.1.4 決策樹學(xué)習(xí)

5.2 特征選擇

5.2.1 特征選擇問題

5.2.2 信息增益

5.2.3 信息增益比

5.3 決策樹的生成

5.3.1 ID3算法

5.3.2 C4.5的生成算法

5.4 決策樹的剪枝

5.5 CART算法

5.5.1 CART生成

1. 回歸樹的生成

2. 分類樹的生成

5.5.2 CART剪枝

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第五章決策樹