亚洲无码狠狠艹,av红桃在线观看,欧美精品6页

看書的時(shí)候很憂傷，作為一個(gè)專門關(guān)注回歸問題的時(shí)候，書上說主要關(guān)注的是分類問題。

決策樹： 分類決策樹模型是一種描述對(duì)實(shí)例進(jìn)行分類的樹形結(jié)構(gòu)。決策樹由結(jié)點(diǎn)（Node)和有向邊（directed edge)組成。結(jié)點(diǎn)有兩種類型：內(nèi)部結(jié)點(diǎn)（internal node)和葉節(jié)點(diǎn)（leaf node).內(nèi)部結(jié)點(diǎn)表示一個(gè)特征或?qū)傩?，葉結(jié)點(diǎn)表示一個(gè)類。
信息增益
在信息論與概率統(tǒng)計(jì)中，熵（entropy)是表示隨機(jī)變量不確定性的度量。設(shè)X是一個(gè)取有限個(gè)的離散隨機(jī)變量，其概率分布為
$P(X = x_i )= p_i$
則隨機(jī)變量X的熵的定義為 $H( X ) = -\sum_{i=1}^n p_i logp_i$
通常對(duì)數(shù)是以2或者 e為底，單位為比特（bit）或納特（nat)。由于熵只依賴于X的分布，而與X的取值無關(guān)，所以也可以將X的熵記作 $H(p )$ ,即
$H(p) = -\sum_{i=1}^np_ilogp_i$
熵越大，隨機(jī)變量的不確定性越大，從定義可驗(yàn)證 $0 \le H(P) \le logn$
信息增益表示得知特征X的信息而使得類Y的信息的不確定性減少的程度
定義：信息增益是，特征A對(duì)訓(xùn)練數(shù)據(jù)集D的信息增益g(D,A),定義為數(shù)據(jù)集D的經(jīng)驗(yàn)熵H(D)與特征A給定條件下的經(jīng)驗(yàn)條件熵H(D|A)之差，即 $g(D,A) = H(D) - H(D|A)$
信息增益大的特征具有更強(qiáng)的分類能力

信息增益算法

信息增益比
以信息增益作為劃分?jǐn)?shù)據(jù)集的特征，存在偏向于取值較多的特征的問題。使用信息增益比可以對(duì)這個(gè)問題進(jìn)行校正。這是特征選擇的另一準(zhǔn)則。

信息增益比

ID3算法
ID3算法的核心是在決策樹各個(gè)結(jié)點(diǎn)熵應(yīng)用信息增益準(zhǔn)則選擇特征，遞歸地構(gòu)建決策樹。
具體方法：
從根結(jié)點(diǎn)開始，對(duì)結(jié)點(diǎn)計(jì)算所有可能的特征的信息增益，選擇信息增益最大的特征作為結(jié)點(diǎn)的特征，由該特征的不同取值建立子結(jié)點(diǎn)；再對(duì)子節(jié)點(diǎn)遞歸地調(diào)用以上方法，構(gòu)建決策樹；直到所有特征的信息增益均很小或沒有特征可以選擇為止。最后得到一棵決策樹。

ID3算法

ID3 算法只有樹的生成，所以該算法生成的樹容易產(chǎn)生過擬合

C4.5算法
與ID3算法唯一的區(qū)別在于，C4.5將信息增益改成了信息增益比

C4.5

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

《統(tǒng)計(jì)學(xué)習(xí)方法》python實(shí)現(xiàn) chapter5 決策樹1

《統(tǒng)計(jì)學(xué)習(xí)方法》python實(shí)現(xiàn) chapter5 決策樹1

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

《統(tǒng)計(jì)學(xué)習(xí)方法》python實(shí)現(xiàn) chapter5 決策樹1

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av