我們知道boost系列是強(qiáng)依賴關(guān)系, 有這個(gè)依賴, 各個(gè)學(xué)習(xí)器之間還有這些問題沒有解決:

如何計(jì)算學(xué)習(xí)的誤差率 $e$
如何得到弱學(xué)習(xí)器的權(quán)重 $\alpha$
如何更新樣本權(quán)重?
使用何種結(jié)合策略?

Adaboost

假定這里給一個(gè)二分類的數(shù)據(jù)集:
$T={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}$
我們先來看一下Adaboost的步驟

輸入數(shù)據(jù)T
初始化訓(xùn)練數(shù)據(jù)的權(quán)重分布:
$D_1=(w_{11},w_{12},...,w_{1m}), W_{1i}= \frac{1}{m}, i=1,2,...,m$
對 $k=1,2,...,K$ :

使用具有權(quán)值分布的 $D_k$ 訓(xùn)練集進(jìn)行學(xué)習(xí), 得到基本的分類器:
$G_k(x):X-> \{-1,1\}$
計(jì)算 $G_k(x)$ 在訓(xùn)練數(shù)據(jù)集上的誤差率
$e_k=P(G_k(x_i)\not=y_i)=\sum_{i=1}^{m}w_{ki}I(G_k(x_i)\not=y_i)$
計(jì)算 $G_k(x)$ 的系數(shù):
$\alpha_m=\frac{1}{2} \log \frac{1-e_m}{e_m}$
更新訓(xùn)練集的權(quán)重分布:
$D_{k+1}=(w_{k+1,1},w_{k+1,2},...,w_{k+1,i})$
$w_{k+1,i}=\frac{w_{ki}}{Z_k} e^{-\alpha_ky_iG_k(x_i)},i=1,2,3..m$
此處 $Z_k$ 是規(guī)范化因子:
$Z_k=\sum_{i=1}^{m}w_{ki}e^{(-\alpha_my_iG_k(x_i))}$

構(gòu)建基本的纖性分類器組合:
$f(x)=\sum_{k=1}^{K}\alpha_kG_k(x)$

Adaboost的損失函數(shù)

Adaboost損失函數(shù)采用指數(shù)損失, 指數(shù)損失比較少見
$L(y,f(x))=e^{-yf(x)}$
下面來推導(dǎo)一下其損失函數(shù), 該算法為加法模型, 學(xué)習(xí)算法為前向分步算法, 前向分步算法其實(shí)就是: 通過前一輪學(xué)習(xí)器的學(xué)習(xí), 來更新后一個(gè)弱學(xué)習(xí)器的訓(xùn)練集權(quán)重,按照上面的定義, 各輪學(xué)習(xí)器為:
$f_{k-1}(x)=\sum_{k=1}^{K-1} \alpha_kG_k(x)$
$f_{k}(x)=\sum_{k=1}^{K} \alpha_kG_k(x)$
顯然, $f_k(x)=f_{k-1}(x)+\alpha G_k(x)$ 是成立的
利用前向分布, 我們可以得到每個(gè)新的子分類器的損失函數(shù)為:
$L(\alpha_k, G_k(x))=argmin \sum_{i=1}^{m}e^{-y_i(f_{k-1}(x)+\alpha_{k} G_{k}(x))}$
令 $w_{ki}=e^{-y_if_{k-1}(x)}$ ,它的值不依賴于 $\alpha$ 或者 $G_k$ ,僅依賴于 $f_{k-1}(x)$ ,
將其代入損失函數(shù)得到:
$L(\alpha_k, G_k(x))=argmin \sum_{i=1}^{m}w_{ki}e^{-y_i\alpha_k G_k(x)}$
我們知道 $y_iG_k(x)$ 其實(shí)是一個(gè)輸出, 我們可以用一個(gè)指示函數(shù) $I$ 代替, 那么我們得到
$L(\alpha_k, G_k(x))=argmin \sum_{i=1}^{m}w_{ki}e^{-y_i\alpha_kI(y_i\not=G_k(x))}$
我們對 $\alpha$ 求偏導(dǎo):
$\alpha_k=\frac{1}{2}\log \frac{1-e_k}{e_k}$
最終, $e_k$ 求實(shí)我們的分類誤差率
上面提到的四個(gè)問題, 基本上都已經(jīng)解決了, 那么Adaboost如何處理回歸問題?
回歸問題, 基本上只用修改誤差就可以了

首先我們計(jì)算其在訓(xùn)練集上的最大誤差
$E_k=max|y_i-G_k(x_i)|$
計(jì)算每個(gè)樣本上的誤差:

如果是線性誤差:
$e_{ki}=\frac{|y_i-G_k(x_i)|}{E_k}$
平凡誤差: 略

計(jì)算誤差率
$e_k=\sum_{i=1}^{m}w_{ki}e_{ki}$
其他步驟都是一樣的

Adaboost正則化

為了防止Adaboost過擬合，我們通常也會(huì)加入正則化項(xiàng):
沒有加正則化:
$f_k(x)=f_{k-1}(x)+\alpha G_k(x)$
加了正則化v:
$f_k(x)=f_{k-1}(x)+v\alpha G_k(x)$
$v$ 的取值范圍在0~1之間, 更小的 $v$ 代表我們需要更多的迭代次數(shù)

總結(jié)

理論上任何學(xué)習(xí)器都可以用于Adaboost.但一般來說，使用最廣泛的Adaboost弱學(xué)習(xí)器是決策樹。對于決策樹，Adaboost分類用了CART分類樹，而Adaboost回歸用了CART回歸樹。
Adaboost的主要優(yōu)點(diǎn)有：

Adaboost作為分類器時(shí)，分類精度很高
在Adaboost的框架下，可以使用各種回歸分類模型來構(gòu)建弱學(xué)習(xí)器，非常靈活。
作為簡單的二元分類器時(shí)，構(gòu)造簡單，結(jié)果可理解。
不容易發(fā)生過擬合
Adaboost的主要缺點(diǎn)有：
對異常樣本敏感，異常樣本在迭代中可能會(huì)獲得較高的權(quán)重，影響最終的強(qiáng)學(xué)習(xí)器的預(yù)測準(zhǔn)確性

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Boost-Adaboost

Boost-Adaboost

Adaboost

Adaboost的損失函數(shù)

Adaboost正則化

總結(jié)

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Boost-Adaboost

Adaboost

Adaboost的損失函數(shù)

Adaboost正則化

總結(jié)

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av