日韩av色图,蜜桃亚洲日韩一区二区

5、練習(xí)

1.使用PyOD庫生成toy example并調(diào)用feature bagging

2.使用PyOD庫生成toy example并調(diào)用Isolation Forests

3.(思考題：feature bagging為什么可以降低方差？)

Bagging對樣本重采樣，對每一重采樣得到的子樣本集訓(xùn)練一個(gè)模型，最后取平均。由于子樣本集的相似性以及使用的是同種模型，因此各模型有近似相等的variance（事實(shí)上，各模型的分布也近似相同，但不獨(dú)立）。

此時(shí)不會降低variance。bagging方法得到的各子模型是有一定相關(guān)性的，屬于上面兩個(gè)極端狀況的中間態(tài)，因此可以一定程度降低variance。為了進(jìn)一步降低variance，Random forest通過隨機(jī)選取變量子集做擬合的方式de-correlated了各子模型（樹），使得variance進(jìn)一步降低。

4.(思考題：feature bagging存在哪些缺陷，有什么可以優(yōu)化的idea？)

在高維或者大量數(shù)據(jù)的情況下bagging會損失一部分樣本或者特征始終無法被采樣也無法被模型訓(xùn)練到。

缺陷：

bagging的比例始終建議在0.5到0.99之間，特別是存在過多的相關(guān)性特征的情況下，bagging很容易不停的采樣相關(guān)性很高的特征，比如100個(gè)特征中有80個(gè)相關(guān)性非常高的特征，則不管怎么采樣這一組高相關(guān)特征總會進(jìn)入到基模型的訓(xùn)練過程中，所以當(dāng)引入bagging的時(shí)候，無論是異常檢測集成還是隨機(jī)森林或者是xgb、lgb、cab的列采樣之前，都必須進(jìn)行嚴(yán)格的相關(guān)性分析，人們常常忽視這一點(diǎn)因?yàn)楹芏鄷r(shí)候大量相關(guān)性特征存在的情況并不多，但是一旦出現(xiàn)就會導(dǎo)致很差的bagging泛化性能的表現(xiàn)。

優(yōu)化：

衍生出了rotated bagging，對數(shù)據(jù)進(jìn)行采樣之后使用主成分分析等方式進(jìn)行rotate然后訓(xùn)練子模型。

就是每次采樣之后得到的特征子集進(jìn)行主成分分析然后再引入基學(xué)習(xí)器或者基檢測器。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

高維數(shù)據(jù)的異常檢測

高維數(shù)據(jù)的異常檢測

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

高維數(shù)據(jù)的異常檢測

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av