









5、練習(xí)
1.使用PyOD庫生成toy example并調(diào)用feature bagging


2.使用PyOD庫生成toy example并調(diào)用Isolation Forests

3.(思考題:feature bagging為什么可以降低方差?)
Bagging對樣本重采樣,對每一重采樣得到的子樣本集訓(xùn)練一個(gè)模型,最后取平均。由于子樣本集的相似性以及使用的是同種模型,因此各模型有近似相等的variance(事實(shí)上,各模型的分布也近似相同,但不獨(dú)立)。

此時(shí)不會降低variance。bagging方法得到的各子模型是有一定相關(guān)性的,屬于上面兩個(gè)極端狀況的中間態(tài),因此可以一定程度降低variance。為了進(jìn)一步降低variance,Random forest通過隨機(jī)選取變量子集做擬合的方式de-correlated了各子模型(樹),使得variance進(jìn)一步降低。
4.(思考題:feature bagging存在哪些缺陷,有什么可以優(yōu)化的idea?)
在高維或者大量數(shù)據(jù)的情況下bagging會損失一部分樣本或者特征始終無法被采樣也無法被模型訓(xùn)練到。
缺陷:
bagging的比例始終建議在0.5到0.99之間,特別是存在過多的相關(guān)性特征的情況下,bagging很容易不停的采樣相關(guān)性很高的特征,比如100個(gè)特征中有80個(gè)相關(guān)性非常高的特征,則不管怎么采樣這一組高相關(guān)特征總會進(jìn)入到基模型的訓(xùn)練過程中,所以當(dāng)引入bagging的時(shí)候,無論是異常檢測集成還是隨機(jī)森林或者是xgb、lgb、cab的列采樣之前,都必須進(jìn)行嚴(yán)格的相關(guān)性分析,人們常常忽視這一點(diǎn)因?yàn)楹芏鄷r(shí)候大量相關(guān)性特征存在的情況并不多,但是一旦出現(xiàn)就會導(dǎo)致很差的bagging泛化性能的表現(xiàn)。
優(yōu)化:
衍生出了rotated bagging,對數(shù)據(jù)進(jìn)行采樣之后使用主成分分析等方式進(jìn)行rotate然后訓(xùn)練子模型。
就是每次采樣之后得到的特征子集進(jìn)行主成分分析然后再引入基學(xué)習(xí)器或者基檢測器。