高維數(shù)據(jù)的異常檢測

5、練習(xí)

1.使用PyOD庫生成toy example并調(diào)用feature bagging



2.使用PyOD庫生成toy example并調(diào)用Isolation Forests


3.(思考題:feature bagging為什么可以降低方差?)

Bagging對樣本重采樣,對每一重采樣得到的子樣本集訓(xùn)練一個(gè)模型,最后取平均。由于子樣本集的相似性以及使用的是同種模型,因此各模型有近似相等的variance(事實(shí)上,各模型的分布也近似相同,但不獨(dú)立)。


此時(shí)不會降低variance。bagging方法得到的各子模型是有一定相關(guān)性的,屬于上面兩個(gè)極端狀況的中間態(tài),因此可以一定程度降低variance。為了進(jìn)一步降低variance,Random forest通過隨機(jī)選取變量子集做擬合的方式de-correlated了各子模型(樹),使得variance進(jìn)一步降低。

4.(思考題:feature bagging存在哪些缺陷,有什么可以優(yōu)化的idea?)

在高維或者大量數(shù)據(jù)的情況下bagging會損失一部分樣本或者特征始終無法被采樣也無法被模型訓(xùn)練到。

缺陷:

bagging的比例始終建議在0.5到0.99之間,特別是存在過多的相關(guān)性特征的情況下,bagging很容易不停的采樣相關(guān)性很高的特征,比如100個(gè)特征中有80個(gè)相關(guān)性非常高的特征,則不管怎么采樣這一組高相關(guān)特征總會進(jìn)入到基模型的訓(xùn)練過程中,所以當(dāng)引入bagging的時(shí)候,無論是異常檢測集成還是隨機(jī)森林或者是xgb、lgb、cab的列采樣之前,都必須進(jìn)行嚴(yán)格的相關(guān)性分析,人們常常忽視這一點(diǎn)因?yàn)楹芏鄷r(shí)候大量相關(guān)性特征存在的情況并不多,但是一旦出現(xiàn)就會導(dǎo)致很差的bagging泛化性能的表現(xiàn)。

優(yōu)化:

衍生出了rotated bagging,對數(shù)據(jù)進(jìn)行采樣之后使用主成分分析等方式進(jìn)行rotate然后訓(xùn)練子模型。

就是每次采樣之后得到的特征子集進(jìn)行主成分分析然后再引入基學(xué)習(xí)器或者基檢測器。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Task01: 今天開始了異常值學(xué)習(xí)的第一天。我在本科階段學(xué)習(xí)過一些關(guān)于高維數(shù)據(jù)流故障診斷的知識。當(dāng)時(shí)主要學(xué)習(xí)的是...
    Jeremy__Wang閱讀 2,521評論 0 0
  • 假設(shè)你去隨機(jī)問很多人一個(gè)很復(fù)雜的問題,然后把它們的答案合并起來。通常情況下你會發(fā)現(xiàn)這個(gè)合并的答案比一個(gè)專家的答案要...
    城市中迷途小書童閱讀 3,056評論 0 1
  • 1異常檢測概述 2異常檢測常用方法 傳統(tǒng)方法 基于傳統(tǒng)統(tǒng)計(jì)學(xué)方法 統(tǒng)計(jì)學(xué)方法對數(shù)據(jù)的正常性做出假定。它們假定正常的...
    許志輝Albert閱讀 1,538評論 0 0
  • 1、什么是異常檢測 異常檢測(Outlier Detection),顧名思義,是識別與正常數(shù)據(jù)不同的數(shù)據(jù),與預(yù)期行...
    Q_cy閱讀 1,162評論 0 0
  • 夜鶯2517閱讀 128,155評論 1 9

友情鏈接更多精彩內(nèi)容