集成方法

feature bagging

與bagging方法類似,有放回抽樣特征,進(jìn)行建模,然后將模型融合。

步驟如下:

1、選擇基檢測器

? ? 已知:數(shù)據(jù)集S,(X,Y),其中d為X維度;

標(biāo)準(zhǔn)化/歸一化數(shù)據(jù)集S

從(d/2) - (d-1)的數(shù)量中循環(huán)有放回抽樣變量子集,構(gòu)建成新的變量集F后,應(yīng)用于檢測算法得到輸出結(jié)果AS,將所有的輸出結(jié)果結(jié)合起來得到最終結(jié)果。

2、分?jǐn)?shù)標(biāo)準(zhǔn)化和組合方法

方差:是指算法輸出結(jié)果與算法輸出期望之間的誤差,描述模型的離散程度,數(shù)據(jù)波動性。

偏差:是指預(yù)測值與真實(shí)值之間的差距。即使在離群點(diǎn)檢測問題中沒有可用的基本真值

Isolation Forest

孤立森林查找孤立點(diǎn)的策略非常高效。假設(shè)我們用一個隨機(jī)超平面來切割數(shù)據(jù)空間,切一次可以生成兩個子空間。然后我們繼續(xù)用隨機(jī)超平面來切割每個子空間并循環(huán),直到每個子空間只有一個數(shù)據(jù)點(diǎn)為止。直觀上來講,那些具有高密度的簇需要被切很多次才會將其分離,而那些低密度的點(diǎn)很快就被單獨(dú)分配到一個子空間了。孤立森林認(rèn)為這些很快被孤立的點(diǎn)就是異常點(diǎn)。

怎么來切這個數(shù)據(jù)空間是孤立森林的核心思想。因?yàn)榍懈钍请S機(jī)的,為了結(jié)果的可靠性,要用集成(ensemble)的方法來得到一個收斂值,即反復(fù)從頭開始切,平均每次切的結(jié)果。孤立森林由t棵孤立的數(shù)組成,每棵樹都是一個隨機(jī)二叉樹,也就是說對于樹中的每個節(jié)點(diǎn),要么有兩個孩子節(jié)點(diǎn),要么一個孩子節(jié)點(diǎn)都沒有。樹的構(gòu)造方法和隨機(jī)森林(random forests)中樹的構(gòu)造方法有些類似。流程如下:

從訓(xùn)練數(shù)據(jù)中隨機(jī)選擇一個樣本子集,放入樹的根節(jié)點(diǎn);

隨機(jī)指定一個屬性,隨機(jī)產(chǎn)生一個切割點(diǎn)V,即屬性A的最大值和最小值之間的某個數(shù);

根據(jù)屬性A對每個樣本分類,把A小于V的樣本放在當(dāng)前節(jié)點(diǎn)的左孩子中,大于等于V的樣本放在右孩子中,這樣就形成了2個子空間;

在孩子節(jié)點(diǎn)中遞歸步驟2和3,不斷地構(gòu)造左孩子和右孩子,直到孩子節(jié)點(diǎn)中只有一個數(shù)據(jù),或樹的高度達(dá)到了限定高度。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容