集成學(xué)習(xí)-隨機(jī)森林總結(jié)

隨機(jī)森林

集成學(xué)習(xí)的核心思想是將若干個(gè)個(gè)體學(xué)習(xí)器以一定的策略結(jié)合起來(lái),最終形成一個(gè)強(qiáng)學(xué)習(xí)器,以達(dá)到博采眾長(zhǎng)的目的.

集成學(xué)習(xí)有兩個(gè)流派,一個(gè)是boosting,特點(diǎn)是各個(gè)弱學(xué)習(xí)器之間有依賴關(guān)系;一個(gè)是bagging,特點(diǎn)是各個(gè)弱學(xué)習(xí)器之間沒依賴關(guān)系,可以并行擬合。

算法流程

比較全面的隨機(jī)森林算法總結(jié)
2018-12-02 12:51
前言

上節(jié)介紹了集成學(xué)習(xí)方法包括bagging法和boosting法,隨機(jī)森林是基于bagg ing框架的決策樹模型,本文詳細(xì)的總結(jié)了隨機(jī)森林算法,盡可能的讓大家對(duì)隨機(jī)森林有一個(gè)全面的認(rèn)識(shí)。

目錄

  1. 隨機(jī)森林的算法流程

  2. 隨機(jī)森林的應(yīng)用場(chǎng)景

  3. 隨機(jī)森林的相關(guān)性理解

  4. 隨機(jī)森林蘊(yùn)含的思想

  5. 隨機(jī)森林的模型估計(jì)方法

  6. 總結(jié)

隨機(jī)森林的算法流程

隨機(jī)森林是基于bagging框架下的決策樹模型,隨機(jī)森林包含了很多樹,每棵樹給出分類結(jié)果,每棵樹的生成規(guī)則如下:

(1)如果訓(xùn)練集大小為N,對(duì)于每棵樹而言,隨機(jī)且有放回地從訓(xùn)練中抽取N個(gè)訓(xùn)練樣本,作為該樹的訓(xùn)練集,重復(fù)K次,生成K組訓(xùn)練樣本集。

(2)如果每個(gè)特征的樣本維度為M,指定一個(gè)常數(shù)m<<M,隨機(jī)地從M個(gè)特征中選取m個(gè)特征。

(3) 利用m個(gè)特征對(duì)每棵樹盡最大程度的生長(zhǎng),并且沒有剪枝過(guò)程

隨機(jī)森林的分類算法流程如下圖:


image.png

吳恩達(dá)老師在《機(jī)器學(xué)習(xí)》公開課講過(guò),如何優(yōu)化當(dāng)前的機(jī)器學(xué)習(xí)模型,首先你要知道當(dāng)前的模型是處于高方差狀態(tài)還是高偏差狀態(tài),高方差需要增加訓(xùn)練數(shù)據(jù)或降低模型的復(fù)雜度,高偏差則需要優(yōu)化當(dāng)前模型,如增加迭代次數(shù)或提高模型的復(fù)雜度等。

隨機(jī)森林是基于bagging思想的模型框架,bagging法的模型偏差與子模型的偏差接近,方差較子模型的方差減小。所以,隨機(jī)森林的主要作用是降低模型的復(fù)雜度,解決模型的過(guò)擬合問(wèn)題。
隨機(jī)森林的相關(guān)性理解

隨機(jī)森林的相關(guān)性包括子數(shù)據(jù)集間的相關(guān)性和子數(shù)據(jù)集間特征的相關(guān)性。相關(guān)性在這里可以理解成相似度,若子數(shù)據(jù)集間重復(fù)的樣本或子數(shù)據(jù)集間重復(fù)的特征越多,則相關(guān)性越大。

隨機(jī)森林分類效果(錯(cuò)誤率)與相關(guān)性的關(guān)系:

(1)森林中任意兩棵樹的相關(guān)性越大,錯(cuò)誤率越大;

(2)減小子數(shù)據(jù)間的特征選擇個(gè)數(shù),樹的相關(guān)性和分類能力也會(huì)相應(yīng)的降低;增大特征個(gè)數(shù),樹的相關(guān)性和分類能力會(huì)相應(yīng)的提高。

結(jié)論:(1)是隨機(jī)有放回抽取的,相關(guān)性大小具有隨機(jī)性,因此,特征個(gè)數(shù)是優(yōu)化隨機(jī)森林模型的一個(gè)重要參數(shù)。

隨機(jī)森林蘊(yùn)含的思想

我們?cè)倩仡欕S機(jī)森林學(xué)習(xí)模型的步驟:

(1)對(duì)原始數(shù)據(jù)集進(jìn)行可放回隨機(jī)抽樣成K組子數(shù)據(jù)集;

(2)從樣本的N個(gè)特征隨機(jī)抽樣m個(gè)特征;

(3)對(duì)每個(gè)子數(shù)據(jù)集構(gòu)建最優(yōu)學(xué)習(xí)模型

(4)對(duì)于新的輸入數(shù)據(jù),根據(jù)K個(gè)最優(yōu)學(xué)習(xí)模型,得到最終結(jié)果。

思想:(2)的隨機(jī)抽樣的結(jié)果是子數(shù)據(jù)集間有不同的子特征,我們把不同的特征代表不同的領(lǐng)域,(3)表示在不同領(lǐng)域?qū)W習(xí)到最頂尖的程度,(4)表示對(duì)于某一個(gè)輸入數(shù)據(jù),用不同領(lǐng)域最頂尖的觀點(diǎn)去看待輸入數(shù)據(jù),得到比較全面的結(jié)果.

RF的主要優(yōu)點(diǎn)有:

1) 訓(xùn)練可以高度并行化,對(duì)于大數(shù)據(jù)時(shí)代的大樣本訓(xùn)練速度有優(yōu)勢(shì)。個(gè)人覺得這是的最主要的優(yōu)點(diǎn)。

2) 由于可以隨機(jī)選擇決策樹節(jié)點(diǎn)劃分特征,這樣在樣本特征維度很高的時(shí)候,仍然能高效的訓(xùn)練模型。

3) 在訓(xùn)練后,可以給出各個(gè)特征對(duì)于輸出的重要性

4) 由于采用了隨機(jī)采樣,訓(xùn)練出的模型的方差小,泛化能力強(qiáng)。

5) 相對(duì)于Boosting系列的Adaboost和GBDT, RF實(shí)現(xiàn)比較簡(jiǎn)單。

6) 對(duì)部分特征缺失不敏感。

RF的主要缺點(diǎn)有:

1)在某些噪音比較大的樣本集上,RF模型容易陷入過(guò)擬合。

2) 取值劃分比較多的特征容易對(duì)RF的決策產(chǎn)生更大的影響,從而影響擬合的模型的效果。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容