隨機(jī)森林
集成學(xué)習(xí)的核心思想是將若干個(gè)個(gè)體學(xué)習(xí)器以一定的策略結(jié)合起來(lái),最終形成一個(gè)強(qiáng)學(xué)習(xí)器,以達(dá)到博采眾長(zhǎng)的目的.
集成學(xué)習(xí)有兩個(gè)流派,一個(gè)是boosting,特點(diǎn)是各個(gè)弱學(xué)習(xí)器之間有依賴關(guān)系;一個(gè)是bagging,特點(diǎn)是各個(gè)弱學(xué)習(xí)器之間沒依賴關(guān)系,可以并行擬合。
算法流程
比較全面的隨機(jī)森林算法總結(jié)
2018-12-02 12:51
前言
上節(jié)介紹了集成學(xué)習(xí)方法包括bagging法和boosting法,隨機(jī)森林是基于bagg ing框架的決策樹模型,本文詳細(xì)的總結(jié)了隨機(jī)森林算法,盡可能的讓大家對(duì)隨機(jī)森林有一個(gè)全面的認(rèn)識(shí)。
目錄
隨機(jī)森林的算法流程
隨機(jī)森林的應(yīng)用場(chǎng)景
隨機(jī)森林的相關(guān)性理解
隨機(jī)森林蘊(yùn)含的思想
隨機(jī)森林的模型估計(jì)方法
總結(jié)
隨機(jī)森林的算法流程
隨機(jī)森林是基于bagging框架下的決策樹模型,隨機(jī)森林包含了很多樹,每棵樹給出分類結(jié)果,每棵樹的生成規(guī)則如下:
(1)如果訓(xùn)練集大小為N,對(duì)于每棵樹而言,隨機(jī)且有放回地從訓(xùn)練中抽取N個(gè)訓(xùn)練樣本,作為該樹的訓(xùn)練集,重復(fù)K次,生成K組訓(xùn)練樣本集。
(2)如果每個(gè)特征的樣本維度為M,指定一個(gè)常數(shù)m<<M,隨機(jī)地從M個(gè)特征中選取m個(gè)特征。
(3) 利用m個(gè)特征對(duì)每棵樹盡最大程度的生長(zhǎng),并且沒有剪枝過(guò)程
隨機(jī)森林的分類算法流程如下圖:

吳恩達(dá)老師在《機(jī)器學(xué)習(xí)》公開課講過(guò),如何優(yōu)化當(dāng)前的機(jī)器學(xué)習(xí)模型,首先你要知道當(dāng)前的模型是處于高方差狀態(tài)還是高偏差狀態(tài),高方差需要增加訓(xùn)練數(shù)據(jù)或降低模型的復(fù)雜度,高偏差則需要優(yōu)化當(dāng)前模型,如增加迭代次數(shù)或提高模型的復(fù)雜度等。
隨機(jī)森林是基于bagging思想的模型框架,bagging法的模型偏差與子模型的偏差接近,方差較子模型的方差減小。所以,隨機(jī)森林的主要作用是降低模型的復(fù)雜度,解決模型的過(guò)擬合問(wèn)題。
隨機(jī)森林的相關(guān)性理解
隨機(jī)森林的相關(guān)性包括子數(shù)據(jù)集間的相關(guān)性和子數(shù)據(jù)集間特征的相關(guān)性。相關(guān)性在這里可以理解成相似度,若子數(shù)據(jù)集間重復(fù)的樣本或子數(shù)據(jù)集間重復(fù)的特征越多,則相關(guān)性越大。
隨機(jī)森林分類效果(錯(cuò)誤率)與相關(guān)性的關(guān)系:
(1)森林中任意兩棵樹的相關(guān)性越大,錯(cuò)誤率越大;
(2)減小子數(shù)據(jù)間的特征選擇個(gè)數(shù),樹的相關(guān)性和分類能力也會(huì)相應(yīng)的降低;增大特征個(gè)數(shù),樹的相關(guān)性和分類能力會(huì)相應(yīng)的提高。
結(jié)論:(1)是隨機(jī)有放回抽取的,相關(guān)性大小具有隨機(jī)性,因此,特征個(gè)數(shù)是優(yōu)化隨機(jī)森林模型的一個(gè)重要參數(shù)。
隨機(jī)森林蘊(yùn)含的思想
我們?cè)倩仡欕S機(jī)森林學(xué)習(xí)模型的步驟:
(1)對(duì)原始數(shù)據(jù)集進(jìn)行可放回隨機(jī)抽樣成K組子數(shù)據(jù)集;
(2)從樣本的N個(gè)特征隨機(jī)抽樣m個(gè)特征;
(3)對(duì)每個(gè)子數(shù)據(jù)集構(gòu)建最優(yōu)學(xué)習(xí)模型
(4)對(duì)于新的輸入數(shù)據(jù),根據(jù)K個(gè)最優(yōu)學(xué)習(xí)模型,得到最終結(jié)果。
思想:(2)的隨機(jī)抽樣的結(jié)果是子數(shù)據(jù)集間有不同的子特征,我們把不同的特征代表不同的領(lǐng)域,(3)表示在不同領(lǐng)域?qū)W習(xí)到最頂尖的程度,(4)表示對(duì)于某一個(gè)輸入數(shù)據(jù),用不同領(lǐng)域最頂尖的觀點(diǎn)去看待輸入數(shù)據(jù),得到比較全面的結(jié)果.
RF的主要優(yōu)點(diǎn)有:
1) 訓(xùn)練可以高度并行化,對(duì)于大數(shù)據(jù)時(shí)代的大樣本訓(xùn)練速度有優(yōu)勢(shì)。個(gè)人覺得這是的最主要的優(yōu)點(diǎn)。
2) 由于可以隨機(jī)選擇決策樹節(jié)點(diǎn)劃分特征,這樣在樣本特征維度很高的時(shí)候,仍然能高效的訓(xùn)練模型。
3) 在訓(xùn)練后,可以給出各個(gè)特征對(duì)于輸出的重要性
4) 由于采用了隨機(jī)采樣,訓(xùn)練出的模型的方差小,泛化能力強(qiáng)。
5) 相對(duì)于Boosting系列的Adaboost和GBDT, RF實(shí)現(xiàn)比較簡(jiǎn)單。
6) 對(duì)部分特征缺失不敏感。
RF的主要缺點(diǎn)有:
1)在某些噪音比較大的樣本集上,RF模型容易陷入過(guò)擬合。
2) 取值劃分比較多的特征容易對(duì)RF的決策產(chǎn)生更大的影響,從而影響擬合的模型的效果。