隨機(jī)森林

集成學(xué)習(xí)的核心思想是將若干個(gè)個(gè)體學(xué)習(xí)器以一定的策略結(jié)合起來(lái),最終形成一個(gè)強(qiáng)學(xué)習(xí)器,以達(dá)到博采眾長(zhǎng)的目的.

集成學(xué)習(xí)有兩個(gè)流派，一個(gè)是boosting，特點(diǎn)是各個(gè)弱學(xué)習(xí)器之間有依賴關(guān)系；一個(gè)是bagging，特點(diǎn)是各個(gè)弱學(xué)習(xí)器之間沒依賴關(guān)系，可以并行擬合。

算法流程

比較全面的隨機(jī)森林算法總結(jié)
2018-12-02 12:51
前言

上節(jié)介紹了集成學(xué)習(xí)方法包括bagging法和boosting法，隨機(jī)森林是基于bagg ing框架的決策樹模型，本文詳細(xì)的總結(jié)了隨機(jī)森林算法，盡可能的讓大家對(duì)隨機(jī)森林有一個(gè)全面的認(rèn)識(shí)。

隨機(jī)森林的算法流程
隨機(jī)森林的應(yīng)用場(chǎng)景
隨機(jī)森林的相關(guān)性理解
隨機(jī)森林蘊(yùn)含的思想
隨機(jī)森林的模型估計(jì)方法
總結(jié)

隨機(jī)森林的算法流程

隨機(jī)森林是基于bagging框架下的決策樹模型，隨機(jī)森林包含了很多樹，每棵樹給出分類結(jié)果，每棵樹的生成規(guī)則如下：

（1）如果訓(xùn)練集大小為N，對(duì)于每棵樹而言，隨機(jī)且有放回地從訓(xùn)練中抽取N個(gè)訓(xùn)練樣本，作為該樹的訓(xùn)練集，重復(fù)K次，生成K組訓(xùn)練樣本集。

（2）如果每個(gè)特征的樣本維度為M，指定一個(gè)常數(shù)m<<M，隨機(jī)地從M個(gè)特征中選取m個(gè)特征。

（3）利用m個(gè)特征對(duì)每棵樹盡最大程度的生長(zhǎng)，并且沒有剪枝過(guò)程

隨機(jī)森林的分類算法流程如下圖：

image.png

吳恩達(dá)老師在《機(jī)器學(xué)習(xí)》公開課講過(guò)，如何優(yōu)化當(dāng)前的機(jī)器學(xué)習(xí)模型，首先你要知道當(dāng)前的模型是處于高方差狀態(tài)還是高偏差狀態(tài)，高方差需要增加訓(xùn)練數(shù)據(jù)或降低模型的復(fù)雜度，高偏差則需要優(yōu)化當(dāng)前模型，如增加迭代次數(shù)或提高模型的復(fù)雜度等。

隨機(jī)森林是基于bagging思想的模型框架，bagging法的模型偏差與子模型的偏差接近，方差較子模型的方差減小。所以，隨機(jī)森林的主要作用是降低模型的復(fù)雜度，解決模型的過(guò)擬合問(wèn)題。
隨機(jī)森林的相關(guān)性理解

隨機(jī)森林的相關(guān)性包括子數(shù)據(jù)集間的相關(guān)性和子數(shù)據(jù)集間特征的相關(guān)性。相關(guān)性在這里可以理解成相似度，若子數(shù)據(jù)集間重復(fù)的樣本或子數(shù)據(jù)集間重復(fù)的特征越多，則相關(guān)性越大。

隨機(jī)森林分類效果（錯(cuò)誤率）與相關(guān)性的關(guān)系：

（1）森林中任意兩棵樹的相關(guān)性越大，錯(cuò)誤率越大；

（2）減小子數(shù)據(jù)間的特征選擇個(gè)數(shù)，樹的相關(guān)性和分類能力也會(huì)相應(yīng)的降低；增大特征個(gè)數(shù)，樹的相關(guān)性和分類能力會(huì)相應(yīng)的提高。

結(jié)論：（1）是隨機(jī)有放回抽取的，相關(guān)性大小具有隨機(jī)性，因此，特征個(gè)數(shù)是優(yōu)化隨機(jī)森林模型的一個(gè)重要參數(shù)。

隨機(jī)森林蘊(yùn)含的思想

我們?cè)倩仡欕S機(jī)森林學(xué)習(xí)模型的步驟：

（1）對(duì)原始數(shù)據(jù)集進(jìn)行可放回隨機(jī)抽樣成K組子數(shù)據(jù)集；

（2）從樣本的N個(gè)特征隨機(jī)抽樣m個(gè)特征；

（3）對(duì)每個(gè)子數(shù)據(jù)集構(gòu)建最優(yōu)學(xué)習(xí)模型

（4）對(duì)于新的輸入數(shù)據(jù)，根據(jù)K個(gè)最優(yōu)學(xué)習(xí)模型，得到最終結(jié)果。

思想：（2）的隨機(jī)抽樣的結(jié)果是子數(shù)據(jù)集間有不同的子特征，我們把不同的特征代表不同的領(lǐng)域，（3）表示在不同領(lǐng)域?qū)W習(xí)到最頂尖的程度，（4）表示對(duì)于某一個(gè)輸入數(shù)據(jù)，用不同領(lǐng)域最頂尖的觀點(diǎn)去看待輸入數(shù)據(jù)，得到比較全面的結(jié)果.

RF的主要優(yōu)點(diǎn)有：

1）訓(xùn)練可以高度并行化，對(duì)于大數(shù)據(jù)時(shí)代的大樣本訓(xùn)練速度有優(yōu)勢(shì)。個(gè)人覺得這是的最主要的優(yōu)點(diǎn)。

2）由于可以隨機(jī)選擇決策樹節(jié)點(diǎn)劃分特征，這樣在樣本特征維度很高的時(shí)候，仍然能高效的訓(xùn)練模型。

3）在訓(xùn)練后，可以給出各個(gè)特征對(duì)于輸出的重要性

4）由于采用了隨機(jī)采樣，訓(xùn)練出的模型的方差小，泛化能力強(qiáng)。

5）相對(duì)于Boosting系列的Adaboost和GBDT， RF實(shí)現(xiàn)比較簡(jiǎn)單。

6）對(duì)部分特征缺失不敏感。

RF的主要缺點(diǎn)有：

1）在某些噪音比較大的樣本集上，RF模型容易陷入過(guò)擬合。

2) 取值劃分比較多的特征容易對(duì)RF的決策產(chǎn)生更大的影響，從而影響擬合的模型的效果。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

集成學(xué)習(xí)-隨機(jī)森林總結(jié)

集成學(xué)習(xí)-隨機(jī)森林總結(jié)

隨機(jī)森林

算法流程

隨機(jī)森林分類效果（錯(cuò)誤率）與相關(guān)性的關(guān)系：

隨機(jī)森林蘊(yùn)含的思想

RF的主要優(yōu)點(diǎn)有：

RF的主要缺點(diǎn)有：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

集成學(xué)習(xí)-隨機(jī)森林總結(jié)

隨機(jī)森林

算法流程

隨機(jī)森林分類效果（錯(cuò)誤率）與相關(guān)性的關(guān)系：

隨機(jī)森林蘊(yùn)含的思想

RF的主要優(yōu)點(diǎn)有：

RF的主要缺點(diǎn)有：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av