隨機(jī)森林參數(shù)說明

隨機(jī)森林參數(shù)說明:

最主要的兩個(gè)參數(shù)是n_estimators和max_features。

1.n_estimators:表示森林里樹的個(gè)數(shù)。

理論上是越大越好,但是計(jì)算時(shí)間也相應(yīng)增長。所以,并不是取得越大就會(huì)越好,預(yù)測效果最好的將會(huì)出現(xiàn)在合理的樹個(gè)數(shù)。

2.max_features:每個(gè)決策樹的隨機(jī)選擇的特征數(shù)目。

每個(gè)決策樹在隨機(jī)選擇的這max_features特征里找到某個(gè)“最佳”特征,使得模型在該特征的某個(gè)值上分裂之后得到的收益最大化。max_features越少,方差就會(huì)減少,但同時(shí)偏差就會(huì)增加。

如果是回歸問題,則max_features=n_features,如果是分類問題,則max_features=sqrt(n_features),其中,n_features 是輸入特征數(shù)。

回歸與分類的不同

1.回歸問題的應(yīng)用場景(預(yù)測的結(jié)果是連續(xù)的,例如預(yù)測明天的溫度,23,24,25度)

回歸問題通常是用來預(yù)測一個(gè)值,如預(yù)測房價(jià)、未來的天氣情況等等,例如一個(gè)產(chǎn)品的實(shí)際價(jià)格為500元,通過回歸分析預(yù)測值為499元,我們認(rèn)為這是一個(gè)比較好的回歸分析。一個(gè)比較常見的回歸算法是線性回歸算法(LR)。另外,回歸分析用在神經(jīng)網(wǎng)絡(luò)上,其最上層是不需要加上softmax函數(shù)的,而是直接對(duì)前一層累加即可?;貧w是對(duì)真實(shí)值的一種逼近預(yù)測。

2.分類問題的應(yīng)用場景(預(yù)測的結(jié)果是離散的,例如預(yù)測明天天氣-陰,晴,雨)

分類問題是用于將事物打上一個(gè)標(biāo)簽,通常結(jié)果為離散值。例如判斷一幅圖片上的動(dòng)物是一只貓還是一只狗,分類通常是建立在回歸之上,分類的最后一層通常要使用softmax函數(shù)進(jìn)行判斷其所屬類別。分類并沒有逼近的概念,最終正確結(jié)果只有一個(gè),錯(cuò)誤的就是錯(cuò)誤的,不會(huì)有相近的概念。最常見的分類方法是邏輯回歸,或者叫邏輯分類。

其他參數(shù):

3.max_depth: 樹的最深深度。

如果max_depth=None,節(jié)點(diǎn)會(huì)擬合到增益為0,或者所有的葉節(jié)點(diǎn)含有小于min_samples_split個(gè)樣本。如果同時(shí)min_sample_split=1, 決策樹會(huì)擬合得很深,甚至?xí)^擬合。

4.bootstrap:自助法,默認(rèn)為True。

如果bootstrap==True,將每次有放回地隨機(jī)選取樣本。

只有在extra-trees中,bootstrap=False。

Extra trees,Extremely Randomized Trees,指極度隨機(jī)樹,和隨機(jī)森林區(qū)別是:

1、隨機(jī)森林應(yīng)用的是Bagging模型,而ET是使用所有的訓(xùn)練樣本得到每棵決策樹,也就是每棵決策樹應(yīng)用的是相同的全部訓(xùn)練樣本;

2、隨機(jī)森林是在一個(gè)隨機(jī)子集內(nèi)得到最佳分叉屬性,而ET是完全隨機(jī)的得到分叉值,從而實(shí)現(xiàn)對(duì)決策樹進(jìn)行分叉的。

訓(xùn)練隨機(jī)森林時(shí),建議使用cross_validated(交叉驗(yàn)證),把數(shù)據(jù)n等份,每次取其中一份當(dāng)驗(yàn)證集,其余數(shù)據(jù)訓(xùn)練隨機(jī)森林,并用于預(yù)測測試集。最終得到n個(gè)結(jié)果,并平均得到最終結(jié)果。

隨機(jī)森林優(yōu)勢

1. 隨機(jī)森林算法幾乎不需要輸入的準(zhǔn)備。它們不需要測算就能夠處理二分特征、分類特征、數(shù)值特征的數(shù)據(jù)。隨機(jī)森林算法能完成隱含特征的選擇,并且提供一個(gè)很好的特征重要度的選擇指標(biāo)。

2. 隨機(jī)森林算法訓(xùn)練速度快。性能優(yōu)化過程剛好又提高了模型的準(zhǔn)確性,這種精彩表現(xiàn)并不常有,反之亦然。這種旨在多樣化子樹的子設(shè)定隨機(jī)特征,同時(shí)也是一種突出的性能優(yōu)化!調(diào)低給定任意節(jié)點(diǎn)的特征劃分,能讓你簡單的處理帶有上千屬性的數(shù)據(jù)集。(如果數(shù)據(jù)集有很多行的話,這種方法同樣的也可以適用于行采樣)

3. 隨機(jī)森林算法很難被打敗。針對(duì)任何給定的數(shù)據(jù)集,盡管你常能找到一個(gè)優(yōu)于它的模型(比較典型的是神經(jīng)網(wǎng)絡(luò)或者一些增益算法 boosting algorithm),但這類算法肯定不多,而且通常建這樣的模型并調(diào)試好要比隨機(jī)森林算法模型要耗時(shí)的更多。這也是為何隨機(jī)森林算法作為基準(zhǔn)模型表現(xiàn)出色的原因。

4. 建立一個(gè)差勁的隨機(jī)森林模型真的很難!因?yàn)殡S機(jī)森林算法對(duì)指定使用的超參數(shù)(hyper-parameters )并不十分敏感。為了要得到一個(gè)合適的模型,它們不需要做很多調(diào)整。只需使用大量的樹,模型就不會(huì)產(chǎn)生很多偏差。大多數(shù)的隨機(jī)森林算法的實(shí)現(xiàn)方法的參數(shù)設(shè)置初始值也都是合理的。

5. 通用性。隨機(jī)森林算法可以應(yīng)用于很多類別的模型任務(wù)。它們可以很好的處理回歸問題,也能對(duì)分類問題應(yīng)付自如(甚至可以產(chǎn)生合適的標(biāo)準(zhǔn)概率值)。雖然我從沒親自嘗試,但它們還可以用于聚類 分析問題。

————————————————

原文鏈接:https://blog.csdn.net/jiede1/article/details/78245597

原文鏈接:https://blog.csdn.net/rosefun96/article/details/78833477

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容