隨機(jī)森林參數(shù)說明：

最主要的兩個(gè)參數(shù)是n_estimators和max_features。

1.n_estimators：表示森林里樹的個(gè)數(shù)。

理論上是越大越好，但是計(jì)算時(shí)間也相應(yīng)增長。所以，并不是取得越大就會(huì)越好，預(yù)測效果最好的將會(huì)出現(xiàn)在合理的樹個(gè)數(shù)。

2.max_features：每個(gè)決策樹的隨機(jī)選擇的特征數(shù)目。

每個(gè)決策樹在隨機(jī)選擇的這max_features特征里找到某個(gè)“最佳”特征，使得模型在該特征的某個(gè)值上分裂之后得到的收益最大化。max_features越少，方差就會(huì)減少，但同時(shí)偏差就會(huì)增加。

如果是回歸問題，則max_features＝n_features，如果是分類問題，則max_features＝sqrt(n_features)，其中，n_features 是輸入特征數(shù)。

回歸與分類的不同

1.回歸問題的應(yīng)用場景（預(yù)測的結(jié)果是連續(xù)的，例如預(yù)測明天的溫度，23，24，25度）

回歸問題通常是用來預(yù)測一個(gè)值，如預(yù)測房價(jià)、未來的天氣情況等等，例如一個(gè)產(chǎn)品的實(shí)際價(jià)格為500元，通過回歸分析預(yù)測值為499元，我們認(rèn)為這是一個(gè)比較好的回歸分析。一個(gè)比較常見的回歸算法是線性回歸算法（LR）。另外，回歸分析用在神經(jīng)網(wǎng)絡(luò)上，其最上層是不需要加上softmax函數(shù)的，而是直接對(duì)前一層累加即可?；貧w是對(duì)真實(shí)值的一種逼近預(yù)測。

2.分類問題的應(yīng)用場景（預(yù)測的結(jié)果是離散的，例如預(yù)測明天天氣-陰，晴，雨）

分類問題是用于將事物打上一個(gè)標(biāo)簽，通常結(jié)果為離散值。例如判斷一幅圖片上的動(dòng)物是一只貓還是一只狗，分類通常是建立在回歸之上，分類的最后一層通常要使用softmax函數(shù)進(jìn)行判斷其所屬類別。分類并沒有逼近的概念，最終正確結(jié)果只有一個(gè)，錯(cuò)誤的就是錯(cuò)誤的，不會(huì)有相近的概念。最常見的分類方法是邏輯回歸，或者叫邏輯分類。

其他參數(shù)：

3.max_depth: 樹的最深深度。

如果max_depth＝None，節(jié)點(diǎn)會(huì)擬合到增益為0，或者所有的葉節(jié)點(diǎn)含有小于min_samples_split個(gè)樣本。如果同時(shí)min_sample_split=1，決策樹會(huì)擬合得很深，甚至?xí)^擬合。

4.bootstrap：自助法，默認(rèn)為True。

如果bootstrap==True，將每次有放回地隨機(jī)選取樣本。

只有在extra-trees中，bootstrap=False。

Extra trees,Extremely Randomized Trees，指極度隨機(jī)樹，和隨機(jī)森林區(qū)別是：

1、隨機(jī)森林應(yīng)用的是Bagging模型，而ET是使用所有的訓(xùn)練樣本得到每棵決策樹，也就是每棵決策樹應(yīng)用的是相同的全部訓(xùn)練樣本；

2、隨機(jī)森林是在一個(gè)隨機(jī)子集內(nèi)得到最佳分叉屬性，而ET是完全隨機(jī)的得到分叉值，從而實(shí)現(xiàn)對(duì)決策樹進(jìn)行分叉的。

訓(xùn)練隨機(jī)森林時(shí)，建議使用cross_validated（交叉驗(yàn)證），把數(shù)據(jù)n等份，每次取其中一份當(dāng)驗(yàn)證集，其余數(shù)據(jù)訓(xùn)練隨機(jī)森林，并用于預(yù)測測試集。最終得到n個(gè)結(jié)果，并平均得到最終結(jié)果。

隨機(jī)森林優(yōu)勢

1. 隨機(jī)森林算法幾乎不需要輸入的準(zhǔn)備。它們不需要測算就能夠處理二分特征、分類特征、數(shù)值特征的數(shù)據(jù)。隨機(jī)森林算法能完成隱含特征的選擇，并且提供一個(gè)很好的特征重要度的選擇指標(biāo)。

2. 隨機(jī)森林算法訓(xùn)練速度快。性能優(yōu)化過程剛好又提高了模型的準(zhǔn)確性，這種精彩表現(xiàn)并不常有，反之亦然。這種旨在多樣化子樹的子設(shè)定隨機(jī)特征，同時(shí)也是一種突出的性能優(yōu)化！調(diào)低給定任意節(jié)點(diǎn)的特征劃分，能讓你簡單的處理帶有上千屬性的數(shù)據(jù)集。（如果數(shù)據(jù)集有很多行的話，這種方法同樣的也可以適用于行采樣）

3. 隨機(jī)森林算法很難被打敗。針對(duì)任何給定的數(shù)據(jù)集，盡管你常能找到一個(gè)優(yōu)于它的模型（比較典型的是神經(jīng)網(wǎng)絡(luò)或者一些增益算法 boosting algorithm），但這類算法肯定不多，而且通常建這樣的模型并調(diào)試好要比隨機(jī)森林算法模型要耗時(shí)的更多。這也是為何隨機(jī)森林算法作為基準(zhǔn)模型表現(xiàn)出色的原因。

4. 建立一個(gè)差勁的隨機(jī)森林模型真的很難！因?yàn)殡S機(jī)森林算法對(duì)指定使用的超參數(shù)（hyper-parameters ）并不十分敏感。為了要得到一個(gè)合適的模型，它們不需要做很多調(diào)整。只需使用大量的樹，模型就不會(huì)產(chǎn)生很多偏差。大多數(shù)的隨機(jī)森林算法的實(shí)現(xiàn)方法的參數(shù)設(shè)置初始值也都是合理的。

5. 通用性。隨機(jī)森林算法可以應(yīng)用于很多類別的模型任務(wù)。它們可以很好的處理回歸問題，也能對(duì)分類問題應(yīng)付自如（甚至可以產(chǎn)生合適的標(biāo)準(zhǔn)概率值）。雖然我從沒親自嘗試，但它們還可以用于聚類分析問題。

————————————————

原文鏈接：https://blog.csdn.net/jiede1/article/details/78245597

原文鏈接：https://blog.csdn.net/rosefun96/article/details/78833477

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

隨機(jī)森林參數(shù)說明