分類算法 - 隨機森林

一、定義

上次我寫了決策樹算法,決策樹可以解決分類問題,也有CART算法可以解決回歸問題,而隨機森林也和決策樹非常類似,采用了CART算法來生成決策樹,因此既可以解決分類問題,也可以解決回歸問題。從名字中可以看出,隨機森林是用隨機的方式構建的一個森林,而這個森林是由很多的相互不關聯(lián)的決策樹組成。實時上隨機森林從本質上屬于機器學習的一個很重要的分支叫做集成學習。集成學習通過建立幾個模型組合的來解決單一預測問題。它的工作原理是生成多個分類器/模型,各自獨立地學習和作出預測。這些預測最后結合成單預測,因此優(yōu)于任何一個單分類的做出預測。
所以理論上,隨機森林的表現(xiàn)一般要優(yōu)于單一的決策樹,因為隨機森林的結果是通過多個決策樹結果投票來決定最后的結果。簡單來說,隨機森林中每個決策樹都有一個自己的結果,隨機森林通過統(tǒng)計每個決策樹的結果,選擇投票數(shù)最多的結果作為其最終結果。我覺得中國一句諺語很形象的表達了隨機森林的運作模式,就是“三個臭皮匠,頂個諸葛亮”。


image.png

二、算法過程

我有一批100條的數(shù)據,通過顏色、長度、甜度、生長地方和水果類別,那么我要預測在某種顏色、長度、甜度和生長地方的水果究竟是什么水果,隨機森林要怎么做呢?

第一步,抽樣

這里的抽樣是指的在這批水果中,有放回地抽樣,比如我要生成3個決策樹來預測水果種類,那么每棵樹要抽樣50條數(shù)據來生成,每棵樹抽取數(shù)據后數(shù)據要放回,下一棵樹抽取數(shù)據仍然要從100條數(shù)據里面抽取。這種方法就叫做bootstrap重采樣技術。

第二步,生成決策樹

每棵樹利用抽取的樣本生成一棵樹,值得注意的是,由于采用的是CART算法,因此生成的是二叉樹,并且可以處理連續(xù)性數(shù)據。如果每個樣本的特征維度為M,像以上提到的數(shù)據,樣本特征維度5,指定一個常數(shù)m<<M,隨機地從5個特征中選取m個特征子集(這一點非常重要,這也是隨機森林的隨機這個名字的來源,因此這樣才能保證生成的決策樹不同),每次樹進行分裂時,從這m個特征中選擇最優(yōu)的,并且每棵決策樹都最大可能地進行生長而不進行剪枝。
此時,一顆茂盛的決策樹就生成了。

第三步,求同

根據3顆決策樹的結果,如果是連續(xù)型的數(shù)據最終需要求均值獲得結果,如果是分類型的數(shù)據最后求眾數(shù)獲得結果。

三、優(yōu)缺點

1、優(yōu)點

1)正如上文所述,隨機森林算法能解決分類與回歸兩種類型的問題,并在這兩個方面都有相當好的估計表現(xiàn)

2)隨機森林對于高維數(shù)據集的處理能力令人興奮,它可以處理成千上萬的輸入變量,并確定最重要的變量,因此被認為是一個不錯的降維方法。此外,該模型能夠輸出變量的重要性程度,這是一個非常便利的功能

3)在對缺失數(shù)據進行估計時,隨機森林是一個十分有效的方法。就算存在大量的數(shù)據缺失,隨機森林也能較好地保持精確性

4)當存在分類不平衡的情況時,隨機森林能夠提供平衡數(shù)據集誤差的有效方法

5)模型的上述性能可以被擴展運用到未標記的數(shù)據集中,用于引導無監(jiān)督聚類、數(shù)據透視和異常檢測

6)隨機森林算法中包含了對輸入數(shù)據的重復自抽樣過程,即所謂的bootstrap抽樣。這樣一來,數(shù)據集中大約三分之一將沒有用于模型的訓練而是用于測試,這樣的數(shù)據被稱為out of bag samples,通過這些樣本估計的誤差被稱為out of bag error。研究表明,這種out of bag方法的與測試集規(guī)模同訓練集一致的估計方法有著相同的精確程度,因此在隨機森林中我們無需再對測試集進行另外的設置。

2、缺點

1)隨機森林在解決回歸問題時并沒有像它在分類中表現(xiàn)的那么好,這是因為它并不能給出一個連續(xù)型的輸出。當進行回歸時,隨機森林不能夠作出超越訓練集數(shù)據范圍的預測,這可能導致在對某些還有特定噪聲的數(shù)據進行建模時出現(xiàn)過度擬合。

2)對于許多統(tǒng)計建模者來說,隨機森林給人的感覺像是一個黑盒子——你幾乎無法控制模型內部的運行,只能在不同的參數(shù)和隨機種子之間進行嘗試。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容