查理芒格思維模型探尋之旅07-決策樹理論

圖片來自網(wǎng)絡(luò)

查理芒格提出跨學(xué)科知識(shí)以及多元思維模型,在《窮查理寶典》中提到了有100多個(gè)思維模型,我們?cè)凇静槔砻⒏裱辛?xí)會(huì)】中,將會(huì)以學(xué)習(xí)思維模型的方式對(duì)查理提到的這100多個(gè)思維模型進(jìn)行深入探討和學(xué)習(xí),會(huì)將該模型的原始出處和原理搞清楚,然后在結(jié)合自身的工作和生活進(jìn)行理解和運(yùn)用,希望能將這100多個(gè)思維模型都融入到我們自身的知識(shí)結(jié)構(gòu)中。

決策樹理論是我們整理學(xué)習(xí)的第七個(gè)思維模型。

本文主要是以摘抄維基百科的內(nèi)容來講解決策時(shí)理論,以劉潤(rùn)5分鐘商學(xué)院的決策樹案例進(jìn)行分析解說,前半部分理論相對(duì)晦澀難懂,可以跳過直接看后面的案例解說。


什么是決策樹理論?

決策論中(如風(fēng)險(xiǎn)管理),決策樹(Decision tree)由一個(gè)決策圖和可能的結(jié)果(包括資源成本和風(fēng)險(xiǎn))組成,用來創(chuàng)建到達(dá)目標(biāo)的規(guī)劃。決策樹建立并用來輔助決策,是一種特殊的樹結(jié)構(gòu)。決策樹是一個(gè)利用像樹一樣的圖形或決策模型的決策支持工具,包括隨機(jī)事件結(jié)果,資源代價(jià)和實(shí)用性。它是一個(gè)算法顯示的方法。決策樹經(jīng)常在運(yùn)籌學(xué)中使用,特別是在決策分析中,它幫助確定一個(gè)能最可能達(dá)到目標(biāo)的策略。如果在實(shí)際中,決策不得不在沒有完備知識(shí)的情況下被在線采用,一個(gè)決策樹應(yīng)該平行概率模型作為最佳的選擇模型或在線選擇模型算法。決策樹的另一個(gè)使用是作為計(jì)算條件概率的描述性手段。

機(jī)器學(xué)習(xí)中,決策樹是一個(gè)預(yù)測(cè)模型;他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。樹中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象,而每個(gè)分叉路徑則代表某個(gè)可能的屬性值,而每個(gè)葉節(jié)點(diǎn)則對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值。決策樹僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨(dú)立的決策樹以處理不同輸出。 數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測(cè)。

從數(shù)據(jù)產(chǎn)生決策樹的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹學(xué)習(xí),通俗說就是決策樹。

一個(gè)決策樹包含三種類型的節(jié)點(diǎn):

? ? 1、決策節(jié)點(diǎn):通常用矩形框來表示

? ? 2、機(jī)會(huì)節(jié)點(diǎn):通常用圓圈來表示

? ? 3、終結(jié)點(diǎn):通常用三角形來表示

圖片來自網(wǎng)絡(luò)

決策樹學(xué)習(xí)也是數(shù)據(jù)挖掘中一個(gè)普通的方法。在這里,每個(gè)決策樹都表述了一種樹型結(jié)構(gòu),它由它的分支來對(duì)該類型的對(duì)象依靠屬性進(jìn)行分類。每個(gè)決策樹可以依靠對(duì)源數(shù)據(jù)庫(kù)的分割進(jìn)行數(shù)據(jù)測(cè)試。這個(gè)過程可以遞歸式的對(duì)樹進(jìn)行修剪。 當(dāng)不能再進(jìn)行分割或一個(gè)單獨(dú)的類可以被應(yīng)用于某一分支時(shí),遞歸過程就完成了。另外,隨機(jī)森林分類器將許多決策樹結(jié)合起來以提升分類的正確率。

決策樹的優(yōu)點(diǎn)

相對(duì)于其他數(shù)據(jù)挖掘算法,決策樹在以下幾個(gè)方面擁有優(yōu)勢(shì):

1、決策樹易于理解和實(shí)現(xiàn),人們?cè)谕ㄟ^解釋后都有能力去理解決策樹所表達(dá)的意義。

2、對(duì)于決策樹,數(shù)據(jù)的準(zhǔn)備往往是簡(jiǎn)單或者是不必要的,其他的技術(shù)往往要求先把數(shù)據(jù)一般化,比如去掉多余的或者空白的屬性。

3、能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性。其他的技術(shù)往往要求數(shù)據(jù)屬性的單一。

4、是一個(gè)白盒模型,如果給定一個(gè)觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易推出相應(yīng)的邏輯表達(dá)式。

5、易于通過靜態(tài)測(cè)試來對(duì)模型進(jìn)行評(píng)測(cè)。表示有可能測(cè)量該模型的可信度。

6、在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。

決策樹的缺點(diǎn)

1、對(duì)于那些各類別樣本數(shù)量不一致的數(shù)據(jù),在決策樹當(dāng)中信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征。

2、訓(xùn)練一棵最優(yōu)的決策樹是一個(gè)完全NP問題。因此, 實(shí)際應(yīng)用時(shí)決策樹的訓(xùn)練采用啟發(fā)式搜索算法例如貪心算法來達(dá)到局部最優(yōu)。這樣的算法沒辦法得到最優(yōu)的決策樹。

3、決策樹創(chuàng)建的過度復(fù)雜會(huì)導(dǎo)致無法很好的預(yù)測(cè)訓(xùn)練集之外的數(shù)據(jù)。這稱作過擬合,剪枝機(jī)制可以避免這種問題。

4、有些問題決策樹沒辦法很好的解決,例如異或問題。解決這種問題的時(shí)候,決策樹會(huì)變得過大。 要解決這種問題,只能改變問題的領(lǐng)域或者使用其他更為耗時(shí)的學(xué)習(xí)算法 (例如統(tǒng)計(jì)關(guān)系學(xué)習(xí) 或者 歸納邏輯編程).

5、對(duì)那些有類別型屬性的數(shù)據(jù), 信息增益會(huì)有一定的偏置。

決策樹的剪枝

剪枝是決策樹停止分支的方法之一,剪枝有分預(yù)先剪枝和后剪枝兩種。預(yù)先剪枝是在樹的生長(zhǎng)過程中設(shè)定一個(gè)指標(biāo),當(dāng)達(dá)到該指標(biāo)時(shí)就停止生長(zhǎng),這樣做容易產(chǎn)生“視界局限”,就是一旦停止分支,使得節(jié)點(diǎn)N成為葉節(jié)點(diǎn),就斷絕了其后繼節(jié)點(diǎn)進(jìn)行“好”的分支操作的任何可能性。不嚴(yán)格的說這會(huì)已停止的分支會(huì)誤導(dǎo)學(xué)習(xí)算法,導(dǎo)致產(chǎn)生的樹不純度降差最大的地方過分靠近根節(jié)點(diǎn)。后剪枝中樹首先要充分生長(zhǎng),直到葉節(jié)點(diǎn)都有最小的不純度值為止,因而可以克服“視界局限”。然后對(duì)所有相鄰的成對(duì)葉節(jié)點(diǎn)考慮是否消去它們,如果消去能引起令人滿意的不純度增長(zhǎng),那么執(zhí)行消去,并令它們的公共父節(jié)點(diǎn)成為新的葉節(jié)點(diǎn)。這種“合并”葉節(jié)點(diǎn)的做法和節(jié)點(diǎn)分支的過程恰好相反,經(jīng)過剪枝后葉節(jié)點(diǎn)常常會(huì)分布在很寬的層次上,樹也變得非平衡。后剪枝技術(shù)的優(yōu)點(diǎn)是克服了“視界局限”效應(yīng),而且無需保留部分樣本用于交叉驗(yàn)證,所以可以充分利用全部訓(xùn)練集的信息。但后剪枝的計(jì)算量代價(jià)比預(yù)剪枝方法大得多,特別是在大樣本集中,不過對(duì)于小樣本的情況,后剪枝方法還是優(yōu)于預(yù)剪枝方法的。


決策樹理論的運(yùn)用

借用劉潤(rùn)的5分鐘商學(xué)院中講解決策樹的一個(gè)案例,相對(duì)比較簡(jiǎn)單清晰。

作為一個(gè)女孩子,你媽媽一直很為你的終身大事?lián)?,今天又要給你介紹對(duì)象了。你隨口一問:多大了?她說:26。你問:長(zhǎng)得帥不帥?她說:挺帥的。你問:收入高不高?她說:不算很高,中等情況。你問:是《劉潤(rùn).5分鐘商學(xué)院》學(xué)員嗎?她說:是,還經(jīng)常留言呢。你說:那好的,我去見見。

找男朋友,絕對(duì)是比找工作、創(chuàng)業(yè)、投資公司,更重要的戰(zhàn)略決策。這么重要的決策,就可以用到?jīng)Q策樹(Decision Tree)這個(gè)工具。

什么叫決策樹?其實(shí)剛才那連珠炮似的問題,就有決策樹的基本邏輯在里面。

圖片來自劉潤(rùn)商學(xué)院

當(dāng)你問:“多大了?”的時(shí)候,其實(shí)就開始啟動(dòng)了“相親決策樹”的第一個(gè)決策節(jié)點(diǎn)。這個(gè)決策節(jié)點(diǎn),有兩條分支:第一,大于30歲?哦,是大叔,那就不見了;第二,三十歲以下?哦,年齡還可以。然后,你才會(huì)接著問“長(zhǎng)得帥不帥?”這又是一個(gè)決策節(jié)點(diǎn),“不帥到了丑的級(jí)別”,那就別見了。如果至少中等,那就再往下,走到第三個(gè)決策節(jié)點(diǎn)“收入高不高?”。窮?那也不能忍。然后是第四個(gè)決策節(jié)點(diǎn)“是《5商》學(xué)員嗎?”。是?太好了,小伙子很上進(jìn),那就見吧。

你通過四個(gè)決策節(jié)點(diǎn)“年齡、長(zhǎng)相、收入、上進(jìn)”,排除了“老、丑、窮還不上進(jìn)的人”,選出“30歲以下,收入中等,但是很上進(jìn),在學(xué)習(xí)《劉潤(rùn).5分鐘商學(xué)院》的帥小伙”。這套像樹一樣層層分支,不斷遞進(jìn)的決策工具,就是“決策樹”。

西蒙說:管理就是決策。而決策樹,就是一種把決策節(jié)點(diǎn)畫成樹的輔助決策工具,一種尋找最優(yōu)方案的畫圖法。

怎么樣?一點(diǎn)都不難吧。但是別急,你注意到?jīng)]有,你的“相親決策樹”有一個(gè)不太現(xiàn)實(shí)的地方,就是你媽居然能回答你的每一個(gè)問題。這讓你的決策,變得非常簡(jiǎn)單直接。現(xiàn)實(shí)情況通常不是這樣的。

現(xiàn)實(shí)情況通常是,你希望賴以決策的依據(jù),是沒有確定答案的。比如你如果問你媽:他的脾氣好嗎?你媽估計(jì)會(huì)說:哎呀,這個(gè)說不好,我只見過一面,感覺八成脾氣還不錯(cuò)吧。你再問:他未來會(huì)有錢嗎?你媽估計(jì)會(huì)說:這天知道。他那么努力,估計(jì)至少有三成概率,未來總會(huì)有錢吧?

聽完這些回答:80%可能脾氣不錯(cuò),30%可能將來會(huì)有錢,你還去不去相親?這就難決定了。這時(shí),我們就往“決策樹”中引入一個(gè)“概率”。

這種被概率化的決策樹,又叫:概率樹(Probability Tree)。

增加了“不確定性”后,應(yīng)該怎么用“決策樹”,或者“概率樹”決策呢?

假設(shè)滿意的最高分是10分,不滿意的最高分是-10分,現(xiàn)在你要做一件事情,給“脾氣”和“有錢”這兩個(gè)不確定的條件,所產(chǎn)生的四個(gè)組合,誠(chéng)實(shí)的打個(gè)分。

如果他真的脾氣好,也真的未來很有錢,你有多滿意?如果真是這樣,那是100%的滿意?。〈?0分。

如果他的脾氣雖然好,但是很不幸,因?yàn)檫\(yùn)氣問題、能力問題,最后真的還是一生窮困,你有多滿意?嗯,雖然沒錢,但好歹脾氣好。這就是命吧。如果真這樣,我的滿意度是3分。

接下來。如果不幸他的脾氣很差,最后還沒錢呢?這簡(jiǎn)直就是渣男啊,-10分!

那如果脾氣差,但最后一不小心很有錢呢?這是一個(gè)好問題。要不要為了錢忍呢?忍一輩子很難啊,我還是打-5分吧。

圖片來自劉潤(rùn)商學(xué)院

在80%好脾氣,30%會(huì)有錢的不確定下,你是見,還是不見呢?如果決定不見,你沒有得失,收益是“0”。但是如果見呢?那就有四種可能性:

1、脾氣差,但有錢的概率是:20% x 30% = 5%。對(duì)這種情況,你打了-5分。也就是這條概率分支,你的收益是:6% x (-5分) = -0.3分。

2、脾氣差,沒錢呢?概率是:20% x 70% = 14%,收益是:14% x (-10分) = -1.4分。

3、脾氣又好又有錢的概率是:80% x 30% = 24%,收益是:24% x 10分 = 2.4分。

4、脾氣好,但是沒錢的概率是:80% x 70% = 56%,收益是:56% x 3分 = 1.68分。

所以,如果你選擇了見,你的總收益是:(-0.3分) + (-1.4分) + 2.4分 + 1.68分 = 2.38分。

你決定見的總體收益是2.38分,不見的收益是0。所以,怎么樣?應(yīng)該趕緊畫個(gè)妝出門,去相親。

小結(jié):認(rèn)識(shí)決策樹

什么是決策樹?決策樹,就是一種把決策節(jié)點(diǎn)畫成樹的輔助決策工具,一種尋找最優(yōu)方案的畫圖法。

什么是概率樹?概率樹在決策樹的基礎(chǔ)上,增加了對(duì)條件發(fā)生概率的預(yù)測(cè),和對(duì)結(jié)果收益的評(píng)估,然后加權(quán)平均得到一個(gè)“期望值”,用這個(gè)期望值,作為依據(jù),輔助決策。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容