機(jī)器學(xué)習(xí)-決策樹

原文鏈接:https://blog.knoldus.com/2017/08/07/introduction-to-machine-learning-2/)

機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)中的子領(lǐng)域,目的提供機(jī)器在未被編程控制的情況下具有自主學(xué)習(xí)的能力。(Arthur Samuel, 1959)

目前機(jī)器學(xué)習(xí)是科技領(lǐng)域很火爆的詞,尤其大家認(rèn)為機(jī)器人會(huì)在未來統(tǒng)治世界或者搶走我們的飯碗,這其實(shí)是覺得讓人覺得充滿挑戰(zhàn),感到迷惑且有著一絲恐懼的。不管我們是否承認(rèn),日常生活中智能物品可以幫助我們解決很多問題。

對(duì)于機(jī)器學(xué)習(xí)或者終結(jié)者中被我們稱為天網(wǎng)的東西,一些人們是擔(dān)心這些會(huì)變成現(xiàn)實(shí),同時(shí)另外一群人對(duì)于AI紀(jì)元的新機(jī)會(huì)新挑戰(zhàn)充滿了興趣。比如谷歌的無人駕駛,F(xiàn)B的人臉識(shí)別、Amazon的推薦系統(tǒng)、Siri或者Cortana的語音識(shí)別,Paypal的欺詐檢測(cè)等。這里作者從決策樹出發(fā)簡單的介紹機(jī)器學(xué)習(xí)。

機(jī)器學(xué)習(xí)對(duì)話圖

什么是決策樹?

簡而言之,決策樹可以理解是,每個(gè)非葉子節(jié)點(diǎn)代表很多種選擇,每個(gè)葉子節(jié)點(diǎn)代表具體的選擇結(jié)果。

因?yàn)轭A(yù)先定義了目標(biāo)變量,所以決策樹是監(jiān)督學(xué)習(xí)算法,該算法是可適應(yīng)于類別型和連續(xù)型輸入輸出的分類模型,決策樹是歸納推理中常用且有效的方法。決策樹從已有的樣本中學(xué)習(xí)和訓(xùn)練然后預(yù)測(cè)新樣本。

機(jī)器學(xué)習(xí)的流程



決策樹的樹狀示意圖

決策樹算法(ID3)

ID3是RossQuinlan提出的基于迭代的二叉決策樹,它從固定樣本中訓(xùn)練出決策樹然后引用到預(yù)測(cè)中。聽起來很容易嗎?但是如何選擇決策樹的節(jié)點(diǎn)呢?現(xiàn)在下面我們提出一些選擇節(jié)點(diǎn)的方法。


決策樹的形象

熵(Entropy)

在信息論中,熵是用來衡量不確定信息的,它給出了數(shù)據(jù)集中的無序度。給定一個(gè)包含正負(fù)樣本的集合S,熵的計(jì)算公式如下圖,其中p+和p-分別代表正負(fù)樣本。


熵計(jì)算公式


按照這個(gè)公式計(jì)算如下這種情況

如果全是正樣本或者全是負(fù)樣本,S的熵應(yīng)該是0。

如果一半正樣本一半負(fù)樣本,那么S的熵是1。

所以一個(gè)集合的熵應(yīng)該是[0,1]的。

熵的曲線圖


信息增益(Information Gain)

IG是衡量熵的變化幅度,是挑選決策樹的選擇節(jié)點(diǎn)的策略,為了使最后的決策樹深度最小,必須選擇哪種使熵減少幅度最大的變量作為選擇節(jié)點(diǎn)。

信息增益計(jì)算公式

其中

S是變量A的所有可能值的樣本集合

Sv是所有值為v的樣本子集合

|Sv|是值為v的樣本個(gè)數(shù)

|S|是所有樣本個(gè)數(shù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容