原文鏈接:https://blog.knoldus.com/2017/08/07/introduction-to-machine-learning-2/)
機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)中的子領(lǐng)域,目的提供機(jī)器在未被編程控制的情況下具有自主學(xué)習(xí)的能力。(Arthur Samuel, 1959)
目前機(jī)器學(xué)習(xí)是科技領(lǐng)域很火爆的詞,尤其大家認(rèn)為機(jī)器人會(huì)在未來統(tǒng)治世界或者搶走我們的飯碗,這其實(shí)是覺得讓人覺得充滿挑戰(zhàn),感到迷惑且有著一絲恐懼的。不管我們是否承認(rèn),日常生活中智能物品可以幫助我們解決很多問題。
對(duì)于機(jī)器學(xué)習(xí)或者終結(jié)者中被我們稱為天網(wǎng)的東西,一些人們是擔(dān)心這些會(huì)變成現(xiàn)實(shí),同時(shí)另外一群人對(duì)于AI紀(jì)元的新機(jī)會(huì)新挑戰(zhàn)充滿了興趣。比如谷歌的無人駕駛,F(xiàn)B的人臉識(shí)別、Amazon的推薦系統(tǒng)、Siri或者Cortana的語音識(shí)別,Paypal的欺詐檢測(cè)等。這里作者從決策樹出發(fā)簡單的介紹機(jī)器學(xué)習(xí)。

什么是決策樹?
簡而言之,決策樹可以理解是,每個(gè)非葉子節(jié)點(diǎn)代表很多種選擇,每個(gè)葉子節(jié)點(diǎn)代表具體的選擇結(jié)果。
因?yàn)轭A(yù)先定義了目標(biāo)變量,所以決策樹是監(jiān)督學(xué)習(xí)算法,該算法是可適應(yīng)于類別型和連續(xù)型輸入輸出的分類模型,決策樹是歸納推理中常用且有效的方法。決策樹從已有的樣本中學(xué)習(xí)和訓(xùn)練然后預(yù)測(cè)新樣本。


決策樹算法(ID3)
ID3是RossQuinlan提出的基于迭代的二叉決策樹,它從固定樣本中訓(xùn)練出決策樹然后引用到預(yù)測(cè)中。聽起來很容易嗎?但是如何選擇決策樹的節(jié)點(diǎn)呢?現(xiàn)在下面我們提出一些選擇節(jié)點(diǎn)的方法。

熵(Entropy)
在信息論中,熵是用來衡量不確定信息的,它給出了數(shù)據(jù)集中的無序度。給定一個(gè)包含正負(fù)樣本的集合S,熵的計(jì)算公式如下圖,其中p+和p-分別代表正負(fù)樣本。

按照這個(gè)公式計(jì)算如下這種情況
如果全是正樣本或者全是負(fù)樣本,S的熵應(yīng)該是0。
如果一半正樣本一半負(fù)樣本,那么S的熵是1。
所以一個(gè)集合的熵應(yīng)該是[0,1]的。

信息增益(Information Gain)
IG是衡量熵的變化幅度,是挑選決策樹的選擇節(jié)點(diǎn)的策略,為了使最后的決策樹深度最小,必須選擇哪種使熵減少幅度最大的變量作為選擇節(jié)點(diǎn)。

其中
S是變量A的所有可能值的樣本集合
Sv是所有值為v的樣本子集合
|Sv|是值為v的樣本個(gè)數(shù)
|S|是所有樣本個(gè)數(shù)