《西瓜書》指的是周志華老師的《機(jī)器學(xué)習(xí)》著作
什么是機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)致力于通過計(jì)算的手段,利用經(jīng)驗(yàn)來改善系統(tǒng)自身性能的學(xué)科
經(jīng)驗(yàn)通常是以“數(shù)據(jù)”的形式體現(xiàn),或者上一次訓(xùn)練的錯(cuò)誤
機(jī)器學(xué)習(xí)的本質(zhì)任務(wù)是預(yù)測(cè)。
學(xué)習(xí)任務(wù)的分類:
若我們預(yù)測(cè)的是離散值,如西瓜是好瓜還是壞瓜,此類學(xué)習(xí)任務(wù)是分類
若我們預(yù)測(cè)的是連續(xù)值,如西瓜的成熟度,此類學(xué)習(xí)任務(wù)是回歸
若西瓜本身沒有任何標(biāo)簽(好的,壞的,淺色的,深色的等),我們根據(jù)潛在的概念劃分,此類學(xué)習(xí)任務(wù)是聚類
根據(jù)訓(xùn)練數(shù)據(jù)是否有標(biāo)簽,可以將學(xué)習(xí)任務(wù)大致分為監(jiān)督學(xué)習(xí)(分類,回歸)和無監(jiān)督學(xué)習(xí)(聚類)
機(jī)器學(xué)習(xí)實(shí)際上是“歸納學(xué)習(xí)”
歸納和演繹是科學(xué)推理的兩大基本手段
歸納:特殊到一般——泛化過程
演繹:一般到特殊——特化過程
機(jī)器學(xué)習(xí)這種“從樣例中學(xué)習(xí)”的過程是屬于歸納學(xué)習(xí)
- 問題:歸納學(xué)習(xí)的結(jié)果唯一嗎?
答案是不唯一的。可能存在很多種假設(shè)都會(huì)與訓(xùn)練集的樣本完全符合
那選擇哪一個(gè)呢?這就看歸納偏好了
歸納偏好
任何一個(gè)有效的機(jī)器學(xué)習(xí)算法都會(huì)有其歸納偏好,如果接受訓(xùn)練集上兩個(gè)等效的假設(shè),那么在測(cè)試集上就無法產(chǎn)生確定的結(jié)果。
歸納偏好的本質(zhì):確定那個(gè)模型更好
-
問題:如何選擇那個(gè)模型更好呢?
哪個(gè)更好其實(shí)是一個(gè)“價(jià)值觀”的問題,“奧卡姆剃刀”是一種常用的基本原則:若多個(gè)假設(shè)與觀察一致,選擇最簡(jiǎn)單的那個(gè)
如我們認(rèn)為“更平滑”為“更簡(jiǎn)單”,如下圖,那我們應(yīng)該選擇A(實(shí)線)的模型,而不是B(虛線)
兩個(gè)算法的比較
-
問題:剛剛根據(jù)“奧卡姆剃刀”原則選擇A模型,但A模型一定就比B模型好嘛?萬一出現(xiàn)下圖的情況呢?
加入測(cè)試數(shù)據(jù)——白色點(diǎn)為測(cè)試數(shù)據(jù)
此時(shí)NFL定理(No Free Lunch Theorem :天下沒有免費(fèi)的午餐)給了我們啟發(fā):如果所有“問題”出現(xiàn)的機(jī)會(huì)相等、或所有問題同等重要(前提),學(xué)習(xí)算法的期望性能相等(結(jié)果)。
也就是說如果未來所有事情可能出現(xiàn)的所有情況都是等可能的,那預(yù)測(cè)就沒有任何意義了 -
NFL定理給我們的啟發(fā):
- 脫離具體問題,空泛談?wù)摗笆裁磳W(xué)習(xí)算法更好”毫無意義
- 算法的優(yōu)劣是相對(duì)的
- 學(xué)習(xí)算法的歸納偏好與實(shí)際問題匹配是解決問題的核心
NFL定理的推導(dǎo)
假設(shè):
則在訓(xùn)練集之外的所有樣本上的誤差為

對(duì)于二分類問題,設(shè)f為真正的分類函數(shù),可能f有多個(gè)。假設(shè)其均勻分布,那么對(duì)于某個(gè)算法a,它在訓(xùn)練集以外的所有樣本的誤差就可以表示成:

由乘法分配率可以化為:

由于f均勻分布,則有一半的f對(duì)x的預(yù)測(cè)與h(x)不一致·,上式中最后一項(xiàng)可以被化簡(jiǎn):

又由全概率公式,或者說概率的可列可加性,下面這一項(xiàng)(上式中間那一項(xiàng))其實(shí)等于1

如此一來,a就在公式中消失了,于是最后的結(jié)果就是:

所以說無論是什么算法,它在訓(xùn)練集以外所有樣本上的誤差都是上式表示的結(jié)果。
這就是NFL定理的推導(dǎo)。
機(jī)器學(xué)習(xí)的發(fā)展
二十世紀(jì)五十年代中后期,基于神經(jīng)網(wǎng)絡(luò)的“連接主義”出現(xiàn)
六七十年代,基于邏輯表示的“符號(hào)主義”出現(xiàn)
二十世紀(jì)八十年代,“從樣例中學(xué)習(xí)”的一大主流是符號(hào)學(xué)習(xí)主義,其中包括決策樹和基于邏輯的學(xué)習(xí)
二十世紀(jì)九十年代“從樣例中學(xué)習(xí)”的另一主流技術(shù)——基于神經(jīng)網(wǎng)絡(luò)的連接主義通過解決NP難題(“流動(dòng)推銷員”)又一次引起人們的關(guān)注
二十世紀(jì)九十年代中期,“統(tǒng)計(jì)學(xué)習(xí)”閃亮登場(chǎng)并迅速占據(jù)主流舞臺(tái),代表技術(shù)有支持向量機(jī)(SVM)
二十一世紀(jì)初,連接主義學(xué)習(xí)又卷土重來,掀起“深度學(xué)習(xí)”浪潮
···
知道大家可能對(duì)歷史不太感興趣,上面也是只列舉了一下比較重大的突破節(jié)點(diǎn),從中可以看出不同流派的螺旋式發(fā)展構(gòu)成了我們現(xiàn)在的機(jī)器學(xué)習(xí)的學(xué)科領(lǐng)域。

