《西瓜書筆記》(1)機(jī)器學(xué)習(xí)概述

《西瓜書》指的是周志華老師的《機(jī)器學(xué)習(xí)》著作

什么是機(jī)器學(xué)習(xí)?

機(jī)器學(xué)習(xí)致力于通過計(jì)算的手段,利用經(jīng)驗(yàn)來改善系統(tǒng)自身性能的學(xué)科

經(jīng)驗(yàn)通常是以“數(shù)據(jù)”的形式體現(xiàn),或者上一次訓(xùn)練的錯(cuò)誤

機(jī)器學(xué)習(xí)的本質(zhì)任務(wù)是預(yù)測(cè)。

學(xué)習(xí)任務(wù)的分類:

若我們預(yù)測(cè)的是離散值,如西瓜是好瓜還是壞瓜,此類學(xué)習(xí)任務(wù)是分類
若我們預(yù)測(cè)的是連續(xù)值,如西瓜的成熟度,此類學(xué)習(xí)任務(wù)是回歸
若西瓜本身沒有任何標(biāo)簽(好的,壞的,淺色的,深色的等),我們根據(jù)潛在的概念劃分,此類學(xué)習(xí)任務(wù)是聚類

根據(jù)訓(xùn)練數(shù)據(jù)是否有標(biāo)簽,可以將學(xué)習(xí)任務(wù)大致分為監(jiān)督學(xué)習(xí)(分類,回歸)無監(jiān)督學(xué)習(xí)(聚類)

機(jī)器學(xué)習(xí)實(shí)際上是“歸納學(xué)習(xí)”

歸納和演繹是科學(xué)推理的兩大基本手段
歸納:特殊到一般——泛化過程
演繹:一般到特殊——特化過程

機(jī)器學(xué)習(xí)這種“從樣例中學(xué)習(xí)”的過程是屬于歸納學(xué)習(xí)

  • 問題:歸納學(xué)習(xí)的結(jié)果唯一嗎?
    答案是不唯一的。可能存在很多種假設(shè)都會(huì)與訓(xùn)練集的樣本完全符合
    那選擇哪一個(gè)呢?這就看歸納偏好

歸納偏好

任何一個(gè)有效的機(jī)器學(xué)習(xí)算法都會(huì)有其歸納偏好,如果接受訓(xùn)練集上兩個(gè)等效的假設(shè),那么在測(cè)試集上就無法產(chǎn)生確定的結(jié)果。

歸納偏好的本質(zhì):確定那個(gè)模型更好

  • 問題:如何選擇那個(gè)模型更好呢?
    哪個(gè)更好其實(shí)是一個(gè)“價(jià)值觀”的問題,“奧卡姆剃刀”是一種常用的基本原則:若多個(gè)假設(shè)與觀察一致,選擇最簡(jiǎn)單的那個(gè)
    如我們認(rèn)為“更平滑”為“更簡(jiǎn)單”,如下圖,那我們應(yīng)該選擇A(實(shí)線)的模型,而不是B(虛線)


    兩個(gè)算法的比較
  • 問題:剛剛根據(jù)“奧卡姆剃刀”原則選擇A模型,但A模型一定就比B模型好嘛?萬一出現(xiàn)下圖的情況呢?

    加入測(cè)試數(shù)據(jù)——白色點(diǎn)為測(cè)試數(shù)據(jù)

    此時(shí)NFL定理(No Free Lunch Theorem :天下沒有免費(fèi)的午餐)給了我們啟發(fā):如果所有“問題”出現(xiàn)的機(jī)會(huì)相等、或所有問題同等重要(前提),學(xué)習(xí)算法的期望性能相等(結(jié)果)。
    也就是說如果未來所有事情可能出現(xiàn)的所有情況都是等可能的,那預(yù)測(cè)就沒有任何意義了

  • NFL定理給我們的啟發(fā):

    • 脫離具體問題,空泛談?wù)摗笆裁磳W(xué)習(xí)算法更好”毫無意義
    • 算法的優(yōu)劣是相對(duì)的
    • 學(xué)習(xí)算法的歸納偏好與實(shí)際問題匹配是解決問題的核心

NFL定理的推導(dǎo)

假設(shè):


樣本空間
樣本空間
基于訓(xùn)練數(shù)據(jù)X產(chǎn)生假設(shè)h的概率
基于訓(xùn)練數(shù)據(jù)X產(chǎn)生假設(shè)h的概率

則在訓(xùn)練集之外的所有樣本上的誤差為


訓(xùn)練集之外的所有樣本上的誤差

對(duì)于二分類問題,設(shè)f為真正的分類函數(shù),可能f有多個(gè)。假設(shè)其均勻分布,那么對(duì)于某個(gè)算法a,它在訓(xùn)練集以外的所有樣本的誤差就可以表示成:


訓(xùn)練集以外的所有樣本的誤差

由乘法分配率可以化為:
乘法分配率化簡(jiǎn)后

由于f均勻分布,則有一半的f對(duì)x的預(yù)測(cè)與h(x)不一致·,上式中最后一項(xiàng)可以被化簡(jiǎn):


一半的f對(duì)x的預(yù)測(cè)與h(x)不一致

又由全概率公式,或者說概率的可列可加性,下面這一項(xiàng)(上式中間那一項(xiàng))其實(shí)等于1


概率的可列可加性

如此一來,a就在公式中消失了,于是最后的結(jié)果就是:


最后的結(jié)果

所以說無論是什么算法,它在訓(xùn)練集以外所有樣本上的誤差都是上式表示的結(jié)果。
這就是NFL定理的推導(dǎo)。

機(jī)器學(xué)習(xí)的發(fā)展

二十世紀(jì)五十年代中后期,基于神經(jīng)網(wǎng)絡(luò)的“連接主義”出現(xiàn)

六七十年代,基于邏輯表示的“符號(hào)主義”出現(xiàn)

二十世紀(jì)八十年代,“從樣例中學(xué)習(xí)”的一大主流是符號(hào)學(xué)習(xí)主義,其中包括決策樹和基于邏輯的學(xué)習(xí)

二十世紀(jì)九十年代“從樣例中學(xué)習(xí)”的另一主流技術(shù)——基于神經(jīng)網(wǎng)絡(luò)的連接主義通過解決NP難題(“流動(dòng)推銷員”)又一次引起人們的關(guān)注

二十世紀(jì)九十年代中期,“統(tǒng)計(jì)學(xué)習(xí)”閃亮登場(chǎng)并迅速占據(jù)主流舞臺(tái),代表技術(shù)有支持向量機(jī)(SVM)

二十一世紀(jì)初,連接主義學(xué)習(xí)又卷土重來,掀起“深度學(xué)習(xí)”浪潮

···

知道大家可能對(duì)歷史不太感興趣,上面也是只列舉了一下比較重大的突破節(jié)點(diǎn),從中可以看出不同流派的螺旋式發(fā)展構(gòu)成了我們現(xiàn)在的機(jī)器學(xué)習(xí)的學(xué)科領(lǐng)域。

參考
http://www.itdecent.cn/p/cbe8e0fe7b2c

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容