亚洲精品在线播放视频,人成日韩亚洲欧美精品

1. 章節(jié)主要內(nèi)容

這一章是緒論，顧名思義就是對(duì)本書的總體介紹，并引出機(jī)器學(xué)習(xí)的概念。根據(jù)我們定下的閱讀目的，我們?cè)陂喿x過程中，會(huì)更專注基礎(chǔ)知識(shí)、整體認(rèn)識(shí)以及技術(shù)脈絡(luò)方向的內(nèi)容，其它的部分只是簡單理解，并不會(huì)記錄下來。

根據(jù)我們的閱讀重點(diǎn)，我將本章內(nèi)容整理成如下結(jié)構(gòu)：

1）首先解答一個(gè)大家都關(guān)系的基礎(chǔ)問題：什么是機(jī)器學(xué)習(xí)？

為了解答這個(gè)問題，我們先來看看西瓜書中那個(gè)著名的例子：

傍晚小街路面上沁出微雨后的濕潤，和煦的細(xì)風(fēng)吹來，抬頭看看天邊的晚霞，嗯，明天又是一個(gè)好天氣。走到水果攤旁，挑了個(gè)根蒂蜷縮、敲起來聲音濁響的青綠西瓜，一邊滿心期待著皮薄肉厚瓤甜的爽落感，一邊愉快地想著，這學(xué)期狠下了功夫，基礎(chǔ)概念弄的清清楚楚，算法作業(yè)也是信手拈來，這門課成績一定差不了

上面這段話簡簡單單，初看沒有任何值得驚訝或好奇的內(nèi)容，可如果我們深入的分析一下，會(huì)發(fā)現(xiàn)這段話描述了我們?nèi)粘Ｉ钪懈鞣N隨處可見的認(rèn)知過程，那就是我們會(huì)根據(jù)各自經(jīng)驗(yàn)去對(duì)事物進(jìn)行預(yù)判。比如，和風(fēng)和晚霞為什么就可以推斷出明天是好天氣呢？根蒂蜷縮、濁響聲音、青綠色的西瓜為什么是個(gè)好西瓜呢？基礎(chǔ)概念清楚、算法作業(yè)熟練為什么就會(huì)考出好成績呢？

這些預(yù)判都是我們的大腦對(duì)日常生活中經(jīng)驗(yàn)學(xué)習(xí)的結(jié)果。就拿買西瓜為例吧，因?yàn)榻?jīng)過多次的買西瓜經(jīng)驗(yàn)，大腦通過學(xué)習(xí)，總結(jié)出一套瓜的外在特征（色澤、根蒂和敲響）和內(nèi)在口味（好瓜、壞瓜）之間的關(guān)系模型，而這套關(guān)系模型可以被用在未來任意一次買瓜行動(dòng)中來給我們提供相應(yīng)的判斷。

機(jī)器學(xué)習(xí)的本質(zhì)說到底就和上邊這個(gè)例子一樣，只不過在計(jì)算機(jī)的世界，我們所說的經(jīng)驗(yàn)就是一條條的數(shù)據(jù)罷了。機(jī)器在數(shù)據(jù)上進(jìn)行學(xué)習(xí)，并總結(jié)出一套通用的規(guī)律。

那么關(guān)于“什么是機(jī)器學(xué)習(xí)”這個(gè)問題的答案，我們可以總結(jié)為：機(jī)器學(xué)習(xí)是致力于研究如何通過計(jì)算的手段，利用經(jīng)驗(yàn)來改善系統(tǒng)自身性能的學(xué)科。其表現(xiàn)為對(duì)經(jīng)驗(yàn)（數(shù)據(jù)）和結(jié)論（預(yù)測(cè)）之間關(guān)系的總結(jié)和歸納。

2）在理解了什么是機(jī)器學(xué)習(xí)了之后，我們想要更進(jìn)一步的了解的是：機(jī)器學(xué)習(xí)算法到底是如何學(xué)習(xí)的？

在解答這個(gè)問題前，我們先了解一下科學(xué)推理的兩大基本手段：歸納（induction）與演繹（deduction）。前者是從特殊到一般的“泛化”（generalization）過程，即從具體事實(shí)歸結(jié)出一般性規(guī)律；后者是從一般到特殊的“特化”（specialization）過程，即從基礎(chǔ)性原理推演出具體狀況。

機(jī)器學(xué)習(xí)的過程其實(shí)就是上邊的歸納過程，還是以挑西瓜為例

機(jī)器學(xué)習(xí)的過程就是從具體數(shù)據(jù)集中“泛化”的過程，即通過對(duì)訓(xùn)練集中瓜的學(xué)習(xí)以獲得對(duì)沒見過的瓜進(jìn)行判斷的能力。我們可以把學(xué)習(xí)過程看作一個(gè)在所有假設(shè)（hypothesis）組成的空間中進(jìn)行搜索的過程，搜索目標(biāo)是找到與訓(xùn)練集“匹配”（fit）的假設(shè)，即能夠?qū)⒂?xùn)練集中的瓜判斷正確的假設(shè)。

例如在表1.1的訓(xùn)練集上，我們可以找到匹配訓(xùn)練樣本的假設(shè)列表，展示如下：

（色澤＝＊，根蒂＝蜷縮，敲聲＝＊） ? ? -> 好瓜 ? （1）

（色澤＝＊，根蒂＝＊，敲聲＝濁響）? ? ?-> 好瓜 ? （2）

（色澤＝＊，根蒂＝蜷縮，敲聲＝濁響） -> 好瓜 ? （3）

3）從上文中我們可以得知在同一個(gè)訓(xùn)練集上進(jìn)行匹配，有可能會(huì)匹配出多個(gè)假設(shè)，那么機(jī)器學(xué)習(xí)的具體過程中算法的選擇依據(jù)是什么呢？

在現(xiàn)實(shí)問題中我們常面臨很大的假設(shè)空間，可學(xué)習(xí)過程是基于有限樣本訓(xùn)練集進(jìn)行的，因此，可能有多個(gè)假設(shè)與訓(xùn)練集一致，即存在著一個(gè)與訓(xùn)練集一致的“假設(shè)集合”，我們稱之為“版本空間”，上邊的假設(shè)（1）（2）（3）即在西瓜數(shù)據(jù)集上“泛化”出的假設(shè)空間。

那么當(dāng)我們遇到一個(gè)新收來的瓜（色澤＝青綠，根蒂＝蜷縮，敲聲＝沉悶），那么我們?cè)撨x用哪個(gè)假設(shè)來進(jìn)行判斷呢？如果使用假設(shè)（1）時(shí)，這是一個(gè)好瓜，可如果使用假設(shè)（2）（3）時(shí)，這就是一個(gè)壞瓜了。

這時(shí)候的選擇偏好被稱為“歸納偏好”，而任何一個(gè)有效的機(jī)器學(xué)習(xí)算法必有其歸納偏好，否則它必然被假設(shè)空間中等效的假設(shè)所迷惑，而無法產(chǎn)生確定的學(xué)習(xí)結(jié)果。

一種常用的、自然科學(xué)研究中最基本的“正確的”偏好原則是“奧卡姆剃刀”（Occam's razor）原則

奧卡姆剃刀原則：若有多個(gè)假設(shè)與觀察一致，則選最簡單的那個(gè)

事實(shí)上，歸納偏好對(duì)應(yīng)了學(xué)習(xí)算法本身所做出的關(guān)于“什么樣的模型更好”的假設(shè)。在具體的現(xiàn)實(shí)問題中，算法的歸納偏好是否與問題本身匹配，大多數(shù)時(shí)候直接決定了算法能否取得好的性能。

舉個(gè)例子，在下邊回歸學(xué)習(xí)的1.3圖示中，每個(gè)訓(xùn)練樣本是圖中的一個(gè)點(diǎn)，要習(xí)得一個(gè)和訓(xùn)練集一致的模型，相當(dāng)于找到一條穿過所有訓(xùn)練樣本點(diǎn)的曲線。顯然，這樣的曲線有很多條。如果使用奧卡姆剃刀偏好原則的話，更為平滑的曲線A會(huì)比曲線B要好。

可實(shí)際情況，A曲線卻并不一定比B曲線好，因?yàn)橛脕碛?xùn)練的樣本只是全量數(shù)據(jù)的一部分，真正的數(shù)據(jù)到底是更貼近曲線A還是曲線B是無法得知的。如圖1.4所示，真實(shí)的數(shù)據(jù)是兩種情況都有可能出現(xiàn)。換言之，對(duì)于一個(gè)學(xué)習(xí)算法a，若它在某些問題上比學(xué)習(xí)算法b好，則必然存在另一些問題，在那里b比a好。

Wolpert在1996年提出的“沒有免費(fèi)的午餐”定理（No Free Lunch Theorem，簡稱NFL定理）證明了無論學(xué)習(xí)算法a多聰明、學(xué)習(xí)算法b多笨拙，它們的期望性能都相同。

可NFL定理有一個(gè)重要前提：所有“問題”出現(xiàn)的機(jī)會(huì)相同、或所有問題同等重要。但實(shí)際情況并不是這樣的，很多時(shí)候，我們只關(guān)注自己正在試圖解決的問題。比如，要找到快速從A地到B地的算法，如果我們考慮A地是南京鼓樓、B地是南京新街口，那么“騎自行車”是很好的解決方案；但是這個(gè)方案對(duì)A地是南京鼓樓、B地是北京新街口的情形顯然很糟糕，但我們對(duì)此并不關(guān)心。

所以，NFL定理最重要的寓意，是讓我們清楚意識(shí)到，脫離具體問題，空泛地談?wù)摗笆裁磳W(xué)習(xí)算法更好”毫無意義，因?yàn)槿艨紤]所有潛在的問題，則所有的算法都一樣好。針對(duì)具體問題選擇具體的算法和歸納偏好才是正確的做法。

2.基礎(chǔ)概念

1）基本術(shù)語

為了便于理解，我在這里將場(chǎng)景定為上文中提到的挑西瓜的例子

數(shù)據(jù)集（data set）：記錄的集合（西瓜的描述集合）

“示例”（instance）或“樣本”（sample）：數(shù)據(jù)集中的一條記錄，是關(guān)于一個(gè)事件或?qū)ο蟮拿枋觥＃總€(gè)示例代表對(duì)一個(gè)西瓜的描述）

“屬性”（attribute）或“特征”（feature）：反映對(duì)象某方面的表現(xiàn)或性質(zhì)的事項(xiàng)。（根蒂、敲聲、色澤）

“屬性值”（attribute value）：屬性的具體取值。（例如色澤的取值可以為：青綠、烏黑）

“屬性空間”（attribute space）、“樣本空間”（sample space）或“輸入空間”：屬性張成的空間。（根蒂、敲聲、色澤張成一個(gè)關(guān)于西瓜的三維空間）

“特征向量”（feature vector）：屬性空間中的每一個(gè)，向量點(diǎn)代表一個(gè)具體的對(duì)象。這個(gè)向量點(diǎn)就是特征向量

標(biāo)簽（label）：我們建立的預(yù)測(cè)。（是不是“好瓜”）

分類（classification）：預(yù)測(cè)的是離散值。（好瓜、壞瓜）

回歸（regression）：預(yù)測(cè)的是連續(xù)值。（西瓜成熟度：0.95、0.37）

聚類（clustering）：對(duì)數(shù)據(jù)集進(jìn)行分組，分組結(jié)果預(yù)先不知。

監(jiān)督學(xué)習(xí)（supervised learning）：有標(biāo)記信息的學(xué)習(xí)任務(wù)，代表是分類和回歸。

非監(jiān)督學(xué)習(xí)（unsupervised learning）：沒有標(biāo)記信息的學(xué)習(xí)任務(wù)，代表是聚類。

2）奧卡姆剃刀原則

奧卡姆剃刀原則是在產(chǎn)品設(shè)計(jì)、行為偏好、流程設(shè)計(jì)等各種各樣領(lǐng)域中都反復(fù)出現(xiàn)的概念，（據(jù)我理解）其本質(zhì)意思是簡單能表示的東西，就不要做得復(fù)雜。該原則在本章節(jié)中被使用在了偏好選擇上，即“若有多個(gè)假設(shè)與觀察一致，則選最簡單的那個(gè)”

3. 總結(jié)

通過本章學(xué)習(xí)，我們可以得到：

1）如果說計(jì)算機(jī)科學(xué)是研究關(guān)于“算法”的學(xué)問，那么類似的，可以說機(jī)器學(xué)習(xí)是研究關(guān)于“學(xué)習(xí)算法”的學(xué)問。

2）機(jī)器學(xué)習(xí)的本質(zhì)是構(gòu)建起輸入和輸出之間的關(guān)系模型，并利用這個(gè)關(guān)系模型來解決未知的情況。

3）機(jī)器學(xué)習(xí)的學(xué)習(xí)過程是對(duì)數(shù)據(jù)集的泛化過程

4）并沒有絕對(duì)好的機(jī)器學(xué)習(xí)算法，脫離具體問題，空泛地談?wù)摗笆裁磳W(xué)習(xí)算法更好”毫無意義，因?yàn)槿艨紤]所有潛在的問題，則所有的算法都一樣好。

5）針對(duì)具體問題選擇具體的算法和歸納偏好才是正確的做法。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一起來讀西瓜書：第一章緒論

一起來讀西瓜書：第一章緒論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

一起來讀西瓜書：第一章 緒論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一起來讀西瓜書：第一章緒論