1.1 表1.1中若只包含編號為1和4的兩個樣例，試給出相應(yīng)的版本空間。

題目詳細描述：表格如下所示

編號	色澤	根蒂	敲聲	好瓜
1	青綠	蜷縮	濁響	是
4	烏黑	稍蜷	沉悶	否

思路：
何為版本空間？

版本空間(version space)是概念學(xué)習(xí)中與已知數(shù)據(jù)集一致的所有假設(shè)(hypothesis)的子集集合。版本空間學(xué)習(xí)是機器學(xué)習(xí)的邏輯方法，特別是二分類（binary classification）。
版本空間學(xué)習(xí)算法搜索預(yù)定空間的假設(shè)，被視為一組邏輯語句。

對于二維空間中的“矩形”假設(shè)（下圖），綠色加號代表正類樣本，紅色小圈代表負類樣本。 GB 是最大泛化正假設(shè)邊界(maximally General positive hypothesis Boundary), SB 是最大精確正假設(shè)邊界(maximally Specific positive hypothesis Boundary). GB與SB所圍成的區(qū)域中的矩形即為版本空間中的假設(shè)，也即GB與SB圍成的區(qū)域就是版本空間。

版本空間圖示

+解答：根據(jù)緒論中的表示方法，根據(jù)編號1和4的兩個樣例可以得到以下7種不同的版本空間

題1.1版本空間圖示

1.2 與使用單個合取式來進行假設(shè)表示相比，使用“析合范式”將使得假設(shè)空間具有更強的表示能力。

例如

好瓜?

（（色澤=*） $\wedge$ （根蒂=蜷縮） $\wedge$ （敲聲=*） $\bigvee$ （（色澤=烏黑） $\wedge$ （根蒂=*） $\wedge$ （敲聲=沉悶））

我們吧“（色澤=青綠） $\wedge$ （根蒂=蜷縮） $\wedge$ 敲聲=清脆）”以及“（（色澤=烏黑） $\wedge$ （根蒂=硬挺） $\wedge$ （敲聲=沉悶））”都分類為“好瓜”。

若使用最多包含k個合取式的析合范式來表達表1.1西瓜分類問題的假設(shè)空間，試估算共有多少種可能的假設(shè)。

題目詳細描述：完整表1如下

編號	色澤	根蒂	敲聲	好瓜
1	青綠	蜷縮	濁響	是
2	烏黑	蜷縮	濁響	是
3	青綠	硬挺	清脆	否
4	烏黑	稍蜷	沉悶	否

+解答：

假設(shè)一個瓜的好或不好，由三個屬性確定。分別是色澤、根蒂、敲聲。
其中，色澤有青綠、烏黑，2種取值，根蒂有蜷縮、稍蜷、硬挺3種取值，敲聲有濁響、清脆、沉悶3種取值。
那么假設(shè)空間由形如 “(色澤=？) ∧ (根蒂=？) ∧ (敲聲=？)” 的所有假設(shè)組成。
除了考慮屬性色澤、根蒂、敲聲分別有2 、3、3種可能取值，還要考慮到一種屬性可能無論取什么值都合適（用通配符*表示），另外有一種情況就是好瓜這個概念根本不成立（用?表示），則假設(shè)空間大小為（2 + 1）×（3 + 1）×（3 + 1）+ 1 = 49 。

因為最多包含k個合取式，因此使用0，1，2...,k個合取式表示假設(shè)空間均符合要求
故可能的假設(shè)一共有 $\sum_{n=0}^k$ $C_{49}^n$

根據(jù)二項式定理

二項式定理

令x=1，可得 $2^k$ = $\sum_{n=0}^k$ $C_{k}^n$ ，無法化簡。
網(wǎng)上大多數(shù)答案均為 $2^{49}$ ，該答案當且僅當k只等于49時，能夠得到

1.3 若數(shù)據(jù)包含噪聲，則假設(shè)空間中有可能不存在與所有訓(xùn)練樣本，都一致的假設(shè)。在此情形下，試設(shè)計一種歸納偏好用于假設(shè)選擇。

噪音數(shù)據(jù)：是指數(shù)據(jù)中存在錯誤或異常的數(shù)據(jù)，即無用數(shù)據(jù)
歸納偏好: 對應(yīng)了學(xué)習(xí)算法本身所做出的關(guān)于“什么樣的模型更好”的假設(shè)，在具體的現(xiàn)實問題中，假設(shè)是否成立，即算法的歸納偏好是否與問題本身的匹配，大多數(shù)直接決定了算法能否取得好的性能。

解答：由于含有噪聲，故可對樣本空間放寬約束。對于那些只與極少數(shù)樣本不一致卻與極大多數(shù)樣本一致的假設(shè)，仍將其保留在版本空間中。（即當該假設(shè)的的樣本準確率足夠大時，也認為該假設(shè)有效）

1.4 本章1.4節(jié)在論述“沒有免費的午餐”定理時，默認使用了“分類錯誤率”作為性能度量來對分類器進行評估。若換用其他性能度量 $\ell$ ,試證明沒有免費的午餐”定理仍成立

換用其他性能度量 $\ell$ ,公式如下
$E_{ote}(\varepsilon_a|X,f)=\sum_h\sum_{x\in(\chi-X)}P(x)\ell(h(x),f(x))P(h|X,\varepsilon_a)$

證明：

在證明定理之前，先構(gòu)造一個引理：
引理1：在二分類問題下，對任意性能度量指標 $\ell$ ， $\ell（h(x)=f(x)）+\ell（h(x)\neq f(x)）=A,A$ 為一常數(shù)。
證：對于二分類問題，任意性能度量中的正確分類得分與錯誤分類得分應(yīng)該是固定的。即：
$\ell（0,0）=\ell（1,1）,\ell（0,1）=\ell（1,0）$
因此
$\ell（0,0）+\ell（0,1）=\ell（1,1）+\ell（1,0）$
設(shè) $\ell（0,0）+\ell（0,1）=\ell（1,1）+\ell（1,0）=A$ ，即可得：
$\ell（h(x)=f(x)）+\ell（h(x)\neq f(x)）=A$
證畢。

因為 $E_{ote}(\varepsilon_a|X,f)=\sum_h\sum_{x\in(\chi-X)}P(x)\ell(h(x),f(x))P(h|X,\varepsilon_a)$
因此 $\sum_fE_{ote}(\varepsilon_a|X,f)=\sum_f\sum_h\sum_{x\in(\chi-X)}P(x)\ell(h(x),f(x))P(h|X,\varepsilon_a)$
$=\sum_{x\in(\chi-X)}P(x)\sum_hP(h|X,\varepsilon_a)\sum_f\ell(h(x),f(x))$
$=\sum_{x\in(\chi-X)}P(x)\sum_hP(h|X,\varepsilon_a)(\frac{1}{2}2^{|\chi|}\ell（h(x)=f(x)）+\frac{1}{2}2^{|\chi|}\ell（h(x)\neq f(x)）)$
$=2^{|\chi|-1}A\sum_{x\in(\chi-X)}P(x)\cdot1$
上式說明度量結(jié)果與學(xué)習(xí)算法 $\varepsilon_a$ 無關(guān)，“沒有免費的午餐定理”仍然成立。
證明完畢。

關(guān)于證明的補充說明：本文的引理沒有考慮第二章2.3節(jié)中的代價敏感錯誤。若本題中考慮代價敏感錯誤，則各種不同代價錯誤出現(xiàn)的概率也是滿足平均分布的，引理1仍然成立，但是證明過程會更加復(fù)雜。
思考： NFL定理證明過程中假設(shè)了f均勻分布，并且目標是學(xué)習(xí)所有的真實函數(shù)f?，F(xiàn)實生活中，具體的學(xué)習(xí)算法無需學(xué)習(xí)所有的真實函數(shù)，因為所有真實函數(shù)在現(xiàn)實中的映射即天底下所有問題都可以用相同的這一組特征來描述，這是不現(xiàn)實的。若用同一組特征來描述所有問題，那么分類結(jié)果必將雜亂無章沒有任何規(guī)律可言，這也是書中假設(shè)f滿足均勻分布的原因。真實情況下，也許沒有任何一種分布能夠描述其特征。因此NFL并不意味著好的學(xué)習(xí)算法沒有意義。

1.5 試述機器學(xué)習(xí)能在互聯(lián)網(wǎng)搜索的哪些環(huán)節(jié)起作用

以下答案來源
知乎| 機器學(xué)習(xí)能在互聯(lián)網(wǎng)搜索的哪些環(huán)節(jié)起什么作用

搜索引擎

我們先得明白搜索引擎都干了啥，然后看哪些部分可以用機器學(xué)習(xí)來提高用戶體驗的，下圖出自：第 1 章搜索引擎是如何工作的

構(gòu)成搜索引擎的全部要素

1、文檔管理器：存儲作為檢索對象的文檔。當查詢到相匹配的文檔時，會取出該文檔的一部分作為摘要。
2、索引構(gòu)建器：從檢索對象的文本文檔中構(gòu)建文本的索引。
3、索引管理器：管理帶有索引結(jié)構(gòu)的數(shù)據(jù)，索引結(jié)構(gòu)是一種用于進行高速檢索的數(shù)據(jù)結(jié)構(gòu)。
4、索引檢索器：利用用戶的查詢進行文本檢索，并根據(jù)某種規(guī)則進行排序并將結(jié)果返回給應(yīng)用。

除了以上的組建除外，一個完整的搜索引擎還包括：爬蟲、搜索排序系統(tǒng)。

因為我們只是大致地了解一下機器學(xué)習(xí)在搜索引擎上的作用，所以關(guān)于搜索引擎的部分就先講到這，然后來看看哪些地方可以優(yōu)化。

機器學(xué)習(xí)對搜索引擎可進行哪些優(yōu)化

根據(jù)搜索引擎的結(jié)構(gòu)，我們可以進行以下的機器學(xué)習(xí)優(yōu)化

文檔管理器：生成更精準的摘要。本質(zhì)就是文檔摘要的自動生成，涉及深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、NLP

索引構(gòu)建器：索引構(gòu)建已很成熟，但我發(fā)現(xiàn)仍有學(xué)者將機器學(xué)習(xí)應(yīng)用于這部分，主要是用機器學(xué)習(xí)算法代替標準哈希函數(shù)，但效果還不太好[3]。

索引管理器：暫無。

索引檢索器：這里涉及查詢與文本間的匹配，以及搜索結(jié)果的排序，也是直接面向用戶的部分。

綜上分析，我們主要來看索引檢索器的部分，這部分可以有哪些優(yōu)化呢:

搜索引擎直接給出搜索的答案：這里用到神經(jīng)網(wǎng)絡(luò)，它可以通過分析大量數(shù)據(jù)從而完成特定的任務(wù)，如從相關(guān)網(wǎng)頁中獲取長句子和段落，然后提出有關(guān)問題答案的信息。

直接給出答案

直接進行圖片、視頻（等多元數(shù)據(jù)）的搜索：圖片的識別已經(jīng)是常見的技術(shù)了，那直接從視頻中提出信息呢？谷歌推出Video Intelligence API，不僅可以從視頻中提取特定的信息，還能總結(jié)視頻的脈絡(luò)、記錄視頻中的場景，從而對視頻進行準確的分類。
更精準的排序（也可成為「精準營銷」的部分）：如使用神經(jīng)網(wǎng)絡(luò)、決策樹等為基礎(chǔ)的網(wǎng)頁排序算法：RankNet, LambdaRank 和LambdaMART。2015年，谷歌推出RankBrain，它可以選擇最適合當前搜索類型的結(jié)果，相當于為每個搜索都提供個性化的算法組合。
對用戶行為進行綜合分析（如歷史搜索數(shù)據(jù)、點擊模式、身份信息等進行結(jié)構(gòu)化信息整合）：更多使用在電子商務(wù)的搜索系統(tǒng)中。這在電商網(wǎng)站中的使用，應(yīng)該是很盛行的，但具體沒有調(diào)研過。
對話式智能交互搜索：如Baidu的語音搜索、利用Siri進行搜索又或者是Google Assistant等。涉及自然語言處理、知識圖譜及神經(jīng)網(wǎng)絡(luò)等內(nèi)容。

小愛能夠回答的問題

對垃圾網(wǎng)站的篩選（模式識別）：這部分可以用Outlier的檢測來實現(xiàn)，尤其對以前的標題黨，或者以前針對算法進行SEO的網(wǎng)站進行甄別。

最理想的模型應(yīng)該是：搜索引擎成為一個具備不斷自我學(xué)習(xí)和改善的系統(tǒng)。也就是將機器學(xué)習(xí)應(yīng)用于搜索引擎的所有方面，一個全自動化的搜索引擎系統(tǒng)。

現(xiàn)在的難點有哪些呢？

搜索引擎是否真正第理解自然語言查詢詞及文檔的意義，還不得知。

仍需要大量的人工對相關(guān)數(shù)據(jù)進行標記，尤其需要大量的語言學(xué)家進行這方面的工作。

跨語的搜索精確度的問題，當然這部分也是機器學(xué)習(xí)能夠改善的部分。

其他的自然語言遇到的問題，例如歧義等，講到底還是語意的理解。

參考資料：

[1]:第 1 章搜索引擎是如何工作的

[2]:深度學(xué)習(xí)之文本摘要自動生成 - CSDN博客

[3]:The Case For Learned Indexes (Google/MIT)

[4]:AI 再造搜索３招：谷歌如何用機器學(xué)習(xí)和深度學(xué)習(xí)直接給你答案

[5]:搜索引擎如何使用機器學(xué)習(xí):我們需要知道的9種方式 | ATYUN

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

機器學(xué)習(xí)（西瓜書）第一章緒論課后習(xí)題

機器學(xué)習(xí)（西瓜書）第一章緒論課后習(xí)題

1.1 表1.1中若只包含編號為1和4的兩個樣例，試給出相應(yīng)的版本空間。

1.2 與使用單個合取式來進行假設(shè)表示相比，使用“析合范式”將使得假設(shè)空間具有更強的表示能力。

好瓜?

（（色澤=） $\wedge$ （根蒂=蜷縮） $\wedge$ （敲聲=） $\bigvee$ （（色澤=烏黑） $\wedge$ （根蒂=*） $\wedge$ （敲聲=沉悶））

若使用最多包含k個合取式的析合范式來表達表1.1西瓜分類問題的假設(shè)空間，試估算共有多少種可能的假設(shè)。

1.3 若數(shù)據(jù)包含噪聲，則假設(shè)空間中有可能不存在與所有訓(xùn)練樣本，都一致的假設(shè)。在此情形下，試設(shè)計一種歸納偏好用于假設(shè)選擇。

1.4 本章1.4節(jié)在論述“沒有免費的午餐”定理時，默認使用了“分類錯誤率”作為性能度量來對分類器進行評估。若換用其他性能度量 $\ell$ ,試證明沒有免費的午餐”定理仍成立

1.5 試述機器學(xué)習(xí)能在互聯(lián)網(wǎng)搜索的哪些環(huán)節(jié)起作用

搜索引擎

機器學(xué)習(xí)對搜索引擎可進行哪些優(yōu)化

現(xiàn)在的難點有哪些呢？

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

機器學(xué)習(xí)（西瓜書）第一章 緒論 課后習(xí)題

1.1 表1.1中若只包含編號為1和4的兩個樣例，試給出相應(yīng)的版本空間。

1.2 與使用單個合取式來進行假設(shè)表示相比，使用“析合范式”將使得假設(shè)空間具有更強的表示能力。

好瓜?

（（色澤=*）（根蒂=蜷縮）（敲聲=*） （（色澤=烏黑）（根蒂=*）（敲聲=沉悶））

若使用最多包含k個合取式的析合范式來表達表1.1西瓜分類問題的假設(shè)空間，試估算共有多少種可能的假設(shè)。

1.3 若數(shù)據(jù)包含噪聲，則假設(shè)空間中有可能不存在與所有訓(xùn)練樣本，都一致的假設(shè)。在此情形下，試設(shè)計一種歸納偏好用于假設(shè)選擇。

1.4 本章1.4節(jié)在論述“沒有免費的午餐”定理時，默認使用了“分類錯誤率”作為性能度量來對分類器進行評估。若換用其他性能度量,試證明沒有免費的午餐”定理仍成立

1.5 試述機器學(xué)習(xí)能在互聯(lián)網(wǎng)搜索的哪些環(huán)節(jié)起作用

搜索引擎

機器學(xué)習(xí)對搜索引擎可進行哪些優(yōu)化

現(xiàn)在的難點有哪些呢？

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

機器學(xué)習(xí)（西瓜書）第一章緒論課后習(xí)題

1.1 表1.1中若只包含編號為1和4的兩個樣例，試給出相應(yīng)的版本空間。

1.2 與使用單個合取式來進行假設(shè)表示相比，使用“析合范式”將使得假設(shè)空間具有更強的表示能力。

（（色澤=） $\wedge$ （根蒂=蜷縮） $\wedge$ （敲聲=） $\bigvee$ （（色澤=烏黑） $\wedge$ （根蒂=*） $\wedge$ （敲聲=沉悶））

若使用最多包含k個合取式的析合范式來表達表1.1西瓜分類問題的假設(shè)空間，試估算共有多少種可能的假設(shè)。

1.3 若數(shù)據(jù)包含噪聲，則假設(shè)空間中有可能不存在與所有訓(xùn)練樣本，都一致的假設(shè)。在此情形下，試設(shè)計一種歸納偏好用于假設(shè)選擇。

1.4 本章1.4節(jié)在論述“沒有免費的午餐”定理時，默認使用了“分類錯誤率”作為性能度量來對分類器進行評估。若換用其他性能度量 $\ell$ ,試證明沒有免費的午餐”定理仍成立

現(xiàn)在的難點有哪些呢？