1.1 表1.1中若只包含編號為1和4的兩個樣例,試給出相應(yīng)的版本空間。
- 題目詳細描述:表格如下所示
| 編號 | 色澤 | 根蒂 | 敲聲 | 好瓜 |
|---|---|---|---|---|
| 1 | 青綠 | 蜷縮 | 濁響 | 是 |
| 4 | 烏黑 | 稍蜷 | 沉悶 | 否 |
-
思路:
何為版本空間?
版本空間(version space)是概念學(xué)習(xí)中與已知數(shù)據(jù)集一致的所有假設(shè)(hypothesis)的子集集合。版本空間學(xué)習(xí)是機器學(xué)習(xí)的邏輯方法,特別是二分類(binary classification)。
版本空間學(xué)習(xí)算法搜索預(yù)定空間的假設(shè),被視為一組邏輯語句。
對于二維空間中的“矩形”假設(shè)(下圖),綠色加號代表正類樣本,紅色小圈代表負類樣本。 GB 是最大泛化正假設(shè)邊界(maximally General positive hypothesis Boundary), SB 是最大精確正假設(shè)邊界(maximally Specific positive hypothesis Boundary). GB與SB所圍成的區(qū)域中的矩形即為版本空間中的假設(shè),也即GB與SB圍成的區(qū)域就是版本空間。
版本空間圖示
+解答:根據(jù)緒論中的表示方法,根據(jù)編號1和4的兩個樣例可以得到以下7種不同的版本空間

1.2 與使用單個合取式來進行假設(shè)表示相比,使用“析合范式”將使得假設(shè)空間具有更強的表示能力。
例如
好瓜?
((色澤=*)
(根蒂=蜷縮)
(敲聲=*)
((色澤=烏黑)
(根蒂=*)
(敲聲=沉悶))
我們吧“(色澤=青綠)
(根蒂=蜷縮)
敲聲=清脆)”以及“((色澤=烏黑)
(根蒂=硬挺)
(敲聲=沉悶))”都分類為“好瓜”。
若使用最多包含k個合取式的析合范式來表達表1.1西瓜分類問題的假設(shè)空間,試估算共有多少種可能的假設(shè)。
- 題目詳細描述:完整表1如下
| 編號 | 色澤 | 根蒂 | 敲聲 | 好瓜 |
|---|---|---|---|---|
| 1 | 青綠 | 蜷縮 | 濁響 | 是 |
| 2 | 烏黑 | 蜷縮 | 濁響 | 是 |
| 3 | 青綠 | 硬挺 | 清脆 | 否 |
| 4 | 烏黑 | 稍蜷 | 沉悶 | 否 |
+解答:
假設(shè)一個瓜的好或不好,由三個屬性確定。分別是色澤、根蒂、敲聲。
其中,色澤有青綠、烏黑,2種取值,根蒂有蜷縮、稍蜷、硬挺3種取值,敲聲有濁響、清脆、沉悶3種取值。
那么假設(shè)空間由形如 “(色澤=?) ∧ (根蒂=?) ∧ (敲聲=?)” 的所有假設(shè)組成。
除了考慮屬性色澤、根蒂、敲聲分別有2 、3、3種可能取值,還要考慮到一種屬性可能無論取什么值都合適(用通配符*表示),另外有一種情況就是好瓜這個概念根本不成立(用?表示),則假設(shè)空間大小為 (2 + 1)×(3 + 1)×(3 + 1)+ 1 = 49 。
因為最多包含k個合取式,因此使用0,1,2...,k個合取式表示假設(shè)空間均符合要求
故可能的假設(shè)一共有
根據(jù)二項式定理
二項式定理
令x=1,可得=
![]()
,無法化簡。
網(wǎng)上大多數(shù)答案均為,該答案當且僅當k只等于49時,能夠得到
1.3 若數(shù)據(jù)包含噪聲,則假設(shè)空間中有可能不存在與所有訓(xùn)練樣本,都一致的假設(shè)。在此情形下,試設(shè)計一種歸納偏好用于假設(shè)選擇。
噪音數(shù)據(jù):是指數(shù)據(jù)中存在錯誤或異常的數(shù)據(jù),即無用數(shù)據(jù)
歸納偏好: 對應(yīng)了學(xué)習(xí)算法本身所做出的關(guān)于“什么樣的模型更好”的假設(shè),在具體的現(xiàn)實問題中,假設(shè)是否成立,即算法的歸納偏好是否與問題本身的匹配,大多數(shù)直接決定了算法能否取得好的性能。
解答:由于含有噪聲,故可對樣本空間放寬約束。對于那些只與極少數(shù)樣本不一致卻與極大多數(shù)樣本一致的假設(shè),仍將其保留在版本空間中。(即當該假設(shè)的的樣本準確率足夠大時,也認為該假設(shè)有效)
1.4 本章1.4節(jié)在論述“沒有免費的午餐”定理時,默認使用了“分類錯誤率”作為性能度量來對分類器進行評估。若換用其他性能度量
,試證明沒有免費的午餐”定理仍成立
換用其他性能度量
,公式如下
證明:
在證明定理之前,先構(gòu)造一個引理:
引理1:在二分類問題下,對任意性能度量指標,
為一常數(shù)。
證:對于二分類問題,任意性能度量中的正確分類得分與錯誤分類得分應(yīng)該是固定的。即:
因此
設(shè),即可得:
證畢。
因為
因此
上式說明度量結(jié)果與學(xué)習(xí)算法無關(guān),“沒有免費的午餐定理”仍然成立。
證明完畢。
關(guān)于證明的補充說明:本文的引理沒有考慮第二章2.3節(jié)中的代價敏感錯誤。若本題中考慮代價敏感錯誤,則各種不同代價錯誤出現(xiàn)的概率也是滿足平均分布的,引理1仍然成立,但是證明過程會更加復(fù)雜。
思考: NFL定理證明過程中假設(shè)了f均勻分布,并且目標是學(xué)習(xí)所有的真實函數(shù)f?,F(xiàn)實生活中,具體的學(xué)習(xí)算法無需學(xué)習(xí)所有的真實函數(shù),因為所有真實函數(shù)在現(xiàn)實中的映射即天底下所有問題都可以用相同的這一組特征來描述,這是不現(xiàn)實的。若用同一組特征來描述所有問題,那么分類結(jié)果必將雜亂無章沒有任何規(guī)律可言,這也是書中假設(shè)f滿足均勻分布的原因。真實情況下,也許沒有任何一種分布能夠描述其特征。因此NFL并不意味著好的學(xué)習(xí)算法沒有意義。
1.5 試述機器學(xué)習(xí)能在互聯(lián)網(wǎng)搜索的哪些環(huán)節(jié)起作用
以下答案來源
知乎| 機器學(xué)習(xí)能在互聯(lián)網(wǎng)搜索的哪些環(huán)節(jié)起什么作用
搜索引擎
我們先得明白搜索引擎都干了啥,然后看哪些部分可以用機器學(xué)習(xí)來提高用戶體驗的,下圖出自:第 1 章 搜索引擎是如何工作的

1、文檔管理器:存儲作為檢索對象的文檔。當查詢到相匹配的文檔時,會取出該文檔的一部分作為摘要。
2、索引構(gòu)建器:從檢索對象的文本文檔中構(gòu)建文本的索引。
3、索引管理器:管理帶有索引結(jié)構(gòu)的數(shù)據(jù),索引結(jié)構(gòu)是一種用于進行高速檢索的數(shù)據(jù)結(jié)構(gòu)。
4、索引檢索器:利用用戶的查詢進行文本檢索,并根據(jù)某種規(guī)則進行排序并將結(jié)果返回給應(yīng)用。
除了以上的組建除外,一個完整的搜索引擎還包括:爬蟲、搜索排序系統(tǒng)。
因為我們只是大致地了解一下機器學(xué)習(xí)在搜索引擎上的作用,所以關(guān)于搜索引擎的部分就先講到這,然后來看看哪些地方可以優(yōu)化。
機器學(xué)習(xí)對搜索引擎可進行哪些優(yōu)化
根據(jù)搜索引擎的結(jié)構(gòu),我們可以進行以下的機器學(xué)習(xí)優(yōu)化
- 文檔管理器:生成更精準的摘要。本質(zhì)就是文檔摘要的自動生成,涉及深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、NLP
- 索引構(gòu)建器:索引構(gòu)建已很成熟,但我發(fā)現(xiàn)仍有學(xué)者將機器學(xué)習(xí)應(yīng)用于這部分,主要是用機器學(xué)習(xí)算法代替標準哈希函數(shù),但效果還不太好[3]。
- 索引管理器:暫無。
- 索引檢索器:這里涉及查詢與文本間的匹配,以及搜索結(jié)果的排序,也是直接面向用戶的部分。
綜上分析,我們主要來看索引檢索器的部分,這部分可以有哪些優(yōu)化呢:
- 搜索引擎直接給出搜索的答案:這里用到神經(jīng)網(wǎng)絡(luò),它可以通過分析大量數(shù)據(jù)從而完成特定的任務(wù),如從相關(guān)網(wǎng)頁中獲取長句子和段落,然后提出有關(guān)問題答案的信息。

直接進行圖片、視頻(等多元數(shù)據(jù))的搜索:圖片的識別已經(jīng)是常見的技術(shù)了,那直接從視頻中提出信息呢?谷歌推出Video Intelligence API,不僅可以從視頻中提取特定的信息,還能總結(jié)視頻的脈絡(luò)、記錄視頻中的場景,從而對視頻進行準確的分類。
更精準的排序(也可成為「精準營銷」的部分):如使用神經(jīng)網(wǎng)絡(luò)、決策樹等為基礎(chǔ)的網(wǎng)頁排序算法:RankNet, LambdaRank 和LambdaMART。2015年,谷歌推出RankBrain,它可以選擇最適合當前搜索類型的結(jié)果,相當于為每個搜索都提供個性化的算法組合。
對用戶行為進行綜合分析(如歷史搜索數(shù)據(jù)、點擊模式、身份信息等進行結(jié)構(gòu)化信息整合):更多使用在電子商務(wù)的搜索系統(tǒng)中。這在電商網(wǎng)站中的使用,應(yīng)該是很盛行的,但具體沒有調(diào)研過。
對話式智能交互搜索:如Baidu的語音搜索、利用Siri進行搜索又或者是Google Assistant等。涉及自然語言處理、知識圖譜及神經(jīng)網(wǎng)絡(luò)等內(nèi)容。

- 對垃圾網(wǎng)站的篩選(模式識別):這部分可以用Outlier的檢測來實現(xiàn),尤其對以前的標題黨,或者以前針對算法進行SEO的網(wǎng)站進行甄別。
最理想的模型應(yīng)該是:搜索引擎成為一個具備不斷自我學(xué)習(xí)和改善的系統(tǒng)。也就是將機器學(xué)習(xí)應(yīng)用于搜索引擎的所有方面,一個全自動化的搜索引擎系統(tǒng)。
現(xiàn)在的難點有哪些呢?
- 搜索引擎是否真正第理解自然語言查詢詞及文檔的意義,還不得知。
- 仍需要大量的人工對相關(guān)數(shù)據(jù)進行標記,尤其需要大量的語言學(xué)家進行這方面的工作。
- 跨語的搜索精確度的問題,當然這部分也是機器學(xué)習(xí)能夠改善的部分。
- 其他的自然語言遇到的問題,例如歧義等,講到底還是語意的理解。
參考資料:
[1]:第 1 章 搜索引擎是如何工作的
[2]:深度學(xué)習(xí)之文本摘要自動生成 - CSDN博客
[3]:The Case For Learned Indexes (Google/MIT)

