爭(zhēng)取一個(gè)月把周志華老師的西瓜書(shū)以及課程視頻啃完。
1. 緒論
| 科學(xué) | 是什么、為什么 |
|---|---|
| 技術(shù) | 怎么做 |
| 工程 | 做得多快好省 |
| 應(yīng)用 | 拓展 |
- 機(jī)器學(xué)習(xí):目前主要研究智能數(shù)據(jù)分析的理論和方法。
- 典型的機(jī)器學(xué)習(xí)過(guò)程:訓(xùn)練數(shù)據(jù)、使用學(xué)習(xí)算法訓(xùn)練、模型、測(cè)試集
示例(instance,無(wú)結(jié)果)、樣例(example,有結(jié)果);
屬性(attribute)、屬性值、屬性空間、樣本空間;
特征向量(feature vector)、輸出空間 - 計(jì)算學(xué)習(xí)理論(Computational learning theory),其中最重要的模型是PAC(Probably Approximately Correct):
其中,f(x) 代表hypothesis,g 代表ground-truth,以很高的概率得到一個(gè)很好的模型。 - 監(jiān)督學(xué)習(xí)(supervised learning)& 非監(jiān)督學(xué)習(xí)(unsupervised learning):按照數(shù)據(jù)是否具有類別標(biāo)記把任務(wù)進(jìn)行分類
- 未見(jiàn)樣本(unseen instance)/ 未知分布 / 獨(dú)立同分布 / 泛化(generalization)
泛化能力(generalization ability)是指機(jī)器學(xué)習(xí)算法對(duì)新樣本的適應(yīng)能力。 學(xué)習(xí)的目的是學(xué)到隱含在數(shù)據(jù)背后的規(guī)律,對(duì)具有同一規(guī)律的學(xué)習(xí)集以外的數(shù)據(jù),經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)也能給出合適的輸出,該能力稱為泛化能力。這種能力也是學(xué)習(xí)到的模型對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力,這個(gè)未見(jiàn)過(guò)的測(cè)試數(shù)據(jù)必須是和訓(xùn)練數(shù)據(jù)處于同一分布,不在同一分布的數(shù)據(jù)是不符合獨(dú)立同分布假設(shè)的(對(duì)同一規(guī)律不同的數(shù)據(jù)集的預(yù)測(cè)能力)。通常通過(guò)測(cè)試誤差來(lái)評(píng)價(jià)學(xué)習(xí)方法的泛化能力。
- 歸納偏好(inductive bias):任何一個(gè)有效的機(jī)器學(xué)習(xí)算法必有其偏好
奧卡姆剃刀原則:若有多個(gè)假設(shè)與觀察一致,則選最簡(jiǎn)單的那個(gè)
學(xué)習(xí)算法的歸納偏好是否與問(wèn)題本身匹配,大多數(shù)時(shí)候直接決定了算法能否取得好的性能!
- NFL定理(沒(méi)有免費(fèi)的午餐):一個(gè)算法a若在某些問(wèn)題上比另一個(gè)算法b好,比存在另一些問(wèn)題使得算法b比a好
所有問(wèn)題出現(xiàn)的機(jī)會(huì)相同,或所有問(wèn)題同等重要;具體問(wèn)題,具體分析!
2. 模型評(píng)估與選擇
- 泛化能力強(qiáng),然鵝,我們手上沒(méi)有unseen instance
| 泛化誤差 | 在“未來(lái)”樣本上的誤差 |
|---|---|
| 經(jīng)驗(yàn)誤差 | 在訓(xùn)練集上的誤差,亦稱“訓(xùn)練誤差” |
| 過(guò)擬合(overfitting) | 不是樹(shù)葉(誤認(rèn)為樹(shù)葉必須有鋸齒) |
| 欠擬合(underfitting) | 不是樹(shù)葉(誤認(rèn)為綠色的都是樹(shù)葉) |
所有的算法都是為了緩解overfitting,誤差是一定會(huì)存在的,.
- 三大問(wèn)題
如何獲得測(cè)試結(jié)果?評(píng)估方法
如何評(píng)估性能優(yōu)劣?性能度量
如何判斷實(shí)質(zhì)差別?比較檢驗(yàn) - 評(píng)估方法
| 留出法 | 保持?jǐn)?shù)據(jù)分布一致性;多次重復(fù)劃分;測(cè)試集不能太大或太小 |
|---|---|
| k-折交叉驗(yàn)證法 | 若k=m,Leave-one-out,留一法 |
| 自助法 | 基于自助采樣(bootstrap sampling),有放回采樣;用沒(méi)取到的進(jìn)行測(cè)試,“包外估計(jì)”(out-of-bag estimation);數(shù)據(jù)分布有所改變 |
算法的參數(shù):一般由人工設(shè)定,“超參數(shù)”;
模型的參數(shù):一般由學(xué)習(xí)確定;
調(diào)參過(guò)程相似:先產(chǎn)生若干模型,然后基于某種評(píng)估方法進(jìn)行選擇;
參數(shù)調(diào)的好不好,對(duì)最終性能往往有關(guān)鍵影響
訓(xùn)練集 vs 測(cè)試集 vs 驗(yàn)證集,算法參數(shù)選定后,再用“訓(xùn)練集+驗(yàn)證集”重新訓(xùn)練最終模型。
- 性能度量
什么樣的模型是好的,不僅取決于算法和數(shù)據(jù),還取決于任務(wù)需求。
| 回歸任務(wù)常用均方誤差 |
|---|
| 錯(cuò)誤率 VS 精度 |
| 查準(zhǔn)率 VS 查全率 |
查準(zhǔn)率:
查全率:
F1度量:
若對(duì)查準(zhǔn)率/查全率有不同偏好:
其中, 時(shí)查全率有更大影響,
時(shí)查準(zhǔn)率有更大影響。
- 比較檢驗(yàn)
在某種度量下取得評(píng)估結(jié)果后,不能直接比較以評(píng)判優(yōu)劣。
測(cè)試性能不等于泛化性能;
測(cè)試性能隨著測(cè)試集的變化而變化;
很多機(jī)器學(xué)習(xí)算法本身有一定的隨機(jī)性;
統(tǒng)計(jì)假設(shè)檢驗(yàn)(hypothesis test)為學(xué)習(xí)機(jī)器性能比較提供了重要依據(jù)。
3. 線性模型
線性模型(linear model)試圖學(xué)得一個(gè)通過(guò)屬性的線性組合來(lái)進(jìn)行預(yù)測(cè)的函數(shù):
向量形式為:
- 線性回歸(linear regression)
離散屬性的處理:若有序(order),則連續(xù)化;否則,轉(zhuǎn)化為k維向量。
最小二乘解:分別對(duì)和
求導(dǎo),令導(dǎo)數(shù)為0,可以得到閉式解(closed-form)
- 多元(multi-variate)線性回歸
其中,
.
最小二乘法求解:
其中y 為,X 為
,
為
.
矩陣求導(dǎo)公式:
對(duì)求導(dǎo),令導(dǎo)數(shù)為0,即
若為滿秩或正定,則有唯一解,即
;
若不滿秩,則有無(wú)窮多個(gè)解,此時(shí)可以引入正則化(regularization)或者求助于歸納偏好。
線性回歸相關(guān)公式推導(dǎo)
- 廣義(Generalized)線性模型
對(duì)數(shù)線性回歸(log-linear regression);
一般形式:
- 對(duì)率回歸(分類學(xué)習(xí)算法)
對(duì)數(shù)幾率函數(shù)(logistic function),單調(diào)可微、任意階可導(dǎo):
以對(duì)率函數(shù)為聯(lián)系函數(shù),得到對(duì)數(shù)幾率回歸(logistic regression):
其中, 表示幾率(odds),反映了x 作為正例的相對(duì)可能性。
無(wú)需事先假設(shè)數(shù)據(jù)分布;
可得到“類別”的近似概率預(yù)測(cè);
可直接應(yīng)用現(xiàn)有數(shù)值優(yōu)化算法求取最優(yōu)解。
- 對(duì)率回歸求解
將y 看作類后驗(yàn)概率估計(jì)p(y=1 |x) ,則對(duì)率回歸公式可寫(xiě)為
不具有極值,無(wú)法采用最小二乘法求解。
對(duì)率回歸詳細(xì)推導(dǎo)
- 類別不平衡(class-imbalance)
不同類別的樣本比例相差很大;“小類”往往更重要
若 則預(yù)測(cè)為正例;若
則預(yù)測(cè)為正例。
常見(jiàn)學(xué)習(xí)方法:
過(guò)采樣(oversampling)、欠采樣(undersampling)、閾值移動(dòng)(threshold-moving)
4. 決策樹(shù)
決策樹(shù)基于“樹(shù)”結(jié)構(gòu)進(jìn)行決策:
每個(gè)“內(nèi)部結(jié)點(diǎn)”對(duì)應(yīng)于某個(gè)屬性上的“測(cè)試”(test);
每個(gè)分支對(duì)應(yīng)于該測(cè)試的一種可能結(jié)果(即該屬性的某個(gè)取值);
每個(gè)“葉結(jié)點(diǎn)”對(duì)應(yīng)于一個(gè)“預(yù)測(cè)結(jié)果”
自根至葉的遞歸過(guò)程
信息熵(entropy)是度量樣本集合“純度”最常用的一種指標(biāo);
信息增益(information gain)直接以信息熵為基礎(chǔ),計(jì)算當(dāng)前劃分對(duì)信息熵所造成的變化。
增益率(gain ratio)
先從候選劃分屬性中找出信息增益高于平均水平的,再?gòu)闹羞x取增益率最高的。
基尼指數(shù)(gini index):反映了從D中隨機(jī)抽取兩個(gè)樣例,其類別標(biāo)記不一致的概率。
劃分選擇的各種準(zhǔn)則雖然對(duì)決策樹(shù)的尺寸有較大影響,但對(duì)泛化性能的影響很有限;
剪枝方法和程度對(duì)決策樹(shù)泛化性能的影響更為顯著。
剪枝(pruning)是決策樹(shù)對(duì)付“過(guò)擬合”的主要手段。
決策樹(shù)的詳解
預(yù)剪枝(pre-pruning)& 后剪枝(post-pruning)
缺失值的處理:樣本賦權(quán)、權(quán)重劃分
決策樹(shù)這一部分還得好好看看,感覺(jué)有些云里霧里的~~~
5. 支持向量機(jī)
將訓(xùn)練樣本分開(kāi)的超平面“正中間”的更好:魯棒性最好,泛化能力最強(qiáng)。
超平面方程:
間隔(margin)與支持向量(support vector)
- 解的稀疏性:訓(xùn)練完成后,最終模型僅與支持向量有關(guān)。
支持向量機(jī)(support vector machine,SVM)因此而得名。 - 特征空間映射
如果原始空間是有限維(屬性數(shù)有限),那么一定存在一個(gè)高維特征空間使樣本線性可分。
- 核函數(shù)(kernel function)
Mercer定理:若有一個(gè)對(duì)稱函數(shù)所對(duì)應(yīng)的核矩陣半正定,則它就能作為核函數(shù)來(lái)使用。
6. 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是由具有適應(yīng)性的簡(jiǎn)單單元組成的廣泛并行互連的網(wǎng)絡(luò)。
- “簡(jiǎn)單單元”:神經(jīng)元模型
- “激活函數(shù)”:理想激活函數(shù)是階躍函數(shù),階躍函數(shù)具有不連續(xù)、不光滑的性質(zhì),最常見(jiàn)的是Sigmoid函數(shù)。
- 多層前饋網(wǎng)絡(luò)結(jié)構(gòu),萬(wàn)有逼近性。
BP(backpropagation)算法,是一個(gè)迭代學(xué)習(xí)算法,每一輪迭代采用廣義感知機(jī)學(xué)習(xí)規(guī)則,鏈?zhǔn)椒▌t求解。
學(xué)習(xí)率不能太大或太小,考慮到學(xué)習(xí)速度和振蕩問(wèn)題。
7. 貝葉斯分類器
- 貝葉斯決策論(Bayesian decision theory):總體風(fēng)險(xiǎn)最小,貝葉斯最優(yōu)分類器,反映學(xué)習(xí)性能的理論上限。
機(jī)器學(xué)習(xí)所要實(shí)現(xiàn)的是基于有限的訓(xùn)練樣本盡可能準(zhǔn)確地估計(jì)出后驗(yàn)概率,有兩種基本策略:
| 判別式模型 | 直接對(duì)條件概率建模 | 決策樹(shù);BP神經(jīng)網(wǎng)絡(luò);SVM |
|---|---|---|
| 生成式模型 | 先對(duì)聯(lián)合概率建模,再得到條件概率 | 貝葉斯分類器 |
- 極大似然估計(jì):先假設(shè)某種概率分布,再基于訓(xùn)練樣例對(duì)參數(shù)進(jìn)行估計(jì)。
連乘易造成下溢,因此通常使用對(duì)數(shù)似然(Log-likelihood)
- 樸素貝葉斯分類器
主要障礙:所有屬性上的聯(lián)合概率難以從有限訓(xùn)練樣本估計(jì)獲得;組合爆炸;樣本稀疏
8. 集成學(xué)習(xí)和聚類
集成學(xué)習(xí)(Ensemble)
誤差-分歧分解(erro-ambiguity decomposition)
集成學(xué)習(xí)方法:序列化方法(boosting)和并行化方法(bagging)
聚類:聚類的好壞不存在絕對(duì)標(biāo)準(zhǔn)
這一部分在《R語(yǔ)言統(tǒng)計(jì)分析與機(jī)器學(xué)習(xí)》這一專欄有詳細(xì)介紹了,所以這里就沒(méi)有做太多相關(guān)的筆記~~~