機(jī)器學(xué)習(xí)初步-西瓜書(shū)

爭(zhēng)取一個(gè)月把周志華老師的西瓜書(shū)以及課程視頻啃完。

1. 緒論

科學(xué) 是什么、為什么
技術(shù) 怎么做
工程 做得多快好省
應(yīng)用 拓展
  • 機(jī)器學(xué)習(xí):目前主要研究智能數(shù)據(jù)分析的理論和方法。
  • 典型的機(jī)器學(xué)習(xí)過(guò)程:訓(xùn)練數(shù)據(jù)、使用學(xué)習(xí)算法訓(xùn)練、模型、測(cè)試集
    示例(instance,無(wú)結(jié)果)、樣例(example,有結(jié)果);
    屬性(attribute)、屬性值、屬性空間、樣本空間;
    特征向量(feature vector)、輸出空間
  • 計(jì)算學(xué)習(xí)理論(Computational learning theory),其中最重要的模型是PAC(Probably Approximately Correct):
    P(|f(x)-g\vert\leq\varepsilon)\geq1-\delta
    其中,f(x) 代表hypothesis,g 代表ground-truth,以很高的概率得到一個(gè)很好的模型。
  • 監(jiān)督學(xué)習(xí)(supervised learning)& 非監(jiān)督學(xué)習(xí)(unsupervised learning):按照數(shù)據(jù)是否具有類別標(biāo)記把任務(wù)進(jìn)行分類
  • 未見(jiàn)樣本(unseen instance)/ 未知分布 / 獨(dú)立同分布 / 泛化(generalization)

泛化能力(generalization ability)是指機(jī)器學(xué)習(xí)算法對(duì)新樣本的適應(yīng)能力。 學(xué)習(xí)的目的是學(xué)到隱含在數(shù)據(jù)背后的規(guī)律,對(duì)具有同一規(guī)律的學(xué)習(xí)集以外的數(shù)據(jù),經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)也能給出合適的輸出,該能力稱為泛化能力。這種能力也是學(xué)習(xí)到的模型對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力,這個(gè)未見(jiàn)過(guò)的測(cè)試數(shù)據(jù)必須是和訓(xùn)練數(shù)據(jù)處于同一分布,不在同一分布的數(shù)據(jù)是不符合獨(dú)立同分布假設(shè)的(對(duì)同一規(guī)律不同的數(shù)據(jù)集的預(yù)測(cè)能力)。通常通過(guò)測(cè)試誤差來(lái)評(píng)價(jià)學(xué)習(xí)方法的泛化能力。

  • 歸納偏好(inductive bias):任何一個(gè)有效的機(jī)器學(xué)習(xí)算法必有其偏好
    奧卡姆剃刀原則:若有多個(gè)假設(shè)與觀察一致,則選最簡(jiǎn)單的那個(gè)

學(xué)習(xí)算法的歸納偏好是否與問(wèn)題本身匹配,大多數(shù)時(shí)候直接決定了算法能否取得好的性能!

  • NFL定理(沒(méi)有免費(fèi)的午餐):一個(gè)算法a若在某些問(wèn)題上比另一個(gè)算法b好,比存在另一些問(wèn)題使得算法b比a好

所有問(wèn)題出現(xiàn)的機(jī)會(huì)相同,或所有問(wèn)題同等重要;具體問(wèn)題,具體分析!

西瓜書(shū)習(xí)題

2. 模型評(píng)估與選擇

  • 泛化能力強(qiáng),然鵝,我們手上沒(méi)有unseen instance
泛化誤差 在“未來(lái)”樣本上的誤差
經(jīng)驗(yàn)誤差 在訓(xùn)練集上的誤差,亦稱“訓(xùn)練誤差”
過(guò)擬合(overfitting) 不是樹(shù)葉(誤認(rèn)為樹(shù)葉必須有鋸齒)
欠擬合(underfitting) 不是樹(shù)葉(誤認(rèn)為綠色的都是樹(shù)葉)

所有的算法都是為了緩解overfitting,誤差是一定會(huì)存在的,P\neq NP.

  • 三大問(wèn)題
    如何獲得測(cè)試結(jié)果?評(píng)估方法
    如何評(píng)估性能優(yōu)劣?性能度量
    如何判斷實(shí)質(zhì)差別?比較檢驗(yàn)
  • 評(píng)估方法
留出法 保持?jǐn)?shù)據(jù)分布一致性;多次重復(fù)劃分;測(cè)試集不能太大或太小
k-折交叉驗(yàn)證法 若k=m,Leave-one-out,留一法
自助法 基于自助采樣(bootstrap sampling),有放回采樣;用沒(méi)取到的進(jìn)行測(cè)試,“包外估計(jì)”(out-of-bag estimation);數(shù)據(jù)分布有所改變

算法的參數(shù):一般由人工設(shè)定,“超參數(shù)”;
模型的參數(shù):一般由學(xué)習(xí)確定;
調(diào)參過(guò)程相似:先產(chǎn)生若干模型,然后基于某種評(píng)估方法進(jìn)行選擇;
參數(shù)調(diào)的好不好,對(duì)最終性能往往有關(guān)鍵影響

訓(xùn)練集 vs 測(cè)試集 vs 驗(yàn)證集,算法參數(shù)選定后,再用“訓(xùn)練集+驗(yàn)證集”重新訓(xùn)練最終模型。

  • 性能度量

什么樣的模型是好的,不僅取決于算法和數(shù)據(jù),還取決于任務(wù)需求。

回歸任務(wù)常用均方誤差
錯(cuò)誤率 VS 精度
查準(zhǔn)率 VS 查全率

查準(zhǔn)率:
P=\frac{TP}{TP+FP}
查全率:
R=\frac{TP}{TP+FN}
F1度量:
F1=\frac{2\times P\times R}{P+R}
若對(duì)查準(zhǔn)率/查全率有不同偏好:
F_\beta=\frac{(1+\beta^2)\times P\times R}{(\beta^2\times P)+R}
其中,\beta>1 時(shí)查全率有更大影響,\beta<1 時(shí)查準(zhǔn)率有更大影響。

  • 比較檢驗(yàn)

在某種度量下取得評(píng)估結(jié)果后,不能直接比較以評(píng)判優(yōu)劣。
測(cè)試性能不等于泛化性能;
測(cè)試性能隨著測(cè)試集的變化而變化;
很多機(jī)器學(xué)習(xí)算法本身有一定的隨機(jī)性;
統(tǒng)計(jì)假設(shè)檢驗(yàn)(hypothesis test)為學(xué)習(xí)機(jī)器性能比較提供了重要依據(jù)。

3. 線性模型

線性模型(linear model)試圖學(xué)得一個(gè)通過(guò)屬性的線性組合來(lái)進(jìn)行預(yù)測(cè)的函數(shù):

f(x)=\omega_1x_1+\omega_2x_2+\ldots+\omega_dx_d+b

向量形式為:f(x)=\omega^Tx+b

  • 線性回歸(linear regression)
    f(x)\simeq y
    離散屬性的處理:若有序(order),則連續(xù)化;否則,轉(zhuǎn)化為k維向量。
    最小二乘解:分別對(duì)\omegab 求導(dǎo),令導(dǎo)數(shù)為0,可以得到閉式解(closed-form)
    E_(\omega,b)=\sum_{i=1}^{m}(y_i-\omega x_i-b)^2
  • 多元(multi-variate)線性回歸
    f(x_i)=\omega^Tx_i+b
    其中x_i=(x_{i1};x_{i2};\dots;x_{id}),f(x_i)\simeq y_i.
    最小二乘法求解:
    \begin{aligned} \hat{\omega}^*&=\arg\,\min(y-X\hat{\omega})^T(y-X\hat{\omega}) \\ &=\arg\,\min y^Ty-y^TX\hat{\omega}-(X\hat{\omega})^Ty+(X\hat{\omega})^TX\hat{\omega} \\ &=\arg\,\min y^Ty-2y^TX\hat{\omega}+(X\hat{\omega})^TX\hat{\omega} \end{aligned}
    其中y 為m\times1 ,X 為m\times (n+1) ,\hat{\omega}(n+1)\times1 .

矩陣求導(dǎo)公式:

\frac{\partial(A\omega)}{\partial(\omega)}=A^T

\frac{\partial(A\omega)^T(A\omega)}{\partial(\omega)}=2A^TA\omega
對(duì)\hat\omega 求導(dǎo),令導(dǎo)數(shù)為0,即
2X^TX\hat{\omega}-2X^Ty=0

X^TX為滿秩或正定,則有唯一解,即\hat{\omega}^*=(X^TX)^{-1}X^Ty;
X^TX不滿秩,則有無(wú)窮多個(gè)解,此時(shí)可以引入正則化(regularization)或者求助于歸納偏好。
線性回歸相關(guān)公式推導(dǎo)

  • 廣義(Generalized)線性模型
    對(duì)數(shù)線性回歸(log-linear regression);
    \ln y={\omega}^Tx+b
    一般形式:
    y=g^{-1}({\omega}^Tx+b)
  • 對(duì)率回歸(分類學(xué)習(xí)算法)

對(duì)數(shù)幾率函數(shù)(logistic function),單調(diào)可微、任意階可導(dǎo):
y=\frac{1}{1+e^{-z}}
以對(duì)率函數(shù)為聯(lián)系函數(shù),得到對(duì)數(shù)幾率回歸(logistic regression):
\ln {\frac{y}{1-y}}=\omega^Tx+b
其中,\frac{y}{1-y} 表示幾率(odds),反映了x 作為正例的相對(duì)可能性。
無(wú)需事先假設(shè)數(shù)據(jù)分布;
可得到“類別”的近似概率預(yù)測(cè);
可直接應(yīng)用現(xiàn)有數(shù)值優(yōu)化算法求取最優(yōu)解。

  • 對(duì)率回歸求解

將y 看作類后驗(yàn)概率估計(jì)p(y=1 |x) ,則對(duì)率回歸公式可寫(xiě)為
\ln \frac{p(y=1|x)}{p(y=0|x)}=\omega^Tx+b
不具有極值,無(wú)法采用最小二乘法求解。
對(duì)率回歸詳細(xì)推導(dǎo)

  • 類別不平衡(class-imbalance)

不同類別的樣本比例相差很大;“小類”往往更重要
\frac{y}{1-y}>1 則預(yù)測(cè)為正例;若\frac{y}{1-y}>\frac{m^+}{m^-} 則預(yù)測(cè)為正例。
常見(jiàn)學(xué)習(xí)方法:
過(guò)采樣(oversampling)、欠采樣(undersampling)、閾值移動(dòng)(threshold-moving)

4. 決策樹(shù)

決策樹(shù)基于“樹(shù)”結(jié)構(gòu)進(jìn)行決策:
每個(gè)“內(nèi)部結(jié)點(diǎn)”對(duì)應(yīng)于某個(gè)屬性上的“測(cè)試”(test);
每個(gè)分支對(duì)應(yīng)于該測(cè)試的一種可能結(jié)果(即該屬性的某個(gè)取值);
每個(gè)“葉結(jié)點(diǎn)”對(duì)應(yīng)于一個(gè)“預(yù)測(cè)結(jié)果”

自根至葉的遞歸過(guò)程
信息熵(entropy)是度量樣本集合“純度”最常用的一種指標(biāo);
信息增益(information gain)直接以信息熵為基礎(chǔ),計(jì)算當(dāng)前劃分對(duì)信息熵所造成的變化。
增益率(gain ratio)

先從候選劃分屬性中找出信息增益高于平均水平的,再?gòu)闹羞x取增益率最高的。

基尼指數(shù)(gini index):反映了從D中隨機(jī)抽取兩個(gè)樣例,其類別標(biāo)記不一致的概率。
劃分選擇的各種準(zhǔn)則雖然對(duì)決策樹(shù)的尺寸有較大影響,但對(duì)泛化性能的影響很有限;
剪枝方法和程度對(duì)決策樹(shù)泛化性能的影響更為顯著。

剪枝(pruning)是決策樹(shù)對(duì)付“過(guò)擬合”的主要手段。

決策樹(shù)的詳解
預(yù)剪枝(pre-pruning)& 后剪枝(post-pruning)
缺失值的處理:樣本賦權(quán)、權(quán)重劃分

決策樹(shù)這一部分還得好好看看,感覺(jué)有些云里霧里的~~~

5. 支持向量機(jī)

將訓(xùn)練樣本分開(kāi)的超平面“正中間”的更好:魯棒性最好,泛化能力最強(qiáng)。
超平面方程:
\omega^Tx+b=0
間隔(margin)與支持向量(support vector)

  • 解的稀疏性:訓(xùn)練完成后,最終模型僅與支持向量有關(guān)。
    支持向量機(jī)(support vector machine,SVM)因此而得名。
  • 特征空間映射

如果原始空間是有限維(屬性數(shù)有限),那么一定存在一個(gè)高維特征空間使樣本線性可分。

  • 核函數(shù)(kernel function)
    \kappa(x_i,x_j)=\phi(x_i)^T\phi(x_j)

Mercer定理:若有一個(gè)對(duì)稱函數(shù)所對(duì)應(yīng)的核矩陣半正定,則它就能作為核函數(shù)來(lái)使用。

6. 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是由具有適應(yīng)性的簡(jiǎn)單單元組成的廣泛并行互連的網(wǎng)絡(luò)。

  • “簡(jiǎn)單單元”:神經(jīng)元模型
  • “激活函數(shù)”:理想激活函數(shù)是階躍函數(shù),階躍函數(shù)具有不連續(xù)、不光滑的性質(zhì),最常見(jiàn)的是Sigmoid函數(shù)。
  • 多層前饋網(wǎng)絡(luò)結(jié)構(gòu),萬(wàn)有逼近性。

BP(backpropagation)算法,是一個(gè)迭代學(xué)習(xí)算法,每一輪迭代采用廣義感知機(jī)學(xué)習(xí)規(guī)則,鏈?zhǔn)椒▌t求解。
學(xué)習(xí)率不能太大或太小,考慮到學(xué)習(xí)速度和振蕩問(wèn)題。

7. 貝葉斯分類器

  • 貝葉斯決策論(Bayesian decision theory):總體風(fēng)險(xiǎn)最小,貝葉斯最優(yōu)分類器,反映學(xué)習(xí)性能的理論上限。
    機(jī)器學(xué)習(xí)所要實(shí)現(xiàn)的是基于有限的訓(xùn)練樣本盡可能準(zhǔn)確地估計(jì)出后驗(yàn)概率,有兩種基本策略:
判別式模型 直接對(duì)條件概率建模 決策樹(shù);BP神經(jīng)網(wǎng)絡(luò);SVM
生成式模型 先對(duì)聯(lián)合概率建模,再得到條件概率 貝葉斯分類器
  • 極大似然估計(jì):先假設(shè)某種概率分布,再基于訓(xùn)練樣例對(duì)參數(shù)進(jìn)行估計(jì)。

連乘易造成下溢,因此通常使用對(duì)數(shù)似然(Log-likelihood)

  • 樸素貝葉斯分類器

主要障礙:所有屬性上的聯(lián)合概率難以從有限訓(xùn)練樣本估計(jì)獲得;組合爆炸;樣本稀疏

8. 集成學(xué)習(xí)和聚類

集成學(xué)習(xí)(Ensemble)
誤差-分歧分解(erro-ambiguity decomposition)
集成學(xué)習(xí)方法:序列化方法(boosting)和并行化方法(bagging)
聚類:聚類的好壞不存在絕對(duì)標(biāo)準(zhǔn)

這一部分在《R語(yǔ)言統(tǒng)計(jì)分析與機(jī)器學(xué)習(xí)》這一專欄有詳細(xì)介紹了,所以這里就沒(méi)有做太多相關(guān)的筆記~~~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容