爭(zhēng)取一個(gè)月把周志華老師的西瓜書(shū)以及課程視頻啃完。

1. 緒論

科學(xué)	是什么、為什么
技術(shù)	怎么做
工程	做得多快好省
應(yīng)用	拓展

機(jī)器學(xué)習(xí)：目前主要研究智能數(shù)據(jù)分析的理論和方法。
典型的機(jī)器學(xué)習(xí)過(guò)程：訓(xùn)練數(shù)據(jù)、使用學(xué)習(xí)算法訓(xùn)練、模型、測(cè)試集
示例（instance，無(wú)結(jié)果）、樣例（example，有結(jié)果）；
屬性（attribute）、屬性值、屬性空間、樣本空間；
特征向量（feature vector）、輸出空間
計(jì)算學(xué)習(xí)理論（Computational learning theory），其中最重要的模型是PAC（Probably Approximately Correct）：
$P(|f(x)-g\vert\leq\varepsilon)\geq1-\delta$
其中，f(x) 代表hypothesis，g 代表ground-truth，以很高的概率得到一個(gè)很好的模型。
監(jiān)督學(xué)習(xí)（supervised learning）& 非監(jiān)督學(xué)習(xí)（unsupervised learning）：按照數(shù)據(jù)是否具有類別標(biāo)記把任務(wù)進(jìn)行分類
未見(jiàn)樣本（unseen instance）/ 未知分布 / 獨(dú)立同分布 / 泛化（generalization）

泛化能力（generalization ability）是指機(jī)器學(xué)習(xí)算法對(duì)新樣本的適應(yīng)能力。學(xué)習(xí)的目的是學(xué)到隱含在數(shù)據(jù)背后的規(guī)律，對(duì)具有同一規(guī)律的學(xué)習(xí)集以外的數(shù)據(jù)，經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)也能給出合適的輸出，該能力稱為泛化能力。這種能力也是學(xué)習(xí)到的模型對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力，這個(gè)未見(jiàn)過(guò)的測(cè)試數(shù)據(jù)必須是和訓(xùn)練數(shù)據(jù)處于同一分布,不在同一分布的數(shù)據(jù)是不符合獨(dú)立同分布假設(shè)的（對(duì)同一規(guī)律不同的數(shù)據(jù)集的預(yù)測(cè)能力）。通常通過(guò)測(cè)試誤差來(lái)評(píng)價(jià)學(xué)習(xí)方法的泛化能力。

歸納偏好（inductive bias）：任何一個(gè)有效的機(jī)器學(xué)習(xí)算法必有其偏好
奧卡姆剃刀原則：若有多個(gè)假設(shè)與觀察一致，則選最簡(jiǎn)單的那個(gè)

學(xué)習(xí)算法的歸納偏好是否與問(wèn)題本身匹配，大多數(shù)時(shí)候直接決定了算法能否取得好的性能！

NFL定理（沒(méi)有免費(fèi)的午餐）：一個(gè)算法a若在某些問(wèn)題上比另一個(gè)算法b好，比存在另一些問(wèn)題使得算法b比a好

所有問(wèn)題出現(xiàn)的機(jī)會(huì)相同，或所有問(wèn)題同等重要；具體問(wèn)題，具體分析！

西瓜書(shū)習(xí)題

2. 模型評(píng)估與選擇

泛化能力強(qiáng)，然鵝，我們手上沒(méi)有unseen instance

泛化誤差	在“未來(lái)”樣本上的誤差
經(jīng)驗(yàn)誤差	在訓(xùn)練集上的誤差，亦稱“訓(xùn)練誤差”
過(guò)擬合(overfitting)	不是樹(shù)葉(誤認(rèn)為樹(shù)葉必須有鋸齒)
欠擬合(underfitting)	不是樹(shù)葉(誤認(rèn)為綠色的都是樹(shù)葉)

所有的算法都是為了緩解overfitting，誤差是一定會(huì)存在的， $P\neq NP$ .

三大問(wèn)題
如何獲得測(cè)試結(jié)果？評(píng)估方法
如何評(píng)估性能優(yōu)劣？性能度量
如何判斷實(shí)質(zhì)差別？比較檢驗(yàn)
評(píng)估方法

留出法	保持?jǐn)?shù)據(jù)分布一致性；多次重復(fù)劃分；測(cè)試集不能太大或太小
k-折交叉驗(yàn)證法	若k=m，Leave-one-out，留一法
自助法	基于自助采樣(bootstrap sampling)，有放回采樣；用沒(méi)取到的進(jìn)行測(cè)試，“包外估計(jì)”(out-of-bag estimation)；數(shù)據(jù)分布有所改變

算法的參數(shù)：一般由人工設(shè)定，“超參數(shù)”；
模型的參數(shù)：一般由學(xué)習(xí)確定；
調(diào)參過(guò)程相似：先產(chǎn)生若干模型，然后基于某種評(píng)估方法進(jìn)行選擇；
參數(shù)調(diào)的好不好，對(duì)最終性能往往有關(guān)鍵影響

訓(xùn)練集 vs 測(cè)試集 vs 驗(yàn)證集，算法參數(shù)選定后，再用“訓(xùn)練集+驗(yàn)證集”重新訓(xùn)練最終模型。

性能度量

什么樣的模型是好的，不僅取決于算法和數(shù)據(jù)，還取決于任務(wù)需求。

回歸任務(wù)常用均方誤差
錯(cuò)誤率 VS 精度
查準(zhǔn)率 VS 查全率

查準(zhǔn)率：
$P=\frac{TP}{TP+FP}$
查全率：
$R=\frac{TP}{TP+FN}$
F1度量：
$F1=\frac{2\times P\times R}{P+R}$
若對(duì)查準(zhǔn)率/查全率有不同偏好：
$F_\beta=\frac{(1+\beta^2)\times P\times R}{(\beta^2\times P)+R}$
其中， $\beta>1$ 時(shí)查全率有更大影響， $\beta<1$ 時(shí)查準(zhǔn)率有更大影響。

比較檢驗(yàn)

在某種度量下取得評(píng)估結(jié)果后，不能直接比較以評(píng)判優(yōu)劣。
測(cè)試性能不等于泛化性能；
測(cè)試性能隨著測(cè)試集的變化而變化；
很多機(jī)器學(xué)習(xí)算法本身有一定的隨機(jī)性；
統(tǒng)計(jì)假設(shè)檢驗(yàn)(hypothesis test)為學(xué)習(xí)機(jī)器性能比較提供了重要依據(jù)。

3. 線性模型

線性模型（linear model）試圖學(xué)得一個(gè)通過(guò)屬性的線性組合來(lái)進(jìn)行預(yù)測(cè)的函數(shù)：

$f(x)=\omega_1x_1+\omega_2x_2+\ldots+\omega_dx_d+b$

向量形式為： $f(x)=\omega^Tx+b$

線性回歸（linear regression）
$f(x)\simeq y$
離散屬性的處理：若有序（order），則連續(xù)化；否則，轉(zhuǎn)化為k維向量。
最小二乘解：分別對(duì) $\omega$ 和 $b$ 求導(dǎo)，令導(dǎo)數(shù)為0，可以得到閉式解（closed-form）
$E_(\omega,b)=\sum_{i=1}^{m}(y_i-\omega x_i-b)^2$
多元（multi-variate）線性回歸
$f(x_i)=\omega^Tx_i+b$
其中 $x_i=(x_{i1};x_{i2};\dots;x_{id})$ , $f(x_i)\simeq y_i$ .
最小二乘法求解：
$\begin{aligned} \hat{\omega}^*&=\arg\,\min(y-X\hat{\omega})^T(y-X\hat{\omega}) \\ &=\arg\,\min y^Ty-y^TX\hat{\omega}-(X\hat{\omega})^Ty+(X\hat{\omega})^TX\hat{\omega} \\ &=\arg\,\min y^Ty-2y^TX\hat{\omega}+(X\hat{\omega})^TX\hat{\omega} \end{aligned}$
其中y 為 $m\times1$ ,X 為 $m\times (n+1)$ , $\hat{\omega}$ 為 $(n+1)\times1$ .

矩陣求導(dǎo)公式：

$\frac{\partial(A\omega)}{\partial(\omega)}=A^T$

$\frac{\partial(A\omega)^T(A\omega)}{\partial(\omega)}=2A^TA\omega$
對(duì) $\hat\omega$ 求導(dǎo)，令導(dǎo)數(shù)為0，即
$2X^TX\hat{\omega}-2X^Ty=0$

若 $X^TX$ 為滿秩或正定，則有唯一解，即 $\hat{\omega}^*=(X^TX)^{-1}X^Ty$ ；
若 $X^TX$ 不滿秩，則有無(wú)窮多個(gè)解，此時(shí)可以引入正則化（regularization）或者求助于歸納偏好。
線性回歸相關(guān)公式推導(dǎo)

廣義（Generalized）線性模型
對(duì)數(shù)線性回歸（log-linear regression）；
$\ln y={\omega}^Tx+b$
一般形式：
$y=g^{-1}({\omega}^Tx+b)$
對(duì)率回歸（分類學(xué)習(xí)算法）

對(duì)數(shù)幾率函數(shù)（logistic function），單調(diào)可微、任意階可導(dǎo)：
$y=\frac{1}{1+e^{-z}}$
以對(duì)率函數(shù)為聯(lián)系函數(shù)，得到對(duì)數(shù)幾率回歸（logistic regression）：
$\ln {\frac{y}{1-y}}=\omega^Tx+b$
其中, $\frac{y}{1-y}$ 表示幾率(odds)，反映了x 作為正例的相對(duì)可能性。
無(wú)需事先假設(shè)數(shù)據(jù)分布；
可得到“類別”的近似概率預(yù)測(cè)；
可直接應(yīng)用現(xiàn)有數(shù)值優(yōu)化算法求取最優(yōu)解。

對(duì)率回歸求解

將y 看作類后驗(yàn)概率估計(jì)p(y=1 |x) ，則對(duì)率回歸公式可寫(xiě)為
$\ln \frac{p(y=1|x)}{p(y=0|x)}=\omega^Tx+b$
不具有極值，無(wú)法采用最小二乘法求解。
對(duì)率回歸詳細(xì)推導(dǎo)

類別不平衡（class-imbalance）

不同類別的樣本比例相差很大；“小類”往往更重要
若 $\frac{y}{1-y}>1$ 則預(yù)測(cè)為正例；若 $\frac{y}{1-y}>\frac{m^+}{m^-}$ 則預(yù)測(cè)為正例。
常見(jiàn)學(xué)習(xí)方法：
過(guò)采樣（oversampling）、欠采樣（undersampling）、閾值移動(dòng)（threshold-moving）

4. 決策樹(shù)

決策樹(shù)基于“樹(shù)”結(jié)構(gòu)進(jìn)行決策：
每個(gè)“內(nèi)部結(jié)點(diǎn)”對(duì)應(yīng)于某個(gè)屬性上的“測(cè)試”（test）；
每個(gè)分支對(duì)應(yīng)于該測(cè)試的一種可能結(jié)果（即該屬性的某個(gè)取值）；
每個(gè)“葉結(jié)點(diǎn)”對(duì)應(yīng)于一個(gè)“預(yù)測(cè)結(jié)果”

自根至葉的遞歸過(guò)程
信息熵（entropy）是度量樣本集合“純度”最常用的一種指標(biāo)；
信息增益（information gain）直接以信息熵為基礎(chǔ)，計(jì)算當(dāng)前劃分對(duì)信息熵所造成的變化。
增益率（gain ratio）

先從候選劃分屬性中找出信息增益高于平均水平的，再?gòu)闹羞x取增益率最高的。

基尼指數(shù)（gini index）：反映了從D中隨機(jī)抽取兩個(gè)樣例，其類別標(biāo)記不一致的概率。
劃分選擇的各種準(zhǔn)則雖然對(duì)決策樹(shù)的尺寸有較大影響，但對(duì)泛化性能的影響很有限；
剪枝方法和程度對(duì)決策樹(shù)泛化性能的影響更為顯著。

剪枝（pruning）是決策樹(shù)對(duì)付“過(guò)擬合”的主要手段。

決策樹(shù)的詳解
預(yù)剪枝（pre-pruning）& 后剪枝（post-pruning）
缺失值的處理：樣本賦權(quán)、權(quán)重劃分

決策樹(shù)這一部分還得好好看看，感覺(jué)有些云里霧里的～～～

5. 支持向量機(jī)

將訓(xùn)練樣本分開(kāi)的超平面“正中間”的更好：魯棒性最好，泛化能力最強(qiáng)。
超平面方程：
$\omega^Tx+b=0$
間隔（margin）與支持向量（support vector）

解的稀疏性：訓(xùn)練完成后，最終模型僅與支持向量有關(guān)。
支持向量機(jī)（support vector machine,SVM）因此而得名。
特征空間映射

如果原始空間是有限維（屬性數(shù)有限），那么一定存在一個(gè)高維特征空間使樣本線性可分。

核函數(shù)（kernel function）
$\kappa(x_i,x_j)=\phi(x_i)^T\phi(x_j)$

Mercer定理：若有一個(gè)對(duì)稱函數(shù)所對(duì)應(yīng)的核矩陣半正定，則它就能作為核函數(shù)來(lái)使用。

6. 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是由具有適應(yīng)性的簡(jiǎn)單單元組成的廣泛并行互連的網(wǎng)絡(luò)。

“簡(jiǎn)單單元”：神經(jīng)元模型
“激活函數(shù)”：理想激活函數(shù)是階躍函數(shù)，階躍函數(shù)具有不連續(xù)、不光滑的性質(zhì)，最常見(jiàn)的是Sigmoid函數(shù)。
多層前饋網(wǎng)絡(luò)結(jié)構(gòu)，萬(wàn)有逼近性。

BP（backpropagation）算法，是一個(gè)迭代學(xué)習(xí)算法，每一輪迭代采用廣義感知機(jī)學(xué)習(xí)規(guī)則，鏈?zhǔn)椒▌t求解。
學(xué)習(xí)率不能太大或太小，考慮到學(xué)習(xí)速度和振蕩問(wèn)題。

7. 貝葉斯分類器

貝葉斯決策論（Bayesian decision theory）：總體風(fēng)險(xiǎn)最小，貝葉斯最優(yōu)分類器，反映學(xué)習(xí)性能的理論上限。
機(jī)器學(xué)習(xí)所要實(shí)現(xiàn)的是基于有限的訓(xùn)練樣本盡可能準(zhǔn)確地估計(jì)出后驗(yàn)概率，有兩種基本策略：

判別式模型	直接對(duì)條件概率建模	決策樹(shù)；BP神經(jīng)網(wǎng)絡(luò)；SVM
生成式模型	先對(duì)聯(lián)合概率建模，再得到條件概率	貝葉斯分類器

極大似然估計(jì)：先假設(shè)某種概率分布，再基于訓(xùn)練樣例對(duì)參數(shù)進(jìn)行估計(jì)。

連乘易造成下溢，因此通常使用對(duì)數(shù)似然（Log-likelihood）

樸素貝葉斯分類器

主要障礙：所有屬性上的聯(lián)合概率難以從有限訓(xùn)練樣本估計(jì)獲得；組合爆炸；樣本稀疏

8. 集成學(xué)習(xí)和聚類

集成學(xué)習(xí)（Ensemble）
誤差-分歧分解（erro-ambiguity decomposition）
集成學(xué)習(xí)方法：序列化方法（boosting）和并行化方法（bagging）
聚類：聚類的好壞不存在絕對(duì)標(biāo)準(zhǔn)

這一部分在《R語(yǔ)言統(tǒng)計(jì)分析與機(jī)器學(xué)習(xí)》這一專欄有詳細(xì)介紹了，所以這里就沒(méi)有做太多相關(guān)的筆記～～～

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

機(jī)器學(xué)習(xí)初步-西瓜書(shū)

機(jī)器學(xué)習(xí)初步-西瓜書(shū)

1. 緒論

2. 模型評(píng)估與選擇

3. 線性模型

4. 決策樹(shù)

5. 支持向量機(jī)

6. 神經(jīng)網(wǎng)絡(luò)

7. 貝葉斯分類器

8. 集成學(xué)習(xí)和聚類

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

機(jī)器學(xué)習(xí)初步-西瓜書(shū)

1. 緒論

2. 模型評(píng)估與選擇

3. 線性模型

4. 決策樹(shù)

5. 支持向量機(jī)

6. 神經(jīng)網(wǎng)絡(luò)

7. 貝葉斯分類器

8. 集成學(xué)習(xí)和聚類

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av