1.統(tǒng)計(jì)學(xué)習(xí)包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí),其一般步驟如下:
- 得到一個(gè)有限的訓(xùn)練集合;
- 確定包含學(xué)習(xí)模型集合;
- 確定學(xué)習(xí)策略;
- 確定學(xué)習(xí)算法;
- 選擇最優(yōu)模型;
- 利用學(xué)習(xí)出的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)和分析;
2.統(tǒng)計(jì)學(xué)習(xí)三要素:
- 模型
- 策略
- 算法
2.1模型
統(tǒng)計(jì)學(xué)習(xí)中首先要考慮的問題是學(xué)習(xí)什么樣的模型,在監(jiān)督學(xué)習(xí)過程中,模型基本可以理解為所要學(xué)習(xí)的條件概率分布或者決策函數(shù)。
2.2策略
有了模型,統(tǒng)計(jì)學(xué)習(xí)需要考慮的是按照什么樣的準(zhǔn)則選擇最優(yōu)的模型。這個(gè)過程可以理解成為使用一定的策略選擇最優(yōu)的模型。在選擇的過程中一般會(huì)用到下面幾種損失函數(shù)來評(píng)價(jià)模型的好壞:
- 0-1損失函數(shù)

- 平方損失函數(shù)

3.絕對(duì)損失函數(shù)

4.對(duì)數(shù)損失函數(shù)

一般來說損失函數(shù)的值越小,模型就越好。我們通過損失函數(shù)來評(píng)價(jià)一個(gè)模型效果的好壞,然后選擇最優(yōu)的模型。
2.3算法
算法指的是學(xué)習(xí)模型的具體的計(jì)算方法。統(tǒng)計(jì)學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集,根據(jù)學(xué)習(xí)策略,從假設(shè)空間中選擇最優(yōu)模型,最后使用某種具體的算法,例如SGD,來求解最優(yōu)模型。一般來說,通過策略中的損失函數(shù)會(huì)將統(tǒng)計(jì)學(xué)習(xí)問題轉(zhuǎn)化為一個(gè)最優(yōu)化問題,訓(xùn)練模型的過程也就轉(zhuǎn)化為了求解最優(yōu)解的過程。
3.過擬合
在模型選擇中,我們希望選擇或者學(xué)習(xí)一個(gè)合適的模型。如果存在著一個(gè)“真”模型,那么我們所選擇的模型應(yīng)該逼近“真”模型。但是我在根據(jù)訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行擬合的時(shí)候,如果一味追求提高對(duì)訓(xùn)練數(shù)據(jù)的預(yù)測(cè)能力,所選擇模型的復(fù)雜度往往比“真”模型更高,這種現(xiàn)象稱為過擬合。過擬合造成的結(jié)果就是模型對(duì)已知數(shù)據(jù)的預(yù)測(cè)能力很好但是對(duì)未知數(shù)據(jù)預(yù)測(cè)效果很差。我們?cè)谶M(jìn)行模型訓(xùn)練求解的過程中應(yīng)該盡量避免過擬合的發(fā)生。
4.正則化
模型選擇的一個(gè)經(jīng)典方法是正則化。所謂的正則化,可以理解成為在損失函數(shù)的基礎(chǔ)上加上一個(gè)正則化項(xiàng)或者說懲罰項(xiàng)。正則化項(xiàng)一般是模型復(fù)雜度(可以簡單的理解成為模型參數(shù)的個(gè)數(shù))的單調(diào)遞增函數(shù),模型越復(fù)雜,正則化值就越大。其一般形式如下:

其中,第1項(xiàng)是原有的損失函數(shù)項(xiàng),第2項(xiàng)是正則化項(xiàng),λ為調(diào)整二者之間關(guān)系的系數(shù),一般為正數(shù)。正則化有很多不同的形式,常用的一般有L1和L2范數(shù)。


5.交叉驗(yàn)證
交叉驗(yàn)證是另一種用來建立可靠的具有一定泛化能力的手段。一般來說交叉驗(yàn)證是將數(shù)據(jù)集隨機(jī)的分為訓(xùn)練集、驗(yàn)證集合測(cè)試集,三者的比例一般為7:2:1。其中訓(xùn)練集用來訓(xùn)練模型,驗(yàn)證集用于模型的選擇,測(cè)試集用于對(duì)最終學(xué)習(xí)方法的評(píng)估。一般來說我們選擇一個(gè)在驗(yàn)證集上具有最小預(yù)測(cè)誤差的模型作為最優(yōu)模型。
常用的三種交叉驗(yàn)證方法:
- Holdout 驗(yàn)證
- K折交叉驗(yàn)證
- 留一交叉驗(yàn)證
這里面最常用的就是K折交叉驗(yàn)證。方法為:初始采樣分割成K個(gè)子樣本,一個(gè)單獨(dú)的子樣本被保留作為驗(yàn)證模型的數(shù)據(jù),其他K-1個(gè)樣本用來訓(xùn)練。交叉驗(yàn)證重復(fù)K次,每個(gè)子樣本驗(yàn)證一次,平均K次的結(jié)果或者使用其它結(jié)合方式,最終得到一個(gè)單一評(píng)測(cè)。這個(gè)方法的優(yōu)勢(shì)在于,同時(shí)重復(fù)運(yùn)用隨機(jī)產(chǎn)生的子樣本進(jìn)行訓(xùn)練和驗(yàn)證,每次的結(jié)果驗(yàn)證一次,10折交叉驗(yàn)證是最常用的。