《統(tǒng)計(jì)學(xué)習(xí)方法》----讀書筆記1

1.統(tǒng)計(jì)學(xué)習(xí)包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí),其一般步驟如下:

  1. 得到一個(gè)有限的訓(xùn)練集合;
  2. 確定包含學(xué)習(xí)模型集合;
  3. 確定學(xué)習(xí)策略;
  4. 確定學(xué)習(xí)算法;
  5. 選擇最優(yōu)模型;
  6. 利用學(xué)習(xí)出的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)和分析;

2.統(tǒng)計(jì)學(xué)習(xí)三要素:

  • 模型
  • 策略
  • 算法

2.1模型

統(tǒng)計(jì)學(xué)習(xí)中首先要考慮的問題是學(xué)習(xí)什么樣的模型,在監(jiān)督學(xué)習(xí)過程中,模型基本可以理解為所要學(xué)習(xí)的條件概率分布或者決策函數(shù)。

2.2策略

有了模型,統(tǒng)計(jì)學(xué)習(xí)需要考慮的是按照什么樣的準(zhǔn)則選擇最優(yōu)的模型。這個(gè)過程可以理解成為使用一定的策略選擇最優(yōu)的模型。在選擇的過程中一般會(huì)用到下面幾種損失函數(shù)來評(píng)價(jià)模型的好壞:

  1. 0-1損失函數(shù)
0-1損失函數(shù)
  1. 平方損失函數(shù)
平方損失函數(shù)

3.絕對(duì)損失函數(shù)

絕對(duì)損失函數(shù)

4.對(duì)數(shù)損失函數(shù)

對(duì)數(shù)損失函數(shù)

一般來說損失函數(shù)的值越小,模型就越好。我們通過損失函數(shù)來評(píng)價(jià)一個(gè)模型效果的好壞,然后選擇最優(yōu)的模型。

2.3算法

算法指的是學(xué)習(xí)模型的具體的計(jì)算方法。統(tǒng)計(jì)學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集,根據(jù)學(xué)習(xí)策略,從假設(shè)空間中選擇最優(yōu)模型,最后使用某種具體的算法,例如SGD,來求解最優(yōu)模型。一般來說,通過策略中的損失函數(shù)會(huì)將統(tǒng)計(jì)學(xué)習(xí)問題轉(zhuǎn)化為一個(gè)最優(yōu)化問題,訓(xùn)練模型的過程也就轉(zhuǎn)化為了求解最優(yōu)解的過程。

3.過擬合

在模型選擇中,我們希望選擇或者學(xué)習(xí)一個(gè)合適的模型。如果存在著一個(gè)“真”模型,那么我們所選擇的模型應(yīng)該逼近“真”模型。但是我在根據(jù)訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行擬合的時(shí)候,如果一味追求提高對(duì)訓(xùn)練數(shù)據(jù)的預(yù)測(cè)能力,所選擇模型的復(fù)雜度往往比“真”模型更高,這種現(xiàn)象稱為過擬合。過擬合造成的結(jié)果就是模型對(duì)已知數(shù)據(jù)的預(yù)測(cè)能力很好但是對(duì)未知數(shù)據(jù)預(yù)測(cè)效果很差。我們?cè)谶M(jìn)行模型訓(xùn)練求解的過程中應(yīng)該盡量避免過擬合的發(fā)生。

4.正則化

模型選擇的一個(gè)經(jīng)典方法是正則化。所謂的正則化,可以理解成為在損失函數(shù)的基礎(chǔ)上加上一個(gè)正則化項(xiàng)或者說懲罰項(xiàng)。正則化項(xiàng)一般是模型復(fù)雜度(可以簡單的理解成為模型參數(shù)的個(gè)數(shù))的單調(diào)遞增函數(shù),模型越復(fù)雜,正則化值就越大。其一般形式如下:

正則化的一般形式

其中,第1項(xiàng)是原有的損失函數(shù)項(xiàng),第2項(xiàng)是正則化項(xiàng),λ為調(diào)整二者之間關(guān)系的系數(shù),一般為正數(shù)。正則化有很多不同的形式,常用的一般有L1和L2范數(shù)。

回歸問題中的L2范數(shù)正則化
回歸問題中的L1范數(shù)正則化

5.交叉驗(yàn)證

交叉驗(yàn)證是另一種用來建立可靠的具有一定泛化能力的手段。一般來說交叉驗(yàn)證是將數(shù)據(jù)集隨機(jī)的分為訓(xùn)練集、驗(yàn)證集合測(cè)試集,三者的比例一般為7:2:1。其中訓(xùn)練集用來訓(xùn)練模型,驗(yàn)證集用于模型的選擇,測(cè)試集用于對(duì)最終學(xué)習(xí)方法的評(píng)估。一般來說我們選擇一個(gè)在驗(yàn)證集上具有最小預(yù)測(cè)誤差的模型作為最優(yōu)模型。
常用的三種交叉驗(yàn)證方法:

  • Holdout 驗(yàn)證
  • K折交叉驗(yàn)證
  • 留一交叉驗(yàn)證
    這里面最常用的就是K折交叉驗(yàn)證。方法為:初始采樣分割成K個(gè)子樣本,一個(gè)單獨(dú)的子樣本被保留作為驗(yàn)證模型的數(shù)據(jù),其他K-1個(gè)樣本用來訓(xùn)練。交叉驗(yàn)證重復(fù)K次,每個(gè)子樣本驗(yàn)證一次,平均K次的結(jié)果或者使用其它結(jié)合方式,最終得到一個(gè)單一評(píng)測(cè)。這個(gè)方法的優(yōu)勢(shì)在于,同時(shí)重復(fù)運(yùn)用隨機(jī)產(chǎn)生的子樣本進(jìn)行訓(xùn)練和驗(yàn)證,每次的結(jié)果驗(yàn)證一次,10折交叉驗(yàn)證是最常用的
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容