CH01 統(tǒng)計(jì)學(xué)習(xí)方法概論

4RcOWibT3oY.jpg

導(dǎo)讀

  • 直接看目錄結(jié)構(gòu),會(huì)感覺(jué)有點(diǎn)亂,就層級(jí)結(jié)構(gòu)來(lái)講感覺(jué)并不整齊。可以看本章概要部分,摘錄幾點(diǎn),希望對(duì)理解本章內(nèi)容編排有幫助:

    1. 統(tǒng)計(jì)學(xué)習(xí)三要素對(duì)理解統(tǒng)計(jì)學(xué)習(xí)方法起到提綱挈領(lǐng)的作用
    2. 本書(shū)主要討論監(jiān)督學(xué)習(xí)
    3. 分類問(wèn)題、標(biāo)注問(wèn)題和回歸問(wèn)題都是監(jiān)督學(xué)習(xí)的重要問(wèn)題
    4. 本書(shū)中介紹的統(tǒng)計(jì)學(xué)習(xí)方法包括...。這些方法是主要的分類、標(biāo)注以及回歸方法。他們又可歸類為生成方法與判別方法。
  • 本章最后的三個(gè)部分,這三個(gè)問(wèn)題可以對(duì)比著看,如果暫時(shí)沒(méi)有概念,略過(guò)也可以,回頭對(duì)各個(gè)算法有了感覺(jué)回頭再看這里。
    這三部分怎么對(duì)比,三部分都有個(gè)圖來(lái)說(shuō)明,仔細(xì)看下差異,本文后面會(huì)對(duì)此展開(kāi)。

  • 關(guān)于損失函數(shù),風(fēng)險(xiǎn)函數(shù)與目標(biāo)函數(shù)注意體會(huì)差異

  • 后面插點(diǎn)從深度學(xué)習(xí)角度拿到的點(diǎn)

    • 關(guān)于機(jī)器學(xué)習(xí)三要素, 復(fù)旦大學(xué)邱錫鵬教授也有解讀[^2]: 模型, 學(xué)習(xí)準(zhǔn)則, 優(yōu)化算法. 這個(gè)定義比較接近代碼. 以Tensorflow為例. 通常會(huì)定義一個(gè)網(wǎng)絡(luò)(模型), 定義Loss(學(xué)習(xí)準(zhǔn)則), 定義優(yōu)化算法(Optimizer), 然后開(kāi)Session, 不停的把數(shù)據(jù)帶入用Opitmizer去最小化Loss.
    • Losses, Metrics, 在Keras里面劃分了兩個(gè)模塊, 解釋是Losses是BP過(guò)程用到的, 而Metrics實(shí)際和損失函數(shù)類似, 用來(lái)評(píng)價(jià)模型的性能, 但是不參與反向傳播. 從源碼也能看到, Metrics里面import了很多Loss算法

實(shí)現(xiàn)統(tǒng)計(jì)學(xué)習(xí)方法的步驟

統(tǒng)計(jì)學(xué)習(xí)方法三要素:模型,策略,算法.

  1. 得到一個(gè)有限的訓(xùn)練數(shù)據(jù)集合
  2. 確定包含所有可能的模型的假設(shè)空間, 即學(xué)習(xí)模型的集合.
  3. 確定模型選擇的準(zhǔn)則, 即學(xué)習(xí)的策略
  4. 實(shí)現(xiàn)求解最優(yōu)模型的算法, 即學(xué)習(xí)的算法
  5. 通過(guò)學(xué)習(xí)方法選擇最優(yōu)的模型
  6. 利用學(xué)習(xí)的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)或分析.

統(tǒng)計(jì)學(xué)習(xí)方法三要素

模型

模型是什么?

在監(jiān)督學(xué)習(xí)過(guò)程中, 模型就是所要學(xué)習(xí)的條件概率分布或者決策函數(shù).

注意書(shū)中的這部分描述,整理了一下到表格里:

假設(shè)空間\cal F 輸入空間\cal X 輸出空間\cal Y 參數(shù)空間
決策函數(shù) $\cal F\it ={f_{\theta} Y=f_{\theta}(x), \theta \in \bf R \it ^n}$ 變量 變量 \bf R\it ^n
條件概率分布 $\cal F\it ={P P_{\theta}(Y X),\theta\in \bf R \it ^n}$ 隨機(jī)變量 隨機(jī)變量 \bf R\it ^n

書(shū)中描述的時(shí)候,有提到條件概率分布族,這個(gè)留一下,后面CH06有提到確認(rèn)邏輯斯諦分布屬于指數(shù)分布族。

策略

損失函數(shù)與風(fēng)險(xiǎn)函數(shù)

損失函數(shù)度量模型一次預(yù)測(cè)的好壞,風(fēng)險(xiǎn)函數(shù)度量平均意義下模型預(yù)測(cè)的好壞。

  1. 損失函數(shù)(loss function)或代價(jià)函數(shù)(cost function)
    損失函數(shù)定義為給定輸入X預(yù)測(cè)值f(X)真實(shí)值Y之間的非負(fù)實(shí)值函數(shù), 記作L(Y,f(X))

  2. 風(fēng)險(xiǎn)函數(shù)(risk function)或期望損失(expected loss)
    這個(gè)和模型的泛化誤差的形式是一樣的
    R_{exp}(f)=E_p[L(Y, f(X))]=\int_{\mathcal X\times\mathcal Y}L(y,f(x))P(x,y)\, {\rm d}x{\rm d}y
    模型f(X)關(guān)于聯(lián)合分布P(X,Y)平均意義下的損失(期望損失), 但是因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=P(X%2CY)" alt="P(X,Y)" mathimg="1">是未知的, 所以前面的用詞是期望, 以及平均意義下的.

    這個(gè)表示其實(shí)就是損失的均值, 反映了對(duì)整個(gè)數(shù)據(jù)的預(yù)測(cè)效果的好壞, P(x,y)轉(zhuǎn)換成\frac {\nu(X=x, Y=y)}{N}更容易直觀理解, 可以參考CH09, 6.2.2節(jié)的部分描述來(lái)理解, 但是真實(shí)的數(shù)據(jù)N是無(wú)窮的.

  3. 經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk)或經(jīng)驗(yàn)損失(empirical loss)
    R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))
    模型f關(guān)于訓(xùn)練樣本集的平均損失
    根據(jù)大數(shù)定律, 當(dāng)樣本容量N趨于無(wú)窮大時(shí), 經(jīng)驗(yàn)風(fēng)險(xiǎn)趨于期望風(fēng)險(xiǎn)

  4. 結(jié)構(gòu)風(fēng)險(xiǎn)(structural risk)
    R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)
    J(f)為模型復(fù)雜度, \lambda \geqslant 0是系數(shù), 用以權(quán)衡經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜度.

常用損失函數(shù)

損失函數(shù)數(shù)值越小,模型就越好

L(Y,f(X))

  1. 0-1損失
    L=\begin{cases}1, Y \neq f(X) \\0, Y=f(X) \end{cases}
  2. 平方損失
    L=(Y-f(X))^2
  3. 絕對(duì)損失
    L=|Y-f(X)|

L(Y,P(Y|X))

  1. 對(duì)數(shù)損失
    這里P(Y|X)\leqslant 1,對(duì)應(yīng)的對(duì)數(shù)是負(fù)值,所以對(duì)數(shù)損失中包含一個(gè)負(fù)號(hào),為什么不是絕對(duì)值?因?yàn)榭隙ㄊ秦?fù)的。
    L=-\log P(Y|X)

ERM與SRM

經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)與結(jié)構(gòu)風(fēng)險(xiǎn)最小化(SRM)

  1. 極大似然估計(jì)是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的一個(gè)例子.
    當(dāng)模型是條件概率分布, 損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí), 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化等價(jià)于極大似然估計(jì).
  2. 貝葉斯估計(jì)中的最大后驗(yàn)概率估計(jì)是結(jié)構(gòu)風(fēng)險(xiǎn)最小化的一個(gè)例子.
    當(dāng)模型是條件概率分布, 損失函數(shù)是對(duì)數(shù)損失函數(shù), 模型復(fù)雜度由模型的先驗(yàn)概率表示時(shí), 結(jié)構(gòu)風(fēng)險(xiǎn)最小化等價(jià)于最大后驗(yàn)概率估計(jì).

算法

這章里面簡(jiǎn)單提了一下,具體可以參考CH12表格中關(guān)于學(xué)習(xí)算法的描述。

模型選擇

  1. 正則化
    模型選擇的典型方法是正則化
  2. 交叉驗(yàn)證
    另一種常用的模型選擇方法是交叉驗(yàn)證
    • 簡(jiǎn)單
    • S折(K折, K-Fold)[^1]
    • 留一法

泛化能力

  • 現(xiàn)實(shí)中采用最多的方法是通過(guò)測(cè)試誤差來(lái)評(píng)價(jià)學(xué)習(xí)方法的泛化能力

  • 統(tǒng)計(jì)學(xué)習(xí)理論試圖從理論上對(duì)學(xué)習(xí)方法的泛化能力進(jìn)行分析

  • 學(xué)習(xí)方法的泛化能力往往是通過(guò)研究泛化誤差的概率上界進(jìn)行的, 簡(jiǎn)稱為泛化誤差上界(generalization error bound)

    這本書(shū)里面討論的不多,在CH08里面有討論提升方法的誤差分析, 提到AdaBoost不需要知道下界\gamma。在CH02中討論算法的收斂性的時(shí)候有提到誤分類次數(shù)的上界.

注意泛化誤差的定義,書(shū)中有說(shuō)事實(shí)上,泛化誤差就是所學(xué)習(xí)到的模型的期望風(fēng)險(xiǎn)

生成模型與判別模型

監(jiān)督學(xué)習(xí)方法可分為生成方法(generative approach)與判別方法(discriminative approach)

生成方法

generative approach

  • 可以還原出聯(lián)合概率分布P(X,Y)
  • 收斂速度快, 當(dāng)樣本容量增加時(shí), 學(xué)到的模型可以更快收斂到真實(shí)模型
  • 當(dāng)存在隱變量時(shí)仍可以用

判別方法

discriminative approach

  • 直接學(xué)習(xí)條件概率P(Y|X)或者決策函數(shù)f(X)
  • 直接面對(duì)預(yù)測(cè), 往往學(xué)習(xí)準(zhǔn)確率更高
  • 可以對(duì)數(shù)據(jù)進(jìn)行各種程度的抽象, 定義特征并使用特征, 可以簡(jiǎn)化學(xué)習(xí)問(wèn)題

分類問(wèn)題、標(biāo)注問(wèn)題、回歸問(wèn)題

Classification, Tagging, Regression

  • 圖1.4和圖1.5除了分類系統(tǒng)和標(biāo)注系統(tǒng)的差異外,沒(méi)看到其他差異,但實(shí)際上這兩幅圖中對(duì)應(yīng)的輸入數(shù)據(jù)有差異,序列數(shù)據(jù)的x_i = (x_i^{(1)},x_i^{(2)},\dots,x_i^{(n)})^T對(duì)應(yīng)了
  • 圖1.5和圖1.6,回歸問(wèn)題的產(chǎn)出為Y=\hat f(X)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容