
導(dǎo)讀
-
直接看目錄結(jié)構(gòu),會(huì)感覺(jué)有點(diǎn)亂,就層級(jí)結(jié)構(gòu)來(lái)講感覺(jué)并不整齊。可以看本章概要部分,摘錄幾點(diǎn),希望對(duì)理解本章內(nèi)容編排有幫助:
- 統(tǒng)計(jì)學(xué)習(xí)三要素對(duì)理解統(tǒng)計(jì)學(xué)習(xí)方法起到提綱挈領(lǐng)的作用
- 本書(shū)主要討論監(jiān)督學(xué)習(xí)
- 分類問(wèn)題、標(biāo)注問(wèn)題和回歸問(wèn)題都是監(jiān)督學(xué)習(xí)的重要問(wèn)題
- 本書(shū)中介紹的統(tǒng)計(jì)學(xué)習(xí)方法包括...。這些方法是主要的分類、標(biāo)注以及回歸方法。他們又可歸類為生成方法與判別方法。
本章最后的三個(gè)部分,這三個(gè)問(wèn)題可以對(duì)比著看,如果暫時(shí)沒(méi)有概念,略過(guò)也可以,回頭對(duì)各個(gè)算法有了感覺(jué)回頭再看這里。
這三部分怎么對(duì)比,三部分都有個(gè)圖來(lái)說(shuō)明,仔細(xì)看下差異,本文后面會(huì)對(duì)此展開(kāi)。關(guān)于損失函數(shù),風(fēng)險(xiǎn)函數(shù)與目標(biāo)函數(shù)注意體會(huì)差異
-
后面插點(diǎn)從深度學(xué)習(xí)角度拿到的點(diǎn)
- 關(guān)于機(jī)器學(xué)習(xí)三要素, 復(fù)旦大學(xué)邱錫鵬教授也有解讀[^2]: 模型, 學(xué)習(xí)準(zhǔn)則, 優(yōu)化算法. 這個(gè)定義比較接近代碼. 以Tensorflow為例. 通常會(huì)定義一個(gè)網(wǎng)絡(luò)(模型), 定義Loss(學(xué)習(xí)準(zhǔn)則), 定義優(yōu)化算法(Optimizer), 然后開(kāi)Session, 不停的把數(shù)據(jù)帶入用Opitmizer去最小化Loss.
- Losses, Metrics, 在Keras里面劃分了兩個(gè)模塊, 解釋是Losses是BP過(guò)程用到的, 而Metrics實(shí)際和損失函數(shù)類似, 用來(lái)評(píng)價(jià)模型的性能, 但是不參與反向傳播. 從源碼也能看到, Metrics里面import了很多Loss算法
實(shí)現(xiàn)統(tǒng)計(jì)學(xué)習(xí)方法的步驟
統(tǒng)計(jì)學(xué)習(xí)方法三要素:模型,策略,算法.
- 得到一個(gè)有限的訓(xùn)練數(shù)據(jù)集合
- 確定包含所有可能的模型的假設(shè)空間, 即學(xué)習(xí)模型的集合.
- 確定模型選擇的準(zhǔn)則, 即學(xué)習(xí)的策略
- 實(shí)現(xiàn)求解最優(yōu)模型的算法, 即學(xué)習(xí)的算法
- 通過(guò)學(xué)習(xí)方法選擇最優(yōu)的模型
- 利用學(xué)習(xí)的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)或分析.
統(tǒng)計(jì)學(xué)習(xí)方法三要素
模型
模型是什么?
在監(jiān)督學(xué)習(xí)過(guò)程中, 模型就是所要學(xué)習(xí)的條件概率分布或者決策函數(shù).
注意書(shū)中的這部分描述,整理了一下到表格里:
| 假設(shè)空間 |
輸入空間 |
輸出空間 |
參數(shù)空間 | |||
|---|---|---|---|---|---|---|
| 決策函數(shù) | $\cal F\it ={f_{\theta} | Y=f_{\theta}(x), \theta \in \bf R \it ^n}$ | 變量 | 變量 | ||
| 條件概率分布 | $\cal F\it ={P | P_{\theta}(Y | X),\theta\in \bf R \it ^n}$ | 隨機(jī)變量 | 隨機(jī)變量 |
書(shū)中描述的時(shí)候,有提到條件概率分布族,這個(gè)留一下,后面CH06有提到確認(rèn)邏輯斯諦分布屬于指數(shù)分布族。
策略
損失函數(shù)與風(fēng)險(xiǎn)函數(shù)
損失函數(shù)度量模型一次預(yù)測(cè)的好壞,風(fēng)險(xiǎn)函數(shù)度量平均意義下模型預(yù)測(cè)的好壞。
損失函數(shù)(loss function)或代價(jià)函數(shù)(cost function)
損失函數(shù)定義為給定輸入的預(yù)測(cè)值
和真實(shí)值
之間的非負(fù)實(shí)值函數(shù), 記作
-
風(fēng)險(xiǎn)函數(shù)(risk function)或期望損失(expected loss)
這個(gè)和模型的泛化誤差的形式是一樣的
模型關(guān)于聯(lián)合分布
的平均意義下的損失(期望損失), 但是因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=P(X%2CY)" alt="P(X,Y)" mathimg="1">是未知的, 所以前面的用詞是期望, 以及平均意義下的.
這個(gè)表示其實(shí)就是損失的均值, 反映了對(duì)整個(gè)數(shù)據(jù)的預(yù)測(cè)效果的好壞,
轉(zhuǎn)換成
更容易直觀理解, 可以參考CH09, 6.2.2節(jié)的部分描述來(lái)理解, 但是真實(shí)的數(shù)據(jù)N是無(wú)窮的.
經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk)或經(jīng)驗(yàn)損失(empirical loss)
模型關(guān)于訓(xùn)練樣本集的平均損失
根據(jù)大數(shù)定律, 當(dāng)樣本容量N趨于無(wú)窮大時(shí), 經(jīng)驗(yàn)風(fēng)險(xiǎn)趨于期望風(fēng)險(xiǎn)結(jié)構(gòu)風(fēng)險(xiǎn)(structural risk)
為模型復(fù)雜度,
是系數(shù), 用以權(quán)衡經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜度.
常用損失函數(shù)
損失函數(shù)數(shù)值越小,模型就越好
- 0-1損失
- 平方損失
- 絕對(duì)損失
- 對(duì)數(shù)損失
這里,對(duì)應(yīng)的對(duì)數(shù)是負(fù)值,所以對(duì)數(shù)損失中包含一個(gè)負(fù)號(hào),為什么不是絕對(duì)值?因?yàn)榭隙ㄊ秦?fù)的。
ERM與SRM
經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)與結(jié)構(gòu)風(fēng)險(xiǎn)最小化(SRM)
-
極大似然估計(jì)是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的一個(gè)例子.
當(dāng)模型是條件概率分布, 損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí), 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化等價(jià)于極大似然估計(jì). -
貝葉斯估計(jì)中的最大后驗(yàn)概率估計(jì)是結(jié)構(gòu)風(fēng)險(xiǎn)最小化的一個(gè)例子.
當(dāng)模型是條件概率分布, 損失函數(shù)是對(duì)數(shù)損失函數(shù), 模型復(fù)雜度由模型的先驗(yàn)概率表示時(shí), 結(jié)構(gòu)風(fēng)險(xiǎn)最小化等價(jià)于最大后驗(yàn)概率估計(jì).
算法
這章里面簡(jiǎn)單提了一下,具體可以參考CH12表格中關(guān)于學(xué)習(xí)算法的描述。
模型選擇
- 正則化
模型選擇的典型方法是正則化 - 交叉驗(yàn)證
另一種常用的模型選擇方法是交叉驗(yàn)證- 簡(jiǎn)單
- S折(K折, K-Fold)[^1]
- 留一法
泛化能力
現(xiàn)實(shí)中采用最多的方法是通過(guò)測(cè)試誤差來(lái)評(píng)價(jià)學(xué)習(xí)方法的泛化能力
統(tǒng)計(jì)學(xué)習(xí)理論試圖從理論上對(duì)學(xué)習(xí)方法的泛化能力進(jìn)行分析
-
學(xué)習(xí)方法的泛化能力往往是通過(guò)研究泛化誤差的概率上界進(jìn)行的, 簡(jiǎn)稱為泛化誤差上界(generalization error bound)
這本書(shū)里面討論的不多,在CH08里面有討論提升方法的誤差分析, 提到
不需要知道下界
。在CH02中討論算法的收斂性的時(shí)候有提到誤分類次數(shù)的上界.
注意泛化誤差的定義,書(shū)中有說(shuō)事實(shí)上,泛化誤差就是所學(xué)習(xí)到的模型的期望風(fēng)險(xiǎn)
生成模型與判別模型
監(jiān)督學(xué)習(xí)方法可分為生成方法(generative approach)與判別方法(discriminative approach)
生成方法
generative approach
- 可以還原出聯(lián)合概率分布
- 收斂速度快, 當(dāng)樣本容量增加時(shí), 學(xué)到的模型可以更快收斂到真實(shí)模型
- 當(dāng)存在隱變量時(shí)仍可以用
判別方法
discriminative approach
- 直接學(xué)習(xí)條件概率
或者決策函數(shù)
- 直接面對(duì)預(yù)測(cè), 往往學(xué)習(xí)準(zhǔn)確率更高
- 可以對(duì)數(shù)據(jù)進(jìn)行各種程度的抽象, 定義特征并使用特征, 可以簡(jiǎn)化學(xué)習(xí)問(wèn)題
分類問(wèn)題、標(biāo)注問(wèn)題、回歸問(wèn)題
Classification, Tagging, Regression
- 圖1.4和圖1.5除了分類系統(tǒng)和標(biāo)注系統(tǒng)的差異外,沒(méi)看到其他差異,但實(shí)際上這兩幅圖中對(duì)應(yīng)的輸入數(shù)據(jù)有差異,序列數(shù)據(jù)的
對(duì)應(yīng)了
- 圖1.5和圖1.6,回歸問(wèn)題的產(chǎn)出為