4?模型評估與模型選擇
4.1?訓(xùn)練誤差與測試誤差
??假設(shè)學(xué)習(xí)到的模型是 ,訓(xùn)練誤差是模型
關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失:
其中
是訓(xùn)練樣本容量。
??測試誤差是模型 關(guān)于測試數(shù)據(jù)集的平均損失:
其中
是測試樣本容量。
4.2?過擬合與模型選擇
??當(dāng)假設(shè)空間含有不同復(fù)雜度的模型時,就要面臨模型的選擇問題。所選模型要與“真”模型的參數(shù)相同,所選模型的參數(shù)向量要與真模型的參數(shù)向量相近。如果一味的追求提高對訓(xùn)練集的預(yù)測能力,所選模型的復(fù)雜度則往往會比真模型更高。這種現(xiàn)象稱為過擬合。過擬合指得是學(xué)習(xí)時選擇的模型參數(shù)過多,以至出現(xiàn)這一模型對已知數(shù)據(jù)預(yù)測得很好,但是對未知數(shù)據(jù)預(yù)測得很差的現(xiàn)象??梢哉f模型選擇旨在避免過擬合名提高模型的預(yù)測能力。
??下面介紹兩種常用的模型選擇方法:正則化與交叉驗證。
5?正則化與交叉驗證
5.1?正則化
??正則化項一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜,正則化項越大。比如,正則化項可以是模型參數(shù)向量的范數(shù)。
??正則化一般具有如下形式:其中,第一項是經(jīng)驗風(fēng)險,第二項是正則化項,
為調(diào)整二者之間關(guān)系的系數(shù)。
??正則化符合奧卡姆剃刀 (Occam's razor) 原理。奧卡姆剃刀原理應(yīng)用于模型選擇變?yōu)橐韵孪敕ǎ?strong>在所有可能選擇的模型中,能夠很好地解釋已知數(shù)據(jù)并且十分簡單才是最好的模型。
5.2?交叉驗證
??交叉驗證的基本思想是重復(fù)地使用;把給定數(shù)據(jù)進行切分,將切分地數(shù)據(jù)集組合為訓(xùn)練集與測試集,在此基礎(chǔ)上反復(fù)地進行訓(xùn)練、測試以及模型選擇。
1. 簡單交叉驗證
??簡單交叉驗證的方法是:首先隨機地將已給數(shù)據(jù)分成兩部分,一部分作為訓(xùn)練集,另一部分作為測試集;然后用訓(xùn)練集在各種條件下訓(xùn)練模型,從而得到不同的模型;在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型。
2. 折交叉驗證
?? 折交叉驗證 (S-fold cross vlidation) 是應(yīng)用最多的交叉驗證方法,方法如下:首先隨機地將已給數(shù)據(jù)切分成
個互不相交、大小相同的自己;然后利用
個子集的數(shù)據(jù)訓(xùn)練模型,利用余下的子集測試模型;將這一過程對可能的
種選擇重復(fù)進行;最后選出
次測評種平均測試誤差最小的模型。
3. 留一交叉驗證
?? 折交叉驗證的特殊情況是
,稱為留一交叉驗證 (leave-one-out cross vlidation),往往在數(shù)據(jù)缺乏的時候使用。
6?泛化能力
6.1?泛化誤差
??學(xué)習(xí)方法的泛化能力 (generalization ability) 是指由該方法學(xué)習(xí)到的模型對未知數(shù)據(jù)的預(yù)測能力。首先給出泛化誤差的定義。若學(xué)習(xí)到的模型是 ,那么用這個模型對未知數(shù)據(jù)預(yù)測的誤差即為泛化誤差 (generalization error):
??泛化誤差反應(yīng)了學(xué)習(xí)方法的泛化能力,如果一種方法學(xué)習(xí)的模型比另一種方法學(xué)習(xí)的模型有更小的泛化誤差,那么這種方法就更加有效。
6.2?泛化誤差上界
??學(xué)習(xí)方法的泛化能力分析往往是通過研究泛化誤差的概率上界進行的,簡稱為泛化誤差上界 (generalization error bound)。對于一般的假設(shè)空間要找到泛化誤差上界比較困難,這里不做介紹。
7?生成模型與判別模型
??生成方法有數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布 ,然后求出條件概率分布
作為預(yù)測的模型,即生成模型:
這樣的方法之所以稱之為生成方法,是因為模型表示了給定輸入
產(chǎn)生輸出
的生成關(guān)系。典型的生成模型有樸素貝葉斯與隱馬爾可夫模型等。
??判別方法由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù) 或條件概率分布
作為預(yù)測的模型,即判別模型。判別方法關(guān)心的是對給定的輸入
,應(yīng)該預(yù)測怎么樣的輸出
。典型的判別模型有
近鄰法、感知機、決策樹、Logistics 回歸等。
??生成模型的特點:可以還原出聯(lián)合概率分布 ;收斂速度更快;當(dāng)存在隱變量時,仍可以使用。
??判別模型的特點:學(xué)習(xí)準確度更高;可以對數(shù)據(jù)進行各種程度的抽象、定義特征并使用特征,因此可以簡化學(xué)習(xí)問題。
8?監(jiān)督學(xué)習(xí)的應(yīng)用
8.1?分類問題
??在監(jiān)督學(xué)習(xí)中,當(dāng)輸出變量 取有限個離散值時,預(yù)測問題便稱為分類問題。這時,輸入變量
可以時離散的,也可以是連續(xù)的。分類的類別為多個是,稱為多類分類問題。本書主要討論二類分類問題。
??評價分類器性能的指標一般是分類準確率 (accuracy),其定義是:對于給定的測試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)之比。也就是 0-1 損失時測試數(shù)據(jù)集上的準確率。
??對于二類分類問題常用的評價指標時精確率 (precision) 與召回率 (recall)。通常以關(guān)注的類為正類,其他類為負類,分類器在測試數(shù)據(jù)集上的預(yù)測或正確或不正確,4種情況出現(xiàn)的總數(shù)分別記作:
??TP——將正類預(yù)測為正類;
??FN——將正類預(yù)測為負類;
??FP——將負類預(yù)測為正類;
??FN——將負類預(yù)測為負類;
??精確率定義為
??召回率定義為
??此外,還有 值,是精確率和召回率的調(diào)和平均值,即
8.2?標注問題
??標注問題的輸入是一個觀測序列,輸出是一個標記序列或狀態(tài)序列。可以認為標注問題是分類問題的一個推廣,標注問題有事更復(fù)雜的結(jié)構(gòu)預(yù)測問題的簡單形式。
??評價標注模型的指標與評價分類模型的指標一樣,常用的有標注準確率、精確率和召回率與分類模型相同。
??標注常用的統(tǒng)計學(xué)習(xí)方法有:隱馬爾科夫模型、條件隨機場。
8.3?回歸問題
??回歸 (regression) 用于預(yù)測輸入變量(自變量)與輸出變量(因變量)之間的關(guān)系,特別是當(dāng)輸入變量的值發(fā)生變化時,輸出變量的值隨之發(fā)生變化?;貧w模型正式表示從輸入變量當(dāng)輸出變量之間的函數(shù)?;貧w問題的學(xué)習(xí)等價于函數(shù)擬合。
??回歸學(xué)習(xí)最常用的損失函數(shù)時平方損失函數(shù),在此情況下,回歸問題可以由著名的最小二乘法 (least squares) 求解。