機(jī)器學(xué)習(xí)誤差:
? ? 訓(xùn)練誤差或者經(jīng)驗(yàn)誤差:學(xué)習(xí)器在訓(xùn)練集上的誤差
? ? 泛化誤差:在新樣本上的誤差
評(píng)估方法:
? ? 留出法:直接將數(shù)據(jù)集分為互斥的集合,一個(gè)作為訓(xùn)練集一個(gè)作為測試集。
? ? ? ? ①訓(xùn)練和測試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布的一致性
? ? ? ? ②單次使用留出法得到的估計(jì)結(jié)果往往不夠穩(wěn)定可靠
? ? 交叉驗(yàn)證法(k折交叉驗(yàn)證):將數(shù)據(jù)集劃分為k個(gè)大小相似的互斥子集,每個(gè)子集都盡可能保持?jǐn)?shù)據(jù)分布一致性,然后每次用k-1個(gè)子集的并集作為訓(xùn)練集,余下的那個(gè)子集作為測試集,進(jìn)行k次訓(xùn)練和測試。
????????①與留出法相似,存在多種劃分方式,通常需要隨機(jī)使用不同的劃分重復(fù)p次求均值
? ? 留一法:若樣本m個(gè),劃分k=m次,則得到了交叉驗(yàn)證法的一個(gè)特例。
????????①留一法訓(xùn)練出的模型和整個(gè)數(shù)據(jù)集訓(xùn)練出來的模型很相似,評(píng)估結(jié)果往往被認(rèn)為較準(zhǔn)確
? ? ? ? ②留一法開銷特別大
? ? 自助法:隨機(jī)從數(shù)據(jù)集D中采樣m次(重復(fù)采樣),得到m個(gè)數(shù)據(jù)的數(shù)據(jù)集作為訓(xùn)練集,剩下的作為測試集
? ? ? ? ①減少訓(xùn)練樣本規(guī)模不同造成的影響,同時(shí)還能比較高效地進(jìn)行實(shí)驗(yàn)估計(jì)(why?)
? ? ? ? ②自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練和測試集時(shí)很有用
? ? ? ? ③自助法產(chǎn)生的數(shù)據(jù)集改變了初始數(shù)據(jù)集的分布,引入了估計(jì)偏差。在初始數(shù)據(jù)量足夠時(shí),留出法和交叉驗(yàn)證法更常用一些。? ? ? ??