Inductive Learning Hypothesis:?
Any hypothesis found to
approximate the target function well over (a sufficiently large)
training data set will also approximate the target function well
over held-out test examples
假設(shè)與假設(shè)空間
假設(shè)可以認(rèn)為是某種規(guī)律,也可以說某個(gè)模型。一個(gè)特定問題可以有很多假設(shè)(往往是無窮多的),這些假設(shè)就組成了假設(shè)空間。借助算法,我們可以從假設(shè)集中選出合理的假設(shè)。
歸納偏好
算法的目的是要根據(jù)訓(xùn)練數(shù)據(jù),從假設(shè)空間中選出最佳的一個(gè)假設(shè)??赡芗僭O(shè)空間中有很多假設(shè)都滿足訓(xùn)練集,這些假設(shè)構(gòu)成版本空間。
接下來還要從版本空間中挑一個(gè)假設(shè)出來。在其中假設(shè)都滿足訓(xùn)練數(shù)據(jù)的情況下,算法必然要有一些偏好,比如希望模型更普適還是更特異。比較常用的一種偏好稱為“奧卡姆剃刀原則”,即選擇最簡(jiǎn)單的那個(gè)假設(shè)。
Overfitting過擬合
在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中,overfitting一般在描述統(tǒng)計(jì)學(xué)模型隨機(jī)誤差或噪音時(shí)用到。它通常發(fā)生在模型過于復(fù)雜的情況下,如參數(shù)過多等。overfitting會(huì)使得模型的預(yù)測(cè)性能變?nèi)?,并且增加?shù)據(jù)的波動(dòng)性。
發(fā)生overfitting是因?yàn)樵u(píng)判訓(xùn)練模型的標(biāo)準(zhǔn)不適用于作為評(píng)判該模型好壞的標(biāo)準(zhǔn),模型通常會(huì)增強(qiáng)模型在訓(xùn)練模型的預(yù)測(cè)性能。但是模型的性能并不是由模型在訓(xùn)練集的表現(xiàn)好壞而決定,它是由模型在未知數(shù)據(jù)集上的表現(xiàn)確定的。當(dāng)模型開始“memorize”訓(xùn)練數(shù)據(jù)而不是從訓(xùn)練數(shù)據(jù)中“l(fā)earning”時(shí),overfitting就出現(xiàn)了。比如,如果模型的parameters大于或等于觀測(cè)值的個(gè)數(shù),這種模型會(huì)顯得過于簡(jiǎn)單,雖然模型在訓(xùn)練時(shí)的效果可以表現(xiàn)的很完美,基本上記住了數(shù)據(jù)的全部特點(diǎn),但這種模型在未知數(shù)據(jù)的表現(xiàn)能力會(huì)大減折扣,因?yàn)楹?jiǎn)單的模型泛化能力通常都是很弱的。
上面這個(gè)圖,是通過線性函數(shù)和多項(xiàng)式函數(shù)來擬合這些數(shù)據(jù)點(diǎn),顯然多項(xiàng)式函數(shù)擬合效果很完美,包含了所有的點(diǎn),而線性函數(shù)丟失了大部分點(diǎn)。但實(shí)際上,線性函數(shù)有一個(gè)很好的泛化能力,如果用這些點(diǎn)來做一個(gè)回歸線,多項(xiàng)式函數(shù)過擬合的情況更糟糕。
過擬合不僅和參數(shù)的個(gè)數(shù)以及數(shù)據(jù)有關(guān),也和數(shù)據(jù)形狀模型結(jié)構(gòu)的一致性有關(guān)。
為了避免過擬合,有必要使用一些額外的技術(shù)(如交叉驗(yàn)證、正則化、early stopping、貝斯信息量準(zhǔn)則、赤池信息量準(zhǔn)則或model comparison),以指出何時(shí)會(huì)有更多訓(xùn)練而沒有導(dǎo)致更好的一般化。

泛化(generalisation)是指模型很好地?cái)M合以前未見過的新數(shù)據(jù)(從用于創(chuàng)建該模型的同一分布中抽?。┑哪芰Α?/p>




Bias和Variance? ?偏差和方差
當(dāng)我們談?wù)摍C(jī)器學(xué)習(xí)模型的誤差的時(shí)候,這個(gè)誤差可以主要分為兩部分,bias和variance。一般情況下,模型需要在bias和variance之間取得一個(gè)平衡。bias小的模型,variance一般大;variance小的模型,bias一般大。更好的理解bias和variance的關(guān)系能夠幫助我們更好的應(yīng)付模型的過擬合和欠擬合問題。接下來對(duì)bias和variance者兩種誤差進(jìn)行介紹。
Error due to Bias:?Bias表示的就是模型預(yù)測(cè)的值和真實(shí)值之間的距離的期望。所以我們會(huì)通過建立多個(gè)模型(如使用不同的數(shù)據(jù)子集)來估計(jì)這個(gè)誤差期望值。Bias代表著算法的擬合能力。
Error due to Variance:?Variance表示的是當(dāng)你對(duì)一個(gè)模型使用不同的數(shù)據(jù)進(jìn)行多次建模時(shí),這些模型在某一個(gè)點(diǎn)上的預(yù)測(cè)值的方差就是該模型在這個(gè)點(diǎn)上預(yù)測(cè)值的variance。其實(shí)就是預(yù)測(cè)值的方差的意思。Variance代表這算法的魯棒性。

圖1: bias和variance的圖示


Remember:
? High bias and high variance are often “bad”, but low bias and low variance are no guarantee of “good”!
????????? The weighted random classifier is low bias
????????? 0-R is low variance (zero variance)
? Lower bias and lower variance is no guarantee of “better”!
????????? But generally desirable, all else equal
