【機(jī)器學(xué)習(xí)】評(píng)價(jià)Evaluation

Inductive Learning Hypothesis:?

Any hypothesis found to

approximate the target function well over (a sufficiently large)

training data set will also approximate the target function well

over held-out test examples

假設(shè)與假設(shè)空間

假設(shè)可以認(rèn)為是某種規(guī)律,也可以說某個(gè)模型。一個(gè)特定問題可以有很多假設(shè)(往往是無窮多的),這些假設(shè)就組成了假設(shè)空間。借助算法,我們可以從假設(shè)集中選出合理的假設(shè)。

歸納偏好

算法的目的是要根據(jù)訓(xùn)練數(shù)據(jù),從假設(shè)空間中選出最佳的一個(gè)假設(shè)??赡芗僭O(shè)空間中有很多假設(shè)都滿足訓(xùn)練集,這些假設(shè)構(gòu)成版本空間。

接下來還要從版本空間中挑一個(gè)假設(shè)出來。在其中假設(shè)都滿足訓(xùn)練數(shù)據(jù)的情況下,算法必然要有一些偏好,比如希望模型更普適還是更特異。比較常用的一種偏好稱為“奧卡姆剃刀原則”,即選擇最簡(jiǎn)單的那個(gè)假設(shè)。

Overfitting過擬合

在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中,overfitting一般在描述統(tǒng)計(jì)學(xué)模型隨機(jī)誤差或噪音時(shí)用到。它通常發(fā)生在模型過于復(fù)雜的情況下,如參數(shù)過多等。overfitting會(huì)使得模型的預(yù)測(cè)性能變?nèi)?,并且增加?shù)據(jù)的波動(dòng)性。

發(fā)生overfitting是因?yàn)樵u(píng)判訓(xùn)練模型的標(biāo)準(zhǔn)不適用于作為評(píng)判該模型好壞的標(biāo)準(zhǔn),模型通常會(huì)增強(qiáng)模型在訓(xùn)練模型的預(yù)測(cè)性能。但是模型的性能并不是由模型在訓(xùn)練集的表現(xiàn)好壞而決定,它是由模型在未知數(shù)據(jù)集上的表現(xiàn)確定的。當(dāng)模型開始“memorize”訓(xùn)練數(shù)據(jù)而不是從訓(xùn)練數(shù)據(jù)中“l(fā)earning”時(shí),overfitting就出現(xiàn)了。比如,如果模型的parameters大于或等于觀測(cè)值的個(gè)數(shù),這種模型會(huì)顯得過于簡(jiǎn)單,雖然模型在訓(xùn)練時(shí)的效果可以表現(xiàn)的很完美,基本上記住了數(shù)據(jù)的全部特點(diǎn),但這種模型在未知數(shù)據(jù)的表現(xiàn)能力會(huì)大減折扣,因?yàn)楹?jiǎn)單的模型泛化能力通常都是很弱的。


上面這個(gè)圖,是通過線性函數(shù)和多項(xiàng)式函數(shù)來擬合這些數(shù)據(jù)點(diǎn),顯然多項(xiàng)式函數(shù)擬合效果很完美,包含了所有的點(diǎn),而線性函數(shù)丟失了大部分點(diǎn)。但實(shí)際上,線性函數(shù)有一個(gè)很好的泛化能力,如果用這些點(diǎn)來做一個(gè)回歸線,多項(xiàng)式函數(shù)過擬合的情況更糟糕。

過擬合不僅和參數(shù)的個(gè)數(shù)以及數(shù)據(jù)有關(guān),也和數(shù)據(jù)形狀模型結(jié)構(gòu)的一致性有關(guān)。

為了避免過擬合,有必要使用一些額外的技術(shù)(如交叉驗(yàn)證、正則化、early stopping、貝斯信息量準(zhǔn)則、赤池信息量準(zhǔn)則或model comparison),以指出何時(shí)會(huì)有更多訓(xùn)練而沒有導(dǎo)致更好的一般化。


泛化(generalisation)是指模型很好地?cái)M合以前未見過的新數(shù)據(jù)(從用于創(chuàng)建該模型的同一分布中抽?。┑哪芰Α?/p>






Bias和Variance? ?偏差和方差


當(dāng)我們談?wù)摍C(jī)器學(xué)習(xí)模型的誤差的時(shí)候,這個(gè)誤差可以主要分為兩部分,bias和variance。一般情況下,模型需要在bias和variance之間取得一個(gè)平衡。bias小的模型,variance一般大;variance小的模型,bias一般大。更好的理解bias和variance的關(guān)系能夠幫助我們更好的應(yīng)付模型的過擬合和欠擬合問題。接下來對(duì)bias和variance者兩種誤差進(jìn)行介紹。

Error due to Bias:?Bias表示的就是模型預(yù)測(cè)的值和真實(shí)值之間的距離的期望。所以我們會(huì)通過建立多個(gè)模型(如使用不同的數(shù)據(jù)子集)來估計(jì)這個(gè)誤差期望值。Bias代表著算法的擬合能力。

Error due to Variance:?Variance表示的是當(dāng)你對(duì)一個(gè)模型使用不同的數(shù)據(jù)進(jìn)行多次建模時(shí),這些模型在某一個(gè)點(diǎn)上的預(yù)測(cè)值的方差就是該模型在這個(gè)點(diǎn)上預(yù)測(cè)值的variance。其實(shí)就是預(yù)測(cè)值的方差的意思。Variance代表這算法的魯棒性。

圖1: bias和variance的圖示




Remember:

? High bias and high variance are often “bad”, but low bias and low variance are no guarantee of “good”!

????????? The weighted random classifier is low bias

????????? 0-R is low variance (zero variance)

? Lower bias and lower variance is no guarantee of “better”!

????????? But generally desirable, all else equal


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容