經(jīng)由偏差 - 方差的權(quán)衡,我們可以更好地理解機(jī)器學(xué)習(xí)算法。
偏差(bias)是模型所做的簡(jiǎn)化假設(shè),其目的是更容易地學(xué)習(xí)目標(biāo)函數(shù)。
通常,參數(shù)算法具有高偏差。它們學(xué)習(xí)起來很快,且易于理解,但通常不太靈活。反過來,它們對(duì)復(fù)雜問題的預(yù)測(cè)性能較低,無法滿足算法偏差的簡(jiǎn)化假設(shè)。
決策樹是一種低偏差算法,而線性回歸則是一種高偏差算法。
方差(variance)表示的是,如果使用不同的訓(xùn)練數(shù)據(jù),目標(biāo)函數(shù)的估計(jì)有多少的變化量。目標(biāo)函數(shù)是通過機(jī)器學(xué)習(xí)算法從訓(xùn)練數(shù)據(jù)中估計(jì)而成的,因此我們應(yīng)該期望算法具有一些方差,而不是零方差。
K-Nearest Neighbors算法是一個(gè)典型的高方差算法,而線性判別分析是低方差算法的一個(gè)例子。
任何預(yù)測(cè)建模的機(jī)器學(xué)習(xí)算法,都有一個(gè)目標(biāo):實(shí)現(xiàn)低偏差和低方差。反之,該算法應(yīng)該具有良好的預(yù)測(cè)性能。機(jī)器學(xué)習(xí)算法的參數(shù)化通常是在偏差和方差之間取得平衡。
增加偏差會(huì)減少方差。
增加方差將減少偏差。