介紹單變量的線性回歸以及用梯度下降法求解參數(shù)。
2.1 模型表示
機(jī)器學(xué)習(xí)的目標(biāo)就是,給定一個(gè)訓(xùn)練集,去學(xué)習(xí)一個(gè)假設(shè),它能很好地預(yù)測出輸入對(duì)應(yīng)的輸出值。

-
描述問題的標(biāo)記:
2.2 代價(jià)函數(shù)
單變量線性回歸的一種可能的表示如下:

-
參數(shù) theta 的選擇決定了模型預(yù)測值與實(shí)際值之間的差距。下圖中藍(lán)色垂線代表建模誤差。
-
我們的目標(biāo)選擇出可以使建模誤差的平方和最小的模型參數(shù)。即,使得下列代價(jià)函數(shù)最?。?/p>
平方誤差是解決回歸問題最常用的手段。
2.3 梯度下降
在前面一小節(jié)已經(jīng)說到,我們要找到使得代價(jià)函數(shù)最小的那組theta值,因此這里引入梯度下降法。
-
目標(biāo):
-
梯度下降算法:
更新theta的值,使得代價(jià)函數(shù)按梯度下降最快的方向進(jìn)行,一直迭代下去,最終得到局部最小值。
-
學(xué)習(xí)率 α 決定了沿著能讓代價(jià)函數(shù)下降程度最大的方向,向下邁出的步子有多大。
學(xué)習(xí)率太大,梯度下降法可能會(huì)越過最低點(diǎn),甚至導(dǎo)致無法發(fā)散。
學(xué)習(xí)率過小,梯度下降會(huì)非常慢,因?yàn)槊看蔚荒茏咭恍〔健?/p>
假設(shè)θ開始被放在局部最低點(diǎn)會(huì)怎樣?
局部最低點(diǎn)導(dǎo)數(shù)為0,θ將不被更新。這也解釋了為什么即使學(xué)習(xí)率不變,梯度下降也能收斂到局部最低點(diǎn)。其實(shí)在梯度下降過程中,向局部最小值方向移動(dòng)時(shí),切線斜率會(huì)越來越小,實(shí)際上每次更新的幅度也在減小,所以沒必要再另外減小α。
2.4 梯度下降的線性回歸
介紹到這里,我們就可以拿梯度下降法來求解線性回歸的最優(yōu)解了?;仡櫹戮€性回歸模型和代價(jià)函數(shù),我們要做得是對(duì)代價(jià)函數(shù)求關(guān)于θ的偏導(dǎo)數(shù),從而不斷更新θ,使得到達(dá)局部最低點(diǎn)。實(shí)際上對(duì)于線性回歸,其代價(jià)函數(shù)是凸函數(shù),所以局部最低點(diǎn)也是全局最低點(diǎn)。
以下是求導(dǎo)過程,省略了某些細(xì)節(jié)。

所以,在算法中,只需要按照上式更新。






