機(jī)器學(xué)習(xí)入門筆記2-單變量線性回歸

介紹單變量的線性回歸以及用梯度下降法求解參數(shù)。

2.1 模型表示

機(jī)器學(xué)習(xí)的目標(biāo)就是,給定一個(gè)訓(xùn)練集,去學(xué)習(xí)一個(gè)假設(shè),它能很好地預(yù)測出輸入對(duì)應(yīng)的輸出值。


  • 描述問題的標(biāo)記:


2.2 代價(jià)函數(shù)

單變量線性回歸的一種可能的表示如下:


  • 參數(shù) theta 的選擇決定了模型預(yù)測值與實(shí)際值之間的差距。下圖中藍(lán)色垂線代表建模誤差。


  • 我們的目標(biāo)選擇出可以使建模誤差的平方和最小的模型參數(shù)。即,使得下列代價(jià)函數(shù)最?。?/p>


    平方誤差是解決回歸問題最常用的手段。

2.3 梯度下降

在前面一小節(jié)已經(jīng)說到,我們要找到使得代價(jià)函數(shù)最小的那組theta值,因此這里引入梯度下降法。

  • 目標(biāo):
  • 梯度下降算法:

    更新theta的值,使得代價(jià)函數(shù)按梯度下降最快的方向進(jìn)行,一直迭代下去,最終得到局部最小值。


  • 學(xué)習(xí)率 α 決定了沿著能讓代價(jià)函數(shù)下降程度最大的方向,向下邁出的步子有多大。
    學(xué)習(xí)率太大,梯度下降法可能會(huì)越過最低點(diǎn),甚至導(dǎo)致無法發(fā)散。
    學(xué)習(xí)率過小,梯度下降會(huì)非常慢,因?yàn)槊看蔚荒茏咭恍〔健?/p>

假設(shè)θ開始被放在局部最低點(diǎn)會(huì)怎樣?
局部最低點(diǎn)導(dǎo)數(shù)為0,θ將不被更新。這也解釋了為什么即使學(xué)習(xí)率不變,梯度下降也能收斂到局部最低點(diǎn)。其實(shí)在梯度下降過程中,向局部最小值方向移動(dòng)時(shí),切線斜率會(huì)越來越小,實(shí)際上每次更新的幅度也在減小,所以沒必要再另外減小α。

2.4 梯度下降的線性回歸

介紹到這里,我們就可以拿梯度下降法來求解線性回歸的最優(yōu)解了?;仡櫹戮€性回歸模型和代價(jià)函數(shù),我們要做得是對(duì)代價(jià)函數(shù)求關(guān)于θ的偏導(dǎo)數(shù),從而不斷更新θ,使得到達(dá)局部最低點(diǎn)。實(shí)際上對(duì)于線性回歸,其代價(jià)函數(shù)是凸函數(shù),所以局部最低點(diǎn)也是全局最低點(diǎn)。
以下是求導(dǎo)過程,省略了某些細(xì)節(jié)。



所以,在算法中,只需要按照上式更新。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容