梯度下降法:(已最快的速度找到最優(yōu)解的方法)

自己的理解:有監(jiān)督的機(jī)器學(xué)習(xí),利用給定的一批X和Y取解參數(shù),即模型。在線性回歸方程的問題上,我們的目的是要求得wo,w1...wn這些參數(shù)。用線性代數(shù)的方式表達(dá)即是W(theta)。根據(jù)最小方差的公式可以準(zhǔn)確的計(jì)算出W。但這在樣本和特征(即x1,x2...xn這些因變量)少的情況下還行,在特征值非常多的情況下,如圖片的像素點(diǎn)就非常困難。所以采用梯度下降法的方式來解決
基本公式? theta1 = theta0 - gradient*learning_rate
gradient:梯度,即方程的導(dǎo)數(shù),在當(dāng)時(shí)的時(shí)刻(theta值)導(dǎo)數(shù)的值反應(yīng)了函數(shù)變化量。
我們的目的是找到導(dǎo)數(shù)gradient的值=0的時(shí)刻對(duì)應(yīng)的theta值,當(dāng)theta在目標(biāo)值(最有theta)左邊,梯度值小于0,減去梯度導(dǎo)致theta更盡皆目標(biāo)值。相反在右邊梯度大于0,同樣使得theta更接近目標(biāo)值。
learning_rate:學(xué)習(xí)率,根據(jù)經(jīng)驗(yàn)來調(diào)整
對(duì)于線性回歸的方程,在擁有多個(gè)特征的情況下theta不是一個(gè)值。而是一個(gè)向量。所以一般情況下我們要求得的是每個(gè)因變量對(duì)應(yīng)的偏導(dǎo)
線性公式求偏導(dǎo)過程:

求解過程:前部分用線性代數(shù)的方式表示,復(fù)合函數(shù)的求導(dǎo),偏導(dǎo)數(shù)的理解