国产春色另类,久久精品美女

一、概念引入

線性回歸，就是能夠用一個直線/一個平面···較為精確地描述數(shù)據(jù)之間的關(guān)系。常見的格式為：
$Y=\theta_0+\theta_1X_1+...+\theta_nX_n$

通過計算數(shù)據(jù)的線性回歸，可以得到各個變量X對于Y的權(quán)重 $\theta$ ，可以由已知的X推導出Y值。

例如：銀行借貸額度由你的工資和年齡決定。
那么對于借貸額度而言，工資和年齡哪個比較重要？
已知你的工資和年齡，能否推斷出銀行為你開放借貸額度為多少？

線性回歸就是假設借貸額度Y，工資 $X_1$ 和年齡 $X_2$ 成線性關(guān)系: $Y=\theta_0+\theta_1X_1+\theta_2X_2$
$\theta_1$ 、 $\theta_2$ 表示工資 $X_1$ 和年齡 $X_2$ 對于借貸額度的重要性權(quán)重。
如果已知 $\theta_0$ 、 $\theta_1$ 、 $\theta_2$ 的值，就可以根據(jù)工資和年齡推斷出銀行為你開放借貸額度

二、成本函數(shù)

那么如何獲得 $\theta_0$ 、 $\theta_1$ 、 $\theta_2$ 的值呢？
引入一個成本函數(shù) $J(\theta)$ ，有些地方也叫“損失函數(shù)”：
$J(\theta) = \frac{1}{2m}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2$
這個函數(shù)的輸入對象為m*n的數(shù)據(jù)：

特征1	特征2	...	特征n	Y
x11	x12	...	x1n	y1
x21	x22	...	x2n	y2
...	...	...	...	...
xm1	xm2	...	xmn	ym

$(y^{(i)}-\theta^Tx^{(i)})^2$ 就是第 $i$ 個實際值 $y_{(i)}$ 和算法計算值之間的差距平方。

引入成本函數(shù) $J(\theta)$ 用來描述算法的擬合效果， $J(\theta)$ 越小說明擬合效果越好。

所以求算法最優(yōu)的參數(shù) $\theta$ 等價與計算最小 $J(\theta)$ 時 $\theta$ 的值。

三、梯度下降

那么怎么才能求得最小的 $J(\theta)$ 呢?
假設下圖為 $J(\theta)$ 的空間分布圖，X軸、Y軸為 $\theta_1$ 、 $\theta_2$ 。隨著 $\theta_1$ 、 $\theta_2$ 的變化， $J(\theta)$ 的值也在變化。

當然我們的目的是找到 $J(\theta)$ 最小時的 $\theta_1$ 、 $\theta_2$ 的值。

是不是和我們上山下山有點像，一開始在 $A$ 點，朝著下坡的方向走一步到新的 $A_1$ ；然后朝著下坡的方向再走一步，···，走到局部最低點以后，朝著上坡的方向走一步，一步步走，直到最后知道全局的最低谷。

所謂上坡、下坡其實就是 $J(\theta)$ 在各個 $\theta$ 上的偏度，例如計算 $J(\theta)$ 在 $\theta_j$ 上的偏度:
$\frac{\partial J(\theta)}{\partial \theta_j} = \frac{\partial [\frac{1}{2m}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2]}{\partial \theta_j}$
$=\frac{1}{2m}\frac{\partial [\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2]}{\partial \theta_j}$
偏導數(shù)可以穿透累加器
$=\frac{1}{2m}\sum_{i=1}^m\frac{\partial [(y^{(i)}-\theta^Tx^{(i)})^2]}{\partial \theta_j}$
微分鏈接法則
$=\frac{1}{2m}\sum_{i=1}^m [2(y^{(i)}-\theta^Tx^{(i)})*\frac{?}{?θ_j}(y^{(i)} - \theta^Tx^{(i)})]$
$=-\frac{1}{m}\sum_{i=1}^m((y^{(i)} - \theta^Tx^{(i)})x_j^{(i)})$

經(jīng)過偏度的計算，知道下一步的方向，但每個人邁一步的長度是有限制的，我們引入學習率 $\alpha$ ，相當于邁一步的長度（先這么理解）。

以上通過偏導獲得下一步的方向，通過設置學習率確定步伐的長度，因此下一個落腳點 $θ'_j$ 為：
$θ'_j=θ_j?α\frac{?}{?θ_j}J(θ)$

例如， $J(\theta)=\theta^2$ ；偏導數(shù) $J'(\theta)=2\theta$ 。
設置初始起點為(1,1)，學習率 $\alpha=0.4$
$\theta^0=1$
$\theta^1=\theta^0-\alpha*J'(1)=0.2$
$\theta^2=\theta^1-\alpha*J'(0.2)=0.04$
$\theta^3=\theta^2-\alpha*J'(0.04)=0.008$
$\theta^4=\theta^3-\alpha*J'(0.008)=0.0016$
······慢慢達到谷底
如果初始起點為(1,1)，學習率為0.2
$\theta^0=1$
$\theta^1=\theta^0-\alpha*J'(1)=0.6$
$\theta^2=\theta^1-\alpha*J'(0.6)=0.576$
$\theta^3=\theta^2-\alpha*J'(0.576)=0.3456$
$\theta^4=\theta^3-\alpha*J'(0.3456)=0.20736$
$\theta^5=\theta^4-\alpha*J'(0.20736)=0.124416$
$\theta^6=\theta^5-\alpha*J'(0.124416)=0.0746496$
$\theta^7=\theta^6-\alpha*J'(0.0746496)=0.04478976$
$\theta^8=\theta^7-\alpha*J'(0.04478976)=0.026873856$
······慢慢達到谷底
如果初始起點為(1,1)，學習率為0.8
$\theta^0=1$
$\theta^1=\theta^0-\alpha*J'(1)=-0.6$

以上過程可以發(fā)現(xiàn)，學習率 $\alpha$ 的大小和步伐的大小有關(guān)，學習率 $\alpha$ 越大，步伐越大。