姓名:張志文 學(xué)號:19021210649
【嵌牛導(dǎo)讀】
機(jī)器學(xué)習(xí)中的梯度下降算法是訓(xùn)練當(dāng)中很重要的一步
【嵌牛鼻子】
梯度;機(jī)器學(xué)習(xí)
【嵌牛提問】
機(jī)器學(xué)習(xí)中的梯度下降算法有哪些?
【嵌牛正文】
梯度下降的場景假設(shè)
一個人被困在山上,需要從山上下到山谷。但此時山上的霧很大,導(dǎo)致可視度很低。因此,下山的路徑就無法確定,他必須利用自己周圍的信息去找到下山的路徑。這個時候,他就可以利用梯度下降算法來幫助自己下山。以他當(dāng)前的所處的位置為基準(zhǔn),尋找這個位置最陡峭的地方,然后朝著山的高度下降的地方走,如果我們的目標(biāo)是上山,也就是爬到山頂,那么此時應(yīng)該是朝著最陡峭的方向往上走。然后每走一段距離,都反復(fù)采用同一個方法,最后就能成功的抵達(dá)山谷。

梯度下降簡介
梯度下降是迭代法的一種,可以用于求解最小二乘問題(線性和非線性都可以)。在求解機(jī)器學(xué)習(xí)算法的模型參數(shù),即無約束優(yōu)化問題時,梯度下降(Gradient Descent)是最常采用的方法之一,另一種常用的方法是最小二乘法。在求解損失函數(shù)的最小值時,可以通過梯度下降法來一步步的迭代求解,得到最小化的損失函數(shù)和模型參數(shù)值。反過來,如果我們需要求解損失函數(shù)的最大值,這時就需要用梯度上升法來迭代了。
求解過程
梯度下降法的計算過程就是沿梯度下降的方向求解極小值(也可以沿梯度上升方向求解極大值)。
??梯度方向我們可以通過對函數(shù)求導(dǎo)得到,步長的確定比較麻煩,太大了的話可能會發(fā)散,太小收斂速度又太慢。一般確定步長的方法是由線性搜索算法來確定。
??梯度向量為0的話說明是到了一個極值點,此時梯度的幅值也為0.而采用梯度下降算法進(jìn)行最優(yōu)化求解時,算法迭代的終止條件是梯度向量的幅值接近0即可,可以設(shè)置個非常小的常數(shù)閾值。

代碼實現(xiàn)梯度下降算法
造測試數(shù)據(jù)代碼如下:
import numpy as np
import matplotlib.pyplot as plt
plot_x = np.linspace(-1, 6 , 200)
plot_y = (plot_x - 2.5) ** 2 - 1
plt.plot(plot_x, plot_y)
plt.show()
可視化測試數(shù)據(jù):

梯度下降算法求解這個測試數(shù)據(jù)的極值點,算法迭代的終止條件是梯度向量的幅值接近0即可,可以設(shè)置個非常小的常數(shù)閾值。
import numpy as np
import matplotlib.pyplot as plt
plot_x = np.linspace(-1, 6 , 200)
plot_y = (plot_x - 2.5) ** 2 - 1
#設(shè)置個非常小的常數(shù)閾值
epsilon = 1e-8
#設(shè)置步長
eta = 0.2
# 損失函數(shù)
def J(theta):
return (theta-2.5)**2 - 1.
# 求導(dǎo)確認(rèn)行進(jìn)方向
def dJ(theta):
return 2*(theta-2.5)
theta = 0.0
theta_history = [theta]
while True:
gradient = dJ(theta)
last_theta = theta
# 向?qū)?shù)的負(fù)方向移一步
theta = theta - eta * gradient
theta_history.append(theta)
# 終止條件是梯度向量的幅值接近0,我們設(shè)置的是小于epsilon 即可
if(abs(J(theta) - J(last_theta)) < epsilon):
break
plt.plot(plot_x, J(plot_x))
plt.plot(np.array(theta_history), J(np.array(theta_history)), color="r", marker='*')
plt.show()
梯度下降效果如下:

注意
(1) eta即learning rate,決定的下降步伐,如果太小,則找到函數(shù)最小值的速度就很慢,如果太大,則可能會出現(xiàn)overshoot the minimum的現(xiàn)象;簡單的說就是你跨步子的大小,跨得太小就會花很長的時間來收斂。
(2) 初始點不同,獲得的最小值也不同,因此梯度下降求得的只是局部最小值;
(3) 越接近最小值時,下降速度越慢;
梯度下降的算法調(diào)優(yōu)
(1) 步長選擇,選擇一個合適的步長需要多次運行后才能得到一個較為優(yōu)的值。
(2) 參數(shù)的初始值選擇。 初始值不同,獲得的最小值也有可能不同,因此梯度下降求得的只是局部最小值;當(dāng)然如果損失函數(shù)是凸函數(shù)則一定是最優(yōu)解。由于有局部最優(yōu)解的風(fēng)險,需要多次用不同初始值運行算法,關(guān)鍵損失函數(shù)的最小值,選擇損失函數(shù)最小化的初值。
(3) 歸一化。由于樣本不同特征的取值范圍不一樣,可能導(dǎo)致迭代很慢,為了減少特征取值的影響,可以對特征數(shù)據(jù)歸一化
本文內(nèi)容為轉(zhuǎn)載,版權(quán)歸作者所有