機(jī)器學(xué)習(xí)之梯度下降算法

姓名:張志文 學(xué)號:19021210649
【嵌牛導(dǎo)讀】
機(jī)器學(xué)習(xí)中的梯度下降算法是訓(xùn)練當(dāng)中很重要的一步
【嵌牛鼻子】
梯度;機(jī)器學(xué)習(xí)
【嵌牛提問】
機(jī)器學(xué)習(xí)中的梯度下降算法有哪些?
【嵌牛正文】

梯度下降的場景假設(shè)

一個人被困在山上,需要從山上下到山谷。但此時山上的霧很大,導(dǎo)致可視度很低。因此,下山的路徑就無法確定,他必須利用自己周圍的信息去找到下山的路徑。這個時候,他就可以利用梯度下降算法來幫助自己下山。以他當(dāng)前的所處的位置為基準(zhǔn),尋找這個位置最陡峭的地方,然后朝著山的高度下降的地方走,如果我們的目標(biāo)是上山,也就是爬到山頂,那么此時應(yīng)該是朝著最陡峭的方向往上走。然后每走一段距離,都反復(fù)采用同一個方法,最后就能成功的抵達(dá)山谷。

image

梯度下降簡介

梯度下降是迭代法的一種,可以用于求解最小二乘問題(線性和非線性都可以)。在求解機(jī)器學(xué)習(xí)算法的模型參數(shù),即無約束優(yōu)化問題時,梯度下降(Gradient Descent)是最常采用的方法之一,另一種常用的方法是最小二乘法。在求解損失函數(shù)的最小值時,可以通過梯度下降法來一步步的迭代求解,得到最小化的損失函數(shù)和模型參數(shù)值。反過來,如果我們需要求解損失函數(shù)的最大值,這時就需要用梯度上升法來迭代了。

求解過程

梯度下降法的計算過程就是沿梯度下降的方向求解極小值(也可以沿梯度上升方向求解極大值)。
??梯度方向我們可以通過對函數(shù)求導(dǎo)得到,步長的確定比較麻煩,太大了的話可能會發(fā)散,太小收斂速度又太慢。一般確定步長的方法是由線性搜索算法來確定。
??梯度向量為0的話說明是到了一個極值點,此時梯度的幅值也為0.而采用梯度下降算法進(jìn)行最優(yōu)化求解時,算法迭代的終止條件是梯度向量的幅值接近0即可,可以設(shè)置個非常小的常數(shù)閾值。

image

代碼實現(xiàn)梯度下降算法

造測試數(shù)據(jù)代碼如下:

import numpy as np
import matplotlib.pyplot as plt

plot_x = np.linspace(-1, 6 , 200)
plot_y = (plot_x - 2.5) ** 2 - 1
plt.plot(plot_x, plot_y)
plt.show()

可視化測試數(shù)據(jù):

image

梯度下降算法求解這個測試數(shù)據(jù)的極值點,算法迭代的終止條件是梯度向量的幅值接近0即可,可以設(shè)置個非常小的常數(shù)閾值。

import numpy as np
import matplotlib.pyplot as plt

plot_x = np.linspace(-1, 6 , 200)
plot_y = (plot_x - 2.5) ** 2 - 1

#設(shè)置個非常小的常數(shù)閾值
epsilon = 1e-8
#設(shè)置步長
eta = 0.2

# 損失函數(shù)
def J(theta):
    return (theta-2.5)**2 - 1.

# 求導(dǎo)確認(rèn)行進(jìn)方向
def dJ(theta):
    return 2*(theta-2.5)

theta = 0.0
theta_history = [theta]
while True:
    gradient = dJ(theta)
    last_theta = theta
    # 向?qū)?shù)的負(fù)方向移一步  
    theta = theta - eta * gradient
    theta_history.append(theta)

    # 終止條件是梯度向量的幅值接近0,我們設(shè)置的是小于epsilon 即可
    if(abs(J(theta) - J(last_theta)) < epsilon):
        break

plt.plot(plot_x, J(plot_x))
plt.plot(np.array(theta_history), J(np.array(theta_history)), color="r", marker='*')
plt.show()

梯度下降效果如下:

image

注意
(1) eta即learning rate,決定的下降步伐,如果太小,則找到函數(shù)最小值的速度就很慢,如果太大,則可能會出現(xiàn)overshoot the minimum的現(xiàn)象;簡單的說就是你跨步子的大小,跨得太小就會花很長的時間來收斂。

(2) 初始點不同,獲得的最小值也不同,因此梯度下降求得的只是局部最小值;

(3) 越接近最小值時,下降速度越慢;

梯度下降的算法調(diào)優(yōu)
(1) 步長選擇,選擇一個合適的步長需要多次運行后才能得到一個較為優(yōu)的值。

(2) 參數(shù)的初始值選擇。 初始值不同,獲得的最小值也有可能不同,因此梯度下降求得的只是局部最小值;當(dāng)然如果損失函數(shù)是凸函數(shù)則一定是最優(yōu)解。由于有局部最優(yōu)解的風(fēng)險,需要多次用不同初始值運行算法,關(guān)鍵損失函數(shù)的最小值,選擇損失函數(shù)最小化的初值。

(3) 歸一化。由于樣本不同特征的取值范圍不一樣,可能導(dǎo)致迭代很慢,為了減少特征取值的影響,可以對特征數(shù)據(jù)歸一化
本文內(nèi)容為轉(zhuǎn)載,版權(quán)歸作者所有

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容