- 學(xué)習(xí)率可以說(shuō)是模型訓(xùn)練最為重要的超參數(shù)。
- 通常情況下,一個(gè)或者一組優(yōu)秀的學(xué)習(xí)率既能加速模型的訓(xùn)練,又能得到一個(gè)較優(yōu)甚至最優(yōu)的精度。
- 過(guò)大或者過(guò)小的學(xué)習(xí)率會(huì)直接影響到模型的收斂。
- 當(dāng)模型訓(xùn)練到一定程度的時(shí)候,損失將不再減少,這時(shí)候模型的一階梯度接近零,對(duì)應(yīng)Hessian 矩陣通常是兩種情況
- 一、正定,即所有特征值均為正,此時(shí)通??梢缘玫揭粋€(gè)局部極小值,若這個(gè)局部極小值接近全局最小則模型已經(jīng)能得到不錯(cuò)的性能了,但若差距很大,則模型性能還有待于提升,通常情況下后者在訓(xùn)練初最常見(jiàn)。
- 二,特征值有正有負(fù),此時(shí)模型很可能陷入了鞍點(diǎn),若陷入鞍點(diǎn),模型性能表現(xiàn)就很差。以上兩種情況在訓(xùn)練初期以及中期,此時(shí)若仍然以固定的學(xué)習(xí)率,會(huì)使模型陷入左右來(lái)回的震蕩或者鞍點(diǎn),無(wú)法繼續(xù)優(yōu)化。
- 所以,學(xué)習(xí)率衰減或者增大能幫助模型有效的減少震蕩或者逃離鞍點(diǎn)。
- 通常情況下,大部分學(xué)習(xí)率調(diào)整策略都是衰減學(xué)習(xí)率,但有時(shí)若增大學(xué)習(xí)率也同樣起到奇效。這里結(jié)合TensorFlow的內(nèi)置方法來(lái)舉例。
1、exponential_decay和natural_exp_decay
exponential_decay(learning_rate, global_step, decay_steps, decay_rate,
staircase=False, name=None)
natural_exp_decay(learning_rate, global_step, decay_steps, decay_rate,
staircase=False, name=None)
-
指數(shù)衰減是最常用的衰減方式,這種方式簡(jiǎn)單直接,在訓(xùn)練初期衰減較大利于收斂,在后期衰減較小利于精調(diào)。以上兩種均為指數(shù)衰減,區(qū)別在于后者使用以自然指數(shù)下降。
2、piecewise_constant
piecewise_constant(x, boundaries, values, name=None)
分段設(shè)置學(xué)習(xí)率法,跟指數(shù)型類似,區(qū)別在于每個(gè)階段的衰減并不是按指數(shù)調(diào)整??稍诓煌A段設(shè)置手動(dòng)不同的學(xué)習(xí)率。這種學(xué)習(xí)率重點(diǎn)在有利于精調(diào)。
3、polynomial_decay
polynomial_decay(learning_rate, global_step, decay_steps,
end_learning_rate=0.0001, power=1.0,
cycle=False, name=None)
多項(xiàng)式衰減,計(jì)算如下:
有別于上述兩種,多項(xiàng)式衰減則是在每一步迭代上都會(huì)調(diào)整學(xué)習(xí)率。主要看Power參數(shù),若Power為1,則是下圖中的紅色直線;若power小于1,則是開(kāi)1/power次方,為藍(lán)色線;綠色線為指數(shù),power大于1。

此外,需要注意的是參數(shù)cycle,cycle對(duì)應(yīng)的是一種周期循環(huán)調(diào)整的方式。這種cycle策略主要目的在后期防止在一個(gè)局部極小值震蕩,若跳出該區(qū)域或許能得到更有的結(jié)果。這里說(shuō)明cycle的方式不止可以在多項(xiàng)式中應(yīng)用,可配合類似的周期函數(shù)進(jìn)行衰減,如下圖。

大數(shù)據(jù)視頻推薦:
網(wǎng)易云課堂
CSDN
人工智能算法競(jìng)賽實(shí)戰(zhàn)
AIops智能運(yùn)維機(jī)器學(xué)習(xí)算法實(shí)戰(zhàn)
ELK7 stack開(kāi)發(fā)運(yùn)維實(shí)戰(zhàn)
PySpark機(jī)器學(xué)習(xí)從入門(mén)到精通
AIOps智能運(yùn)維實(shí)戰(zhàn)
騰訊課堂
大數(shù)據(jù)語(yǔ)音推薦:
ELK7 stack開(kāi)發(fā)運(yùn)維
企業(yè)級(jí)大數(shù)據(jù)技術(shù)應(yīng)用
大數(shù)據(jù)機(jī)器學(xué)習(xí)案例之推薦系統(tǒng)
自然語(yǔ)言處理
大數(shù)據(jù)基礎(chǔ)
人工智能:深度學(xué)習(xí)入門(mén)到精通
