59.網(wǎng)絡(luò)訓(xùn)練中的超參調(diào)整策略—學(xué)習(xí)率調(diào)整1

  • 學(xué)習(xí)率可以說(shuō)是模型訓(xùn)練最為重要的超參數(shù)。
    • 通常情況下,一個(gè)或者一組優(yōu)秀的學(xué)習(xí)率既能加速模型的訓(xùn)練,又能得到一個(gè)較優(yōu)甚至最優(yōu)的精度。
    • 過(guò)大或者過(guò)小的學(xué)習(xí)率會(huì)直接影響到模型的收斂。
  • 當(dāng)模型訓(xùn)練到一定程度的時(shí)候,損失將不再減少,這時(shí)候模型的一階梯度接近零,對(duì)應(yīng)Hessian 矩陣通常是兩種情況
    • 一、正定,即所有特征值均為正,此時(shí)通??梢缘玫揭粋€(gè)局部極小值,若這個(gè)局部極小值接近全局最小則模型已經(jīng)能得到不錯(cuò)的性能了,但若差距很大,則模型性能還有待于提升,通常情況下后者在訓(xùn)練初最常見(jiàn)。
    • 二,特征值有正有負(fù),此時(shí)模型很可能陷入了鞍點(diǎn),若陷入鞍點(diǎn),模型性能表現(xiàn)就很差。以上兩種情況在訓(xùn)練初期以及中期,此時(shí)若仍然以固定的學(xué)習(xí)率,會(huì)使模型陷入左右來(lái)回的震蕩或者鞍點(diǎn),無(wú)法繼續(xù)優(yōu)化。
  • 所以,學(xué)習(xí)率衰減或者增大能幫助模型有效的減少震蕩或者逃離鞍點(diǎn)。
  • 通常情況下,大部分學(xué)習(xí)率調(diào)整策略都是衰減學(xué)習(xí)率,但有時(shí)若增大學(xué)習(xí)率也同樣起到奇效。這里結(jié)合TensorFlow的內(nèi)置方法來(lái)舉例。

1、exponential_decaynatural_exp_decay

exponential_decay(learning_rate, global_step, decay_steps, decay_rate,
                   staircase=False, name=None)

natural_exp_decay(learning_rate, global_step, decay_steps, decay_rate,
                   staircase=False, name=None)
  • 指數(shù)衰減是最常用的衰減方式,這種方式簡(jiǎn)單直接,在訓(xùn)練初期衰減較大利于收斂,在后期衰減較小利于精調(diào)。以上兩種均為指數(shù)衰減,區(qū)別在于后者使用以自然指數(shù)下降。


2、piecewise_constant

piecewise_constant(x, boundaries, values, name=None)

分段設(shè)置學(xué)習(xí)率法,跟指數(shù)型類似,區(qū)別在于每個(gè)階段的衰減并不是按指數(shù)調(diào)整??稍诓煌A段設(shè)置手動(dòng)不同的學(xué)習(xí)率。這種學(xué)習(xí)率重點(diǎn)在有利于精調(diào)。

3、polynomial_decay

polynomial_decay(learning_rate, global_step, decay_steps,
                  end_learning_rate=0.0001, power=1.0,
                  cycle=False, name=None)

多項(xiàng)式衰減,計(jì)算如下:
global setp = min(global step, decay steps)

lr_{decayed} = (lr-lr_{end})*(1-{globalstep\over decaysteps})^{power} +lr_{end}

有別于上述兩種,多項(xiàng)式衰減則是在每一步迭代上都會(huì)調(diào)整學(xué)習(xí)率。主要看Power參數(shù),若Power為1,則是下圖中的紅色直線;若power小于1,則是開(kāi)1/power次方,為藍(lán)色線;綠色線為指數(shù),power大于1。



此外,需要注意的是參數(shù)cycle,cycle對(duì)應(yīng)的是一種周期循環(huán)調(diào)整的方式。這種cycle策略主要目的在后期防止在一個(gè)局部極小值震蕩,若跳出該區(qū)域或許能得到更有的結(jié)果。這里說(shuō)明cycle的方式不止可以在多項(xiàng)式中應(yīng)用,可配合類似的周期函數(shù)進(jìn)行衰減,如下圖。


大數(shù)據(jù)視頻推薦:
網(wǎng)易云課堂
CSDN
人工智能算法競(jìng)賽實(shí)戰(zhàn)
AIops智能運(yùn)維機(jī)器學(xué)習(xí)算法實(shí)戰(zhàn)
ELK7 stack開(kāi)發(fā)運(yùn)維實(shí)戰(zhàn)
PySpark機(jī)器學(xué)習(xí)從入門(mén)到精通
AIOps智能運(yùn)維實(shí)戰(zhàn)
騰訊課堂
大數(shù)據(jù)語(yǔ)音推薦:
ELK7 stack開(kāi)發(fā)運(yùn)維
企業(yè)級(jí)大數(shù)據(jù)技術(shù)應(yīng)用
大數(shù)據(jù)機(jī)器學(xué)習(xí)案例之推薦系統(tǒng)
自然語(yǔ)言處理
大數(shù)據(jù)基礎(chǔ)
人工智能:深度學(xué)習(xí)入門(mén)到精通

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容