梯度下降
用于迭代求解函數(shù)最優(yōu)解,是大數(shù)據(jù)領(lǐng)域用于求解問題的常用思想。
步長:每一步梯度下降時向目標(biāo)方向前進(jìn)的長度。前期可以使用較大步長,加快訓(xùn)練速度,后期可以使用較短步長,保證訓(xùn)練精度。
假設(shè)函數(shù):由特征產(chǎn)生目標(biāo)變量的函數(shù),即預(yù)測所用函數(shù)。
損失函數(shù):給任意參數(shù)組合打分的函數(shù)。通過損失函數(shù),可以知道在梯度下降時,哪些點更接近目標(biāo)值。
隨機梯度下降:每次隨機選擇一個或一小部分點進(jìn)行損失函數(shù)計算,達(dá)到減少計算量、提高訓(xùn)練速度的目的。由于每次只使用部分?jǐn)?shù)據(jù)進(jìn)行優(yōu)化,數(shù)據(jù)中可能存在噪聲,因此每次的移動方向不一定是正確,但迭代次數(shù)增加,總體還是會朝著期望的方向移動,且可能因為“非正確移動”,更有可能找到全局最優(yōu)解。
通常,隨機梯度下降比普通梯度下降效果更好、速度更快。
每次訓(xùn)練使用部分樣本,使得隨機梯度下降具有增量學(xué)習(xí)的特性。可以邊讀數(shù)據(jù)邊訓(xùn)練。可以基于已有模型基礎(chǔ)上進(jìn)行訓(xùn)練。
引用
1.從機器學(xué)習(xí)到深度學(xué)習(xí):基于scikit-learn與tensorflow的高效開發(fā)實戰(zhàn)