梯度下降法

5a4e0890-2e8d-11e8-8ff0-5b0a81ffa130.png

1551880652602.jpg
超參
上面講了梯度下降法,其中的
α
,又叫做步長,它決定了為了找到最小值點(diǎn)而嘗試在目標(biāo)函數(shù)上前進(jìn)的步伐到底走多大。
步長是算法自己學(xué)習(xí)不出來的,它必須由外界指定。
這種算法不能學(xué)習(xí),需要人為設(shè)定的參數(shù),就叫做超參數(shù)
梯度下降的難點(diǎn)
可能會出現(xiàn)走到了一個(gè)局部極小值就無法前進(jìn)的情況

883d5f30-2e8d-11e8-a3a4-1b4a4113bab5.jpeg
如果目標(biāo)函數(shù)不能確定只有一個(gè)極小值,而獲得的模型結(jié)果又不令人滿意時(shí),就該考慮是否是在學(xué)習(xí)的過程中,優(yōu)化算法進(jìn)入了局部而非全局最小值。
這種情況下,可以嘗試幾個(gè)不同的起始點(diǎn)。甚至嘗試一下大步長,說不定反而能夠跨出局部最小值點(diǎn)所在的凸域。