矛盾
純粹的優(yōu)化方法是最小化訓(xùn)練集的損失函數(shù)
而我們的目標(biāo)是測(cè)試集損失函數(shù)的最小化,也就是可以泛化而不是過(guò)擬合
需要避免的幾種情況:
局部最小值
鞍點(diǎn)
梯度消失
優(yōu)化的目標(biāo):
凸函數(shù),凸函數(shù)沒有局部最小值,這樣訓(xùn)練得到的就是全局最小值
純粹的優(yōu)化方法是最小化訓(xùn)練集的損失函數(shù)
而我們的目標(biāo)是測(cè)試集損失函數(shù)的最小化,也就是可以泛化而不是過(guò)擬合
局部最小值
鞍點(diǎn)
梯度消失
優(yōu)化的目標(biāo):
凸函數(shù),凸函數(shù)沒有局部最小值,這樣訓(xùn)練得到的就是全局最小值