mini-batch size = m則為批梯度下降 進(jìn)行梯度下降時(shí)處理全部的訓(xùn)練樣本,如果訓(xùn)練樣本的數(shù)據(jù)量很大,則,進(jìn)行一次梯度下降要耗費(fèi)很長時(shí)間
size=1 即為隨機(jī)梯度下降? 隨機(jī)梯度下降每次只處理訓(xùn)練樣本中的一個(gè)訓(xùn)練數(shù)據(jù) 往往只是朝著局部最優(yōu)的方向下降,噪聲比較大,隨機(jī)梯度下降不會(huì)收斂到全局的最小值只會(huì)朝著最小值方向不斷下降,失去了所有由向量化而帶來的優(yōu)勢