偏導(dǎo)、方向?qū)?shù)和梯度
(1)偏導(dǎo):函數(shù)在坐標(biāo)軸方向上的變化率(一維方向)
設(shè)函數(shù)在點(diǎn)
的鄰域內(nèi)有定義,當(dāng)
時(shí),
可以看作是關(guān)于
的一元函數(shù)
,若該一元函數(shù)在
處可導(dǎo),即有
函數(shù)的極限存在,那么稱(chēng)
為函數(shù)
在點(diǎn)
處關(guān)于自變量
的偏導(dǎo)數(shù)
(2)方向?qū)?shù): 函數(shù)在某點(diǎn)沿某個(gè)特定方向的變化率

(3)梯度:函數(shù)在該點(diǎn)沿所有方向變化率最大的那個(gè)方向(最大的方向?qū)?shù))
幾種梯度下降方法
(1)梯度下降(BGD):梯度下降使用整個(gè)訓(xùn)練數(shù)據(jù)集來(lái)計(jì)算梯度,因此有時(shí)被稱(chēng)為批量梯度下降(batch gradient descent)
(2)隨機(jī)梯度下降(SBGD):在每次迭代中只隨機(jī)采樣一個(gè)樣本來(lái)計(jì)算梯度(Stochastic Gradient Descent)
(3)小批量隨機(jī)梯度下降(MSGD):在每次迭代中隨機(jī)均勻采樣多個(gè)樣本來(lái)組成一個(gè)小批量,使用當(dāng)前小批量來(lái)計(jì)算梯度
梯度下降和隨機(jī)梯度下降
指數(shù)加權(quán)平均(幾個(gè)優(yōu)化算法的基礎(chǔ))
- 指數(shù)加權(quán)平均的關(guān)鍵等式


對(duì)應(yīng)圖中紅色的線(xiàn)(近十天的平均氣溫),
對(duì)應(yīng)圖中綠色的線(xiàn)(近50天的平均氣溫),
的值越大,得到的曲線(xiàn)會(huì)更平滑(因?yàn)閷?duì)更多天數(shù)的溫度做了平均處理)
- 指數(shù)滑動(dòng)平均的具體使用

- 偏差修正(更精確的計(jì)算平均值)
針對(duì)上一部分中的公式,滑動(dòng)平均曲線(xiàn)的初始起點(diǎn)很低(;
使得等式右邊第一項(xiàng)為
),因此在估計(jì)運(yùn)算初期我們需要一種更好的方法去進(jìn)行估計(jì):
用代替
