在牛客網(wǎng)上的好資源真的很多,根據(jù)??途W(wǎng)算法面試寶典寫份總結(jié),希望在面試過程中能好好表現(xiàn)。
1. 微積分
-
SGD,Momentum,Adagard,Adam原理
SGD為隨機(jī)梯度下降,每一次迭代計(jì)算數(shù)據(jù)集的mini-batch的梯度,然后對參數(shù)進(jìn)行跟新。
Momentum參考了物理中動(dòng)量的概念,前幾次的梯度也會(huì)參與到當(dāng)前的計(jì)算中,但是前幾輪的梯度疊加在當(dāng)前計(jì)算中會(huì)有一定的衰減。
Adagard在訓(xùn)練的過程中可以自動(dòng)變更學(xué)習(xí)的速率,設(shè)置一個(gè)全局的學(xué)習(xí)率,而實(shí)際的學(xué)習(xí)率與以往的參數(shù)模和的開方成反比。
Adam利用梯度的一階矩估計(jì)和二階矩估計(jì)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率,在經(jīng)過偏置的校正后,每一次迭代后的學(xué)習(xí)率都有個(gè)確定的范圍,使得參數(shù)較為平穩(wěn)。
-
L1不可導(dǎo)的時(shí)候該怎么辦
L0范數(shù)是指向量中非0的元素的個(gè)數(shù)。
L1范數(shù)是指向量中各個(gè)元素絕對值之和。
L2范數(shù)是指向量各元素的平方和然后求平方根。
-
sigmoid函數(shù)特性

形狀
