东京热一区91,欧美精品一区二区蜜桃

1 前饋神經(jīng)網(wǎng)絡(luò)

在神經(jīng)網(wǎng)絡(luò)中，輸入層與輸出層之間的層稱(chēng)為隱含層或隱層（hidden layer），隱層和輸出層的神經(jīng)元都是具有激活函數(shù)的功能神經(jīng)元。只需包含一個(gè)隱層便可以稱(chēng)為多層神經(jīng)網(wǎng)絡(luò)，常用的神經(jīng)網(wǎng)絡(luò)稱(chēng)為“多層前饋神經(jīng)網(wǎng)絡(luò)”（multi-layer feedforward neural network），該結(jié)構(gòu)滿(mǎn)足以下幾個(gè)特點(diǎn)：

每層神經(jīng)元與下一層神經(jīng)元之間完全互連
神經(jīng)元之間不存在同層連接
神經(jīng)元之間不存在跨層連接

2 感知機(jī)

感知器是如何工作的呢?一個(gè)感知器接受幾個(gè)二進(jìn)制輸入，x1, x2, . . .，并產(chǎn)生一個(gè)二進(jìn)制輸出:

3 激活函數(shù)

3.1 Step Function

3.2 Sigmoid 激活函數(shù)

3.3 tanh 激活函數(shù)

3.4 ReLU激活函數(shù)

4 正則化

過(guò)去數(shù)年，研究者提出和開(kāi)發(fā)了多種適合機(jī)器學(xué)習(xí)算法的正則化方法，如數(shù)據(jù)增強(qiáng)、L2 正則化（權(quán)重衰減）、L1 正則化、Dropout、Drop Connect、隨機(jī)池化和早停等。

除了泛化原因，奧卡姆剃刀原理和貝葉斯估計(jì)也都支持著正則化。根據(jù)奧卡姆剃刀原理，在所有可能選擇的模型中，能很好解釋已知數(shù)據(jù)，并且十分簡(jiǎn)單的模型才是最好的模型。而從貝葉斯估計(jì)的角度來(lái)看，正則化項(xiàng)對(duì)應(yīng)于模型的先驗(yàn)概率。

4.1 數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)是提升算法性能、滿(mǎn)足深度學(xué)習(xí)模型對(duì)大量數(shù)據(jù)的需求的重要工具。數(shù)據(jù)增強(qiáng)通過(guò)向訓(xùn)練數(shù)據(jù)添加轉(zhuǎn)換或擾動(dòng)來(lái)人工增加訓(xùn)練數(shù)據(jù)集。數(shù)據(jù)增強(qiáng)技術(shù)如水平或垂直翻轉(zhuǎn)圖像、裁剪、色彩變換、擴(kuò)展和旋轉(zhuǎn)通常應(yīng)用在視覺(jué)表象和圖像分類(lèi)中。

4.2 L1 和 L2 正則化

L1 和 L2 正則化是最常用的正則化方法。L1 正則化向目標(biāo)函數(shù)添加正則化項(xiàng)，以減少參數(shù)的絕對(duì)值總和；而 L2 正則化中，添加正則化項(xiàng)的目的在于減少參數(shù)平方的總和。根據(jù)之前的研究，L1 正則化中的很多參數(shù)向量是稀疏向量，因?yàn)楹芏嗄Ｐ蛯?dǎo)致參數(shù)趨近于 0，因此它常用于特征選擇設(shè)置中。機(jī)器學(xué)習(xí)中最常用的正則化方法是對(duì)權(quán)重施加 L2 范數(shù)約束。

標(biāo)準(zhǔn)正則化代價(jià)函數(shù)如下：

其中正則化項(xiàng) R(w) 是：

另一種懲罰權(quán)重的絕對(duì)值總和的方法是 L1 正則化：

L1 正則化在零點(diǎn)不可微，因此權(quán)重以趨近于零的常數(shù)因子增長(zhǎng)。很多神經(jīng)網(wǎng)絡(luò)在權(quán)重衰減公式中使用一階步驟來(lái)解決非凸 L1 正則化問(wèn)題 [19]。L1 范數(shù)的近似變體是：

另一個(gè)正則化方法是混合 L1 和 L2 正則化，即彈性網(wǎng)絡(luò)罰項(xiàng) [20]。

在《深度學(xué)習(xí)》一書(shū)中，參數(shù)范數(shù)懲罰 L2 正則化能讓深度學(xué)習(xí)算法「感知」到具有較高方差的輸入 x，因此與輸出目標(biāo)的協(xié)方差較?。ㄏ鄬?duì)增加方差）的特征權(quán)重將會(huì)收縮。而 L1 正則化會(huì)因?yàn)樵诜较?i 上 J(w; X, y) 對(duì) J(w; X, y) hat 的貢獻(xiàn)被抵消而使 w_i 的值變?yōu)?0（J(w; X, y) hat 為 J(w; X, y) 加上 L1 正則項(xiàng)）。此外，參數(shù)的范數(shù)正則化也可以作為約束條件。對(duì)于 L2 范數(shù)來(lái)說(shuō)，權(quán)重會(huì)被約束在一個(gè) L2 范數(shù)的球體中，而對(duì)于 L1 范數(shù)，權(quán)重將被限制在 L1 所確定的范圍內(nèi)。

4.3 Dropout

Bagging 是通過(guò)結(jié)合多個(gè)模型降低泛化誤差的技術(shù)，主要的做法是分別訓(xùn)練幾個(gè)不同的模型，然后讓所有模型表決測(cè)試樣例的輸出。而 Dropout 可以被認(rèn)為是集成了大量深層神經(jīng)網(wǎng)絡(luò)的 Bagging 方法，因此它提供了一種廉價(jià)的 Bagging 集成近似方法，能夠訓(xùn)練和評(píng)估值數(shù)據(jù)數(shù)量的神經(jīng)網(wǎng)絡(luò)。

Dropout 指暫時(shí)丟棄一部分神經(jīng)元及其連接。隨機(jī)丟棄神經(jīng)元可以防止過(guò)擬合，同時(shí)指數(shù)級(jí)、高效地連接不同網(wǎng)絡(luò)架構(gòu)。神經(jīng)元被丟棄的概率為 1 ? p，減少神經(jīng)元之間的共適應(yīng)。隱藏層通常以 0.5 的概率丟棄神經(jīng)元。使用完整網(wǎng)絡(luò)（每個(gè)節(jié)點(diǎn)的輸出權(quán)重為 p）對(duì)所有 2^n 個(gè) dropout 神經(jīng)元的樣本平均值進(jìn)行近似計(jì)算。Dropout 顯著降低了過(guò)擬合，同時(shí)通過(guò)避免在訓(xùn)練數(shù)據(jù)上的訓(xùn)練節(jié)點(diǎn)提高了算法的學(xué)習(xí)速度。

4.4 Drop Connect

Drop Connect 是另一種減少算法過(guò)擬合的正則化策略，是 Dropout 的一般化。在 Drop Connect 的過(guò)程中需要將網(wǎng)絡(luò)架構(gòu)權(quán)重的一個(gè)隨機(jī)選擇子集設(shè)置為零，取代了在 Dropout 中對(duì)每個(gè)層隨機(jī)選擇激活函數(shù)的子集設(shè)置為零的做法。由于每個(gè)單元接收來(lái)自過(guò)去層單元的隨機(jī)子集的輸入，Drop Connect 和 Dropout 都可以獲得有限的泛化性能 [22]。Drop Connect 和 Dropout 相似的地方在于它涉及在模型中引入稀疏性，不同之處在于它引入的是權(quán)重的稀疏性而不是層的輸出向量的稀疏性。

4.5 早停法

早停法可以限制模型最小化代價(jià)函數(shù)所需的訓(xùn)練迭代次數(shù)。早停法通常用于防止訓(xùn)練中過(guò)度表達(dá)的模型泛化性能差。如果迭代次數(shù)太少，算法容易欠擬合（方差較小，偏差較大），而迭代次數(shù)太多，算法容易過(guò)擬合（方差較大，偏差較小）。早停法通過(guò)確定迭代次數(shù)解決這個(gè)問(wèn)題，不需要對(duì)特定值進(jìn)行手動(dòng)設(shè)置。

5 優(yōu)化

5.1 動(dòng)量（Momentum）

隨機(jī)梯度下降和小批量梯度下降是機(jī)器學(xué)習(xí)中最常見(jiàn)的優(yōu)化技術(shù)，然而在大規(guī)模應(yīng)用和復(fù)雜模型中，算法學(xué)習(xí)的效率是非常低的。而動(dòng)量策略旨在加速學(xué)習(xí)過(guò)程，特別是在具有較高曲率的情況下。動(dòng)量算法利用先前梯度的指數(shù)衰減滑動(dòng)平均值在該方向上進(jìn)行回退 [26]。該算法引入了變量 v 作為參數(shù)在參數(shù)空間中持續(xù)移動(dòng)的速度向量，速度一般可以設(shè)置為負(fù)梯度的指數(shù)衰減滑動(dòng)平均值。對(duì)于一個(gè)給定需要最小化的代價(jià)函數(shù)，動(dòng)量可以表達(dá)為：

![/upload-images.jianshu.io/upload_images/244848-03f0ac40e28715c3.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

其中 α 為學(xué)習(xí)率，γ ∈ (0, 1] 為動(dòng)量系數(shù)，v 是速度向量，θ是保持和速度向量方向相同的參數(shù)。一般來(lái)說(shuō)，梯度下降算法下降的方向?yàn)榫植孔钏俚姆较颍〝?shù)學(xué)上稱(chēng)為最速下降法），它的下降方向在每一個(gè)下降點(diǎn)一定與對(duì)應(yīng)等高線(xiàn)的切線(xiàn)垂直，因此這也就導(dǎo)致了 GD 算法的鋸齒現(xiàn)象。雖然 SGD 算法收斂較慢，但動(dòng)量法是令梯度直接指向最優(yōu)解的策略之一。在實(shí)踐中，γ初始設(shè)置為 0.5，并在初始學(xué)習(xí)穩(wěn)定后增加到 0.9。同樣，α 一般也設(shè)置地非常小，因?yàn)樘荻鹊牧考?jí)通常是比較大的。

5.2 Nesterov 加速梯度（NAG）

Nesterov 加速梯度（NAG）和經(jīng)典動(dòng)量算法非常相似，它是一種一階優(yōu)化算法，但在梯度評(píng)估方面有所不同。在 NAG 中，梯度的評(píng)估是通過(guò)速度的實(shí)現(xiàn)而完成的。NAG 根據(jù)參數(shù)進(jìn)行更新，和動(dòng)量算法一樣，不過(guò) NAG 的收斂速度更好。在批量梯度下降中，與平滑的凸函數(shù)相比，NAG 的收斂速度超出 1/k 到 1/(k^2) [27]。但是，在 SGD 中，NAG 無(wú)法提高收斂速度。NAG 的更新如下：

image.png

動(dòng)量系數(shù)設(shè)置為 0.9。經(jīng)典的動(dòng)量算法先計(jì)算當(dāng)前梯度，再轉(zhuǎn)向更新累積梯度。相反，在 NAG 中，先轉(zhuǎn)向更新累積梯度，再進(jìn)行校正。其結(jié)果是防止算法速度過(guò)快，且增加了反應(yīng)性（responsiveness）。

5.3 Adagrad

Adagrad 亦稱(chēng)為自適應(yīng)梯度（adaptive gradient），允許學(xué)習(xí)率基于參數(shù)進(jìn)行調(diào)整，而不需要在學(xué)習(xí)過(guò)程中人為調(diào)整學(xué)習(xí)率。Adagrad 根據(jù)不常用的參數(shù)進(jìn)行較大幅度的學(xué)習(xí)率更新，根據(jù)常用的參數(shù)進(jìn)行較小幅度的學(xué)習(xí)率更新。因此，Adagrad 成了稀疏數(shù)據(jù)如圖像識(shí)別和 NLP 的天然選擇。然而 Adagrad 的最大問(wèn)題在于，在某些案例中，學(xué)習(xí)率變得太小，學(xué)習(xí)率單調(diào)下降使得網(wǎng)絡(luò)停止學(xué)習(xí)過(guò)程。在經(jīng)典的動(dòng)量算法和 Nesterov 中，加速梯度參數(shù)更新是對(duì)所有參數(shù)進(jìn)行的，并且學(xué)習(xí)過(guò)程中的學(xué)習(xí)率保持不變。在 Adagrad 中，每次迭代中每個(gè)參數(shù)使用的都是不同的學(xué)習(xí)率。

image.png

5.4 AdaDelta

AdaDelta 使用最近歷史梯度值縮放學(xué)習(xí)率，并且和經(jīng)典的動(dòng)量算法相似，累積歷史的更新以加速學(xué)習(xí)。AdaDelta 可以有效地克服 Adagrad 學(xué)習(xí)率收斂至零的缺點(diǎn)。AdaDelta 將累積過(guò)去平方梯度的范圍限制在固定窗口 w 內(nèi)，取代了經(jīng)典動(dòng)量算法累積所有歷史梯度值的做法。在時(shí)間 t 運(yùn)行的平均值計(jì)算 Eg^2 依賴(lài)于過(guò)去的平均值和當(dāng)前的梯度值。因此，該平均值計(jì)算可以表示為：

image.png

其中 γ 和動(dòng)量項(xiàng)相同。實(shí)踐中，該值通常設(shè)為 0.9 左右。根據(jù)等式 3.13，SGD 更新的等式為：

image.png

根據(jù)等式 5.6，Adagrad 的更新為：

image.png

使用過(guò)往的平方梯度

image.png

替換對(duì)角矩陣 G_i，得到

image.png

其中分母是梯度的平方根誤差，

image.png

用

image.png

替換先前更新規(guī)則中的學(xué)習(xí)率 α，得到

image.png

5.5 RMS prop

RMS prop 類(lèi)似于 Adadelta 的首個(gè)更新向量，

image.png

RMS prop 的更新規(guī)則如下：

image.png

在 RMS prop 中，學(xué)習(xí)率除以平方梯度的指數(shù)衰減平均值。

**5.6 Adam **

1.Adam 優(yōu)化算法的基本機(jī)制

Adam 算法和傳統(tǒng)的隨機(jī)梯度下降不同。隨機(jī)梯度下降保持單一的學(xué)習(xí)率（即 alpha）更新所有的權(quán)重，學(xué)習(xí)率在訓(xùn)練過(guò)程中并不會(huì)改變。而 Adam 通過(guò)計(jì)算梯度的一階矩估計(jì)和二階矩估計(jì)而為不同的參數(shù)設(shè)計(jì)獨(dú)立的自適應(yīng)性學(xué)習(xí)率。

Adam 算法的提出者描述其為兩種隨機(jī)梯度下降擴(kuò)展式的優(yōu)點(diǎn)集合，即：

適應(yīng)性梯度算法（AdaGrad）為每一個(gè)參數(shù)保留一個(gè)學(xué)習(xí)率以提升在稀疏梯度（即自然語(yǔ)言和計(jì)算機(jī)視覺(jué)問(wèn)題）上的性能。
均方根傳播（RMSProp）基于權(quán)重梯度最近量級(jí)的均值為每一個(gè)參數(shù)適應(yīng)性地保留學(xué)習(xí)率。這意味著算法在非穩(wěn)態(tài)和在線(xiàn)問(wèn)題上有很有優(yōu)秀的性能。

Adam 算法同時(shí)獲得了 AdaGrad 和 RMSProp 算法的優(yōu)點(diǎn)。Adam 不僅如 RMSProp 算法那樣基于一階矩均值計(jì)算適應(yīng)性參數(shù)學(xué)習(xí)率，它同時(shí)還充分利用了梯度的二階矩均值（即有偏方差/uncentered variance）。具體來(lái)說(shuō)，算法計(jì)算了梯度的指數(shù)移動(dòng)均值（exponential moving average），超參數(shù) beta1 和 beta2 控制了這些移動(dòng)均值的衰減率。

移動(dòng)均值的初始值和 beta1、beta2 值接近于 1（推薦值），因此矩估計(jì)的偏差接近于 0。該偏差通過(guò)首先計(jì)算帶偏差的估計(jì)而后計(jì)算偏差修正后的估計(jì)而得到提升。

2.Adam算法

image.jpeg

Adam論文地址：https://arxiv.org/abs/1412.6980

如上算法所述，在確定了參數(shù)α、β_1、β_2 和隨機(jī)目標(biāo)函數(shù) f(θ) 之后，我們需要初始化參數(shù)向量、一階矩向量、二階矩向量和時(shí)間步。然后當(dāng)參數(shù) θ 沒(méi)有收斂時(shí)，循環(huán)迭代地更新各個(gè)部分。即時(shí)間步 t 加 1、更新目標(biāo)函數(shù)在該時(shí)間步上對(duì)參數(shù)θ所求的梯度、更新偏差的一階矩估計(jì)和二階原始矩估計(jì)，再計(jì)算偏差修正的一階矩估計(jì)和偏差修正的二階矩估計(jì)，然后再用以上計(jì)算出來(lái)的值更新模型的參數(shù)θ。

上圖偽代碼為展現(xiàn)了 Adam 算法的基本步驟。假定 f(θ) 為噪聲目標(biāo)函數(shù)：即關(guān)于參數(shù)θ可微的隨機(jī)標(biāo)量函數(shù)。我們對(duì)怎樣減少該函數(shù)的期望值比較感興趣，即對(duì)于不同參數(shù) θ，f 的期望值 E[f(θ)]。其中 f1(θ), ..., , fT (θ) 表示在隨后時(shí)間步 1, ..., T 上的隨機(jī)函數(shù)值。這里的隨機(jī)性來(lái)源于隨機(jī)子樣本（小批量）上的評(píng)估和固有的函數(shù)噪聲。而

image.png

表示 ft(θ) 關(guān)于θ的梯度，即在實(shí)踐步驟 t 下 ft 對(duì)θ的偏導(dǎo)數(shù)向量。

該算法更新梯度的指數(shù)移動(dòng)均值（mt）和平方梯度（vt），而參數(shù) β_1、β_2 ∈ [0, 1) 控制了這些移動(dòng)均值（moving average）指數(shù)衰減率。移動(dòng)均值本身使用梯度的一階矩（均值）和二階原始矩（有偏方差）進(jìn)行估計(jì)。然而因?yàn)檫@些移動(dòng)均值初始化為 0 向量，所以矩估計(jì)值會(huì)偏差向 0，特別是在初始時(shí)間步中和衰減率非常?。处陆咏?1）的情況下是這樣的。但好消息是，初始化偏差很容易抵消，因此我們可以得到偏差修正（bias-corrected）的估計(jì) m_t hat 和 v_t hat。

注意算法的效率可以通過(guò)改變計(jì)算順序而得到提升，例如將偽代碼最后三行循環(huán)語(yǔ)句替代為以下兩個(gè)：

image.jpeg

3. Adam 的更新規(guī)則

Adam 算法更新規(guī)則的一個(gè)重要特征就是它會(huì)很謹(jǐn)慎地選擇步長(zhǎng)的大小。假定 ε=0，則在時(shí)間步 t 和參數(shù)空間上的有效下降步長(zhǎng)為

image.png

有效下降步長(zhǎng)有兩個(gè)上確界：即在

image.png

情況下，有效步長(zhǎng)的上確界滿(mǎn)足

image.png

和其他情況下滿(mǎn)足 |?t| ≤ α。第一種情況只有在極其稀疏的情況下才會(huì)發(fā)生：即梯度除了當(dāng)前時(shí)間步不為零外其他都為零。而在不那么稀疏的情況下，有效步長(zhǎng)將會(huì)變得更小。當(dāng)

image.png

時(shí)，我們有

image.png

，因此可以得出上確界 |?t| < α。在更通用的場(chǎng)景中，因?yàn)?|E[g]/ p E[g^2]| ≤ 1，我們有

image.png

。每一個(gè)時(shí)間步的有效步長(zhǎng)在參數(shù)空間中的量級(jí)近似受限于步長(zhǎng)因子 α，即

image.png

。這個(gè)可以理解為在當(dāng)前參數(shù)值下確定一個(gè)置信域，因此其要優(yōu)于沒(méi)有提供足夠信息的當(dāng)前梯度估計(jì)。這正可以令其相對(duì)簡(jiǎn)單地提前知道α正確的范圍。

對(duì)于許多機(jī)器學(xué)習(xí)模型來(lái)說(shuō)，我們知道好的最優(yōu)狀態(tài)是在參數(shù)空間內(nèi)的集合域上有極高的概率。這并不罕見(jiàn)，例如我們可以在參數(shù)上有一個(gè)先驗(yàn)分布。因?yàn)棣链_定了參數(shù)空間內(nèi)有效步長(zhǎng)的量級(jí)（即上確界），我們常?？梢酝茢喑靓恋恼_量級(jí)，而最優(yōu)解也可以從θ0 開(kāi)始通過(guò)一定量的迭代而達(dá)到。我們可以將

image.png

稱(chēng)之為信噪比（signal-to-noise ratio/SNR）。如果 SNR 值較小，那么有效步長(zhǎng)?t 將接近于 0，目標(biāo)函數(shù)也將收斂到極值。這是非常令人滿(mǎn)意的屬性，因?yàn)樵叫〉?SNR 就意味著算法對(duì)方向

image.png

是否符合真實(shí)梯度方向存在著越大的不確定性。例如，SNR 值在最優(yōu)解附近趨向于 0，因此也會(huì)在參數(shù)空間有更小的有效步長(zhǎng)：即一種自動(dòng)退火（automatic annealing）的形式。有效步長(zhǎng)?t 對(duì)于梯度縮放來(lái)說(shuō)仍然是不變量，我們?nèi)绻靡蜃?c 重縮放（rescaling）梯度 g，即相當(dāng)于用因子 c 重縮放

image.png

和用因子 c^2 縮放

image.png

，而在計(jì)算信噪比時(shí)縮放因子會(huì)得到抵消：

image.png

。

4. 初始化偏差修正

正如本論文第二部分算法所述，Adam 利用了初始化偏差修正項(xiàng)。本部分將由二階矩估計(jì)推導(dǎo)出這一偏差修正項(xiàng)，一階矩估計(jì)的推導(dǎo)完全是相似的。首先我們可以求得隨機(jī)目標(biāo)函數(shù) f 的梯度，然后我們希望能使用平方梯度（squared gradient）的指數(shù)移動(dòng)均值和衰減率 β_2 來(lái)估計(jì)它的二階原始矩（有偏方差）。令 g1, ..., gT 為時(shí)間步序列上的梯度，其中每個(gè)梯度都服從一個(gè)潛在的梯度分布 gt ～ p(gt)?，F(xiàn)在我們初始化指數(shù)移動(dòng)均值 v0=0（零向量），而指數(shù)移動(dòng)均值在時(shí)間步 t 的更新可表示為：

image.png

其中 gt^2 表示 Hadamard 積 gt⊙gt，即對(duì)應(yīng)元素之間的乘積。同樣我們可以將其改寫(xiě)為在前面所有時(shí)間步上只包含梯度和衰減率的函數(shù)，即消去 v：

image.png

我們希望知道時(shí)間步 t 上指數(shù)移動(dòng)均值的期望值 E[vt] 如何與真實(shí)的二階矩

image.png

相關(guān)聯(lián)，所以我們可以對(duì)這兩個(gè)量之間的偏差進(jìn)行修正。下面我們同時(shí)對(duì)表達(dá)式（1）的左邊和右邊去期望，即如下所示：

image.png

如果真實(shí)二階矩 E[g^2] 是靜態(tài)的（stationary），那么ζ = 0。否則 ζ 可以保留一個(gè)很小的值，這是因?yàn)槲覀儜?yīng)該選擇指數(shù)衰減率 β1 以令指數(shù)移動(dòng)均值分配很小的權(quán)重給梯度。所以初始化均值為零向量就造成了只留下了 (1 ? βt^2 ) 項(xiàng)。我們因此在算法 1 中除以了ζ項(xiàng)以修正初始化偏差。

在稀疏矩陣中，為了獲得一個(gè)可靠的二階矩估計(jì)，我們需要選擇一個(gè)很小的 β2 而在許多梯度上取均值。然而正好是這種小β2 值的情況導(dǎo)致了初始化偏差修正的缺乏，因此也就令初始化步長(zhǎng)過(guò)大。

5.7 Nadam

Nadam 是 NAG 和 Adam 優(yōu)化器的結(jié)合 [28]。如果過(guò)往歷史平方梯度的指數(shù)衰減平均值為 v_t，而過(guò)往歷史梯度的指數(shù)衰減平均值為 m_t，那么經(jīng)典動(dòng)量更新規(guī)則如下：

image.png

我們需要修改動(dòng)量規(guī)則以獲得 Nadam 優(yōu)化器。因此將上述公式擴(kuò)展為：

image.png

NAG 的修改如下：

image.png

[圖片上傳中...(image-72df65-1565612603885-3)]

可以通過(guò)更新梯度 g_t 時(shí)（第一次）和更新參數(shù) θ_t+1（第二次）修改 NAG，而不是兩次更新動(dòng)量。因此動(dòng)量向量直接更新參數(shù)可以表述如下：

[圖片上傳中...(image-db65ee-1565612603883-2)]

為了添加 NAG 到 Adam，需要使用當(dāng)前的動(dòng)態(tài)向量替換先前的動(dòng)態(tài)向量。因此，通過(guò) m hat 和 m_t 擴(kuò)展上述公式，Adam 更新規(guī)則如下：

image.jpeg

利用先前時(shí)間步動(dòng)量向量的偏差修正估計(jì)更新 Nadam 優(yōu)化器的規(guī)則，如下：

[圖片上傳中...(image-d1ffde-1565612603883-0)]

前饋神經(jīng)網(wǎng)絡(luò)、網(wǎng)絡(luò)層數(shù)、輸入層、隱藏層、輸出層、隱藏單元、激活函數(shù)的概念。
感知機(jī)相關(guān)；定義簡(jiǎn)單的幾層網(wǎng)絡(luò)（激活函數(shù)sigmoid），遞歸使用鏈?zhǔn)椒▌t來(lái)實(shí)現(xiàn)反向傳播。

激活函數(shù)的種類(lèi)以及各自的提出背景、優(yōu)缺點(diǎn)。（和線(xiàn)性模型對(duì)比，線(xiàn)性模型的局限性，去線(xiàn)性化）
深度學(xué)習(xí)中的正則化（參數(shù)范數(shù)懲罰：L1正則化、L2正則化；數(shù)據(jù)集增強(qiáng)；噪聲添加；early stop；Dropout層）、正則化的介紹。
深度模型中的優(yōu)化：
參數(shù)初始化策略；
自適應(yīng)學(xué)習(xí)率算法（梯度下降、AdaGrad、RMSProp、Adam；優(yōu)化算法的選擇）；
batch norm層（提出背景、解決什么問(wèn)題、層在訓(xùn)練和測(cè)試階段的計(jì)算公式）；
layer norm層。
FastText的原理。
利用FastText模型進(jìn)行文本分類(lèi)。
fastt e xt 1 fastt e xt 2 fasttext3 其中的參考

打卡地址：https://shimo.im/sheets/VThWCcGyhxPwV3rx/

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

1 前饋神經(jīng)網(wǎng)絡(luò)

2 感知機(jī)

3 激活函數(shù)

4 正則化

5 優(yōu)化

3. Adam 的更新規(guī)則

4. 初始化偏差修正

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

1 前饋神經(jīng)網(wǎng)絡(luò)

2 感知機(jī)

3 激活函數(shù)

4 正則化

5 優(yōu)化

3. Adam 的更新規(guī)則

4. 初始化偏差修正

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av