神經(jīng)元模型
單一神經(jīng)元的模型通常是一個階躍函數(shù)或sigmoid函數(shù),像是模擬神經(jīng)元輸入累積超過一定閾值才給一個輸出。
感知機與多層網(wǎng)絡(luò)
感知機就是兩個輸入給出一個輸出的基礎(chǔ)模型,再復(fù)雜的神經(jīng)網(wǎng)絡(luò)都是多個感知機疊加而成的。感知機可以根據(jù)訓(xùn)練誤差,調(diào)整權(quán)重。
誤差逆?zhèn)鞑?/h1>
誤差逆?zhèn)鞑ゾ褪?b>BP算法,是神經(jīng)網(wǎng)絡(luò)訓(xùn)練的常用算法。標(biāo)準(zhǔn)BP算法和累積BP算法基本對應(yīng)于隨機梯度下降(參數(shù)更新只針對單個樣本,參數(shù)更新頻繁)和批量梯度下降(參數(shù)更新考慮所有樣本)。
BP算法避免過擬合的策略包括“早停”和“正則化”?!霸缤!痹诿看斡?xùn)練完都要用驗證集估計誤差,當(dāng)訓(xùn)練誤差下降但驗證誤差升高時停止訓(xùn)練?!罢齽t化”在誤差函數(shù)中加入描述網(wǎng)絡(luò)復(fù)雜度的部分。
全局最小與局部最小
這一部分內(nèi)容對其他模型也都適用。梯度下降算法趨向于梯度為零的位置,但有可能是一個局部最小值,而非全局最小。常用的跳出局部最小的方法有:
以多組不同參數(shù)值初始化多個神經(jīng)網(wǎng)絡(luò),相當(dāng)于從不同初始點開始梯度下降,有可能陷入不同的局部最小,再從中選擇更接近全局最小的結(jié)果;
模擬退火,類似金屬冷卻中的原子,一開始都是隨機運動的,但慢慢趨于穩(wěn)定。在當(dāng)前問題中,即在梯度下降的每一步中都以一定概率接受比當(dāng)前解更差的結(jié)果,從而有助于跳出局部最小。
隨機梯度下降。因為每次更新只考慮一個樣本,那么單一樣本的隨機誤差其實也有助于跳出局部最小。