周志華《機器學(xué)習(xí)》之六:神經(jīng)網(wǎng)絡(luò)

神經(jīng)元模型

單一神經(jīng)元的模型通常是一個階躍函數(shù)或sigmoid函數(shù),像是模擬神經(jīng)元輸入累積超過一定閾值才給一個輸出。

感知機與多層網(wǎng)絡(luò)

感知機就是兩個輸入給出一個輸出的基礎(chǔ)模型,再復(fù)雜的神經(jīng)網(wǎng)絡(luò)都是多個感知機疊加而成的。感知機可以根據(jù)訓(xùn)練誤差,調(diào)整權(quán)重。

誤差逆?zhèn)鞑?/h1>

誤差逆?zhèn)鞑ゾ褪?b>BP算法,是神經(jīng)網(wǎng)絡(luò)訓(xùn)練的常用算法。標(biāo)準(zhǔn)BP算法和累積BP算法基本對應(yīng)于隨機梯度下降(參數(shù)更新只針對單個樣本,參數(shù)更新頻繁)和批量梯度下降(參數(shù)更新考慮所有樣本)。

BP算法避免過擬合的策略包括“早停”和“正則化”?!霸缤!痹诿看斡?xùn)練完都要用驗證集估計誤差,當(dāng)訓(xùn)練誤差下降但驗證誤差升高時停止訓(xùn)練?!罢齽t化”在誤差函數(shù)中加入描述網(wǎng)絡(luò)復(fù)雜度的部分。

全局最小與局部最小

這一部分內(nèi)容對其他模型也都適用。梯度下降算法趨向于梯度為零的位置,但有可能是一個局部最小值,而非全局最小。常用的跳出局部最小的方法有:

多組不同參數(shù)值初始化多個神經(jīng)網(wǎng)絡(luò),相當(dāng)于從不同初始點開始梯度下降,有可能陷入不同的局部最小,再從中選擇更接近全局最小的結(jié)果;

模擬退火,類似金屬冷卻中的原子,一開始都是隨機運動的,但慢慢趨于穩(wěn)定。在當(dāng)前問題中,即在梯度下降的每一步中都以一定概率接受比當(dāng)前解更差的結(jié)果,從而有助于跳出局部最小。

隨機梯度下降。因為每次更新只考慮一個樣本,那么單一樣本的隨機誤差其實也有助于跳出局部最小。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容