前言
地鐵上無聊碼的,思路比較凌亂
4. 現(xiàn)代神經(jīng)網(wǎng)絡(luò)的目標
我認為,現(xiàn)代神經(jīng)網(wǎng)絡(luò)的目標只有兩個
1. 過擬合與欠擬合的調(diào)試
3. internal covariance shift
過擬合和欠擬合的調(diào)試
神經(jīng)網(wǎng)絡(luò)的過擬合與欠擬合一直是個恒古不變的話題
如何能夠防止神經(jīng)網(wǎng)絡(luò)產(chǎn)生沒意義的特征工程和做出有意義的特征工程,就是這方面的一個問題
mlp擅長過擬合,因為他會提取完全無關(guān)系的神經(jīng)元之間的關(guān)系并作為特征。而局部連接的一些神經(jīng)網(wǎng)絡(luò)可以減少這樣的操作。
但cnn也不是完全都恰當好處的特征提取,所以在架構(gòu)與架構(gòu)之間產(chǎn)生非常大的差別,nin和alexnet的參數(shù)數(shù)量可以差十倍卻有差不多的效果
神經(jīng)網(wǎng)絡(luò)都追求較少的參數(shù),也是希望減少過擬合
與傳統(tǒng)機器學(xué)習(xí)方法不同,神經(jīng)網(wǎng)絡(luò)增加模型容量可謂是簡單至極。你希望的話,可以把cnn疊個一萬層
分分鐘過擬合
所以大部分情況下都是在解決過擬合問題
很多網(wǎng)絡(luò)架構(gòu)都在探究用最少的參數(shù)做出最好的效果,即減少過擬合程度,也是如此
internal covariance shift
(不是很會翻這個詞,內(nèi)部協(xié)變量轉(zhuǎn)移?一下簡稱ics了)
(一點注意的是ics和covariance shift不同。covariance指的是模型在testing和training集的差,而ics就是梯度爆炸和梯度消失神馬的)
ics:the change during training due to the change in parameters(《batch normalization》)
我擅自將其解釋為類似梯度爆炸和梯度消失的問題
這是我第一次看到這個詞的定義
但是相似描述的情景在densenet和resnet的論文中也有描述
過深的網(wǎng)絡(luò)不好訓(xùn)練,訓(xùn)練的結(jié)果也不太好
現(xiàn)代很多網(wǎng)絡(luò)的研究就在于解決這個問題
batch normalization通過標準化來解決這個問題,同時用兩個可學(xué)習(xí)的參數(shù)去減輕標準化對特征的破壞
densenet和resnet都通過較遠的神經(jīng)元的連接的方式去減輕這個問題
當然resnet和densenet思路有點小不同
resnet想學(xué)習(xí)的是ΔW
densenet瘋狂地追求前后連接
但本質(zhì)差不多(densenet如是說)
結(jié)語
本文只是一個大二學(xué)生的粗鄙之語
自己還是論文看少了
比如resnet和densenet都提到的一個f什么net我就沒看
還有其實很多問題,神經(jīng)網(wǎng)絡(luò)也不像我說的這么簡單
就當以上內(nèi)容純屬虛構(gòu)和胡說八道吧