轉(zhuǎn)載自:http://blog.csdn.net/elwangeij/article/details/51352964
為什么預(yù)訓(xùn)練:
深度網(wǎng)絡(luò)存在以下缺點(diǎn):
1. 網(wǎng)絡(luò)越深,需要的訓(xùn)練樣本數(shù)越多。若用監(jiān)督則需大量標(biāo)注樣本,不然小規(guī)模樣本容易造成過擬合。(深層網(wǎng)絡(luò)意味著特征比較多,機(jī)器學(xué)習(xí)里面臨多特征:1.多樣本 2.規(guī)則化 3.特征選擇)
2. 多層神經(jīng)網(wǎng)絡(luò)參數(shù)優(yōu)化是個(gè)高階非凸優(yōu)化問題,常收斂較差的局部解
3. 梯度擴(kuò)散問題。BP算法計(jì)算出的梯度隨著深度向前而顯著下降,導(dǎo)致前面網(wǎng)絡(luò)參數(shù)貢獻(xiàn)很小,更新速度慢。
解決方法:逐層貪婪訓(xùn)練。無監(jiān)督預(yù)訓(xùn)練(unsupervised pre-training)即訓(xùn)練網(wǎng)絡(luò)的第一個(gè)隱藏層,再訓(xùn)練第二個(gè),最后用這些訓(xùn)練好的網(wǎng)絡(luò)參數(shù)值作為整個(gè)網(wǎng)絡(luò)參數(shù)的初始值。? 無監(jiān)督學(xué)習(xí)--->參數(shù)初始值;監(jiān)督學(xué)習(xí)--->fine-tuning,即訓(xùn)練有標(biāo)注樣本。經(jīng)過預(yù)訓(xùn)練最終能得到比較好的局部最優(yōu)解。
常用預(yù)訓(xùn)練方法
stacked RBM
stacked sparse-autoencoder
stacked denoise-autoencoder
預(yù)訓(xùn)練的效果:

fine-tuning微調(diào)
預(yù)訓(xùn)練類似于規(guī)則化權(quán)值(從測(cè)試誤差來說,預(yù)訓(xùn)練對(duì)于多節(jié)點(diǎn)數(shù)和深層網(wǎng)絡(luò)效果更加)