在上一篇論文中《Generalization and Network Design Strategies》,Yan LeCun成功設計了多個版本的神經(jīng)網(wǎng)絡,其中Net-5是一個包含兩個卷積層,一個全連接層的CNN網(wǎng)絡(當時還沒這么稱呼),并在一個包含480張圖片的小數(shù)據(jù)集上面達到了優(yōu)秀的泛化性能,該數(shù)據(jù)集是由工作人員使用鼠標在電腦上繪制的數(shù)字位圖。
在這篇論文中,作者延續(xù)上一篇論文的思路,設計了一個CNN網(wǎng)絡用于識別由美國郵局提供的信封上面的手寫郵政編碼(zip codes)。
1. 數(shù)據(jù)集
整個數(shù)據(jù)集包含9298張手寫數(shù)字圖片,數(shù)字圖片來自信封上面不同人使用不同風格、不同工具書寫的不同大小的郵政編碼數(shù)字,經(jīng)過數(shù)字化,排除掉無關干擾標記,進行單字符分割之后的結(jié)果。這是一個實際應用問題。
- 數(shù)據(jù)集分為7291張訓練集,2007張測試集;
- 所有數(shù)據(jù)集被預處理成16x16的歸一化圖像(normalized image),像素值位于[-1,1];
部分樣本如下圖所示:

2. 網(wǎng)絡設計
文章中明確說明了,本文中設計的網(wǎng)絡是在上一篇論文中提出的Net-5基礎上做了擴展,不過同樣包含兩個卷積層,一個全連接層,網(wǎng)絡結(jié)構(gòu)圖如下所示:

該網(wǎng)絡具有如下特點:
- H1和H2卷積層都包含12個feature map,用于提取輸入feature map的不同特征,卷積核大小均為5x5,超出圖像邊界的卷積輸入使用了-1的padding處理;
- H2中每一個feature map的輸入又不是H1中所有的12個feature map,而只使用了H1中的8個feature map,具體選了哪8個feature map,論文中沒有公布;
- H1和H2中所有的卷積操作都采用權重共享,這和目前常規(guī)CNN網(wǎng)絡的卷積方式相同,但是bias沒有共享;
- 全連接層包含了30個神經(jīng)元;
- 激活函數(shù)是雙曲正切函數(shù)(tanh),損失函數(shù)是均方誤差函數(shù)(MSE),和上一篇論文保持一致;
- 和上一篇論文不同,這篇論文中開始出現(xiàn)了卷積(convolution)、卷積核(kernel)等專有名詞;
- 文章中后面提到,卷積層H1和H2中feature map的數(shù)量是通過做實驗確定的,當采用12個feature map時,模型的泛化性能是最好的。另外,作者也嘗試了直接使用全連接網(wǎng)絡,不過泛化性能很差。
至于網(wǎng)絡中的模型參數(shù)大小,論文中描述的相當仔細,這里不再贅述。
3. 權重初始化和學習算法
模型訓練前的權重初始化采用的是-2.4/Fi—2.4/Fi 之間的均勻分布的隨機采樣,其中Fi等于該權重連接的輸出單元對應的輸入單元數(shù)(有點繞)。文章中說這項權重初始化技術能保持總的輸入保持在S型激活函數(shù)的操作范圍內(nèi)(沒懂)。
另外,學習算法采用了類似于隨機梯度下降(stochastic gradient descent)的方法,也就是每次只使用單個樣本進行權重更新,只不過權重更新采用了牛頓法的一個改進版本。
4. 總結(jié)
這篇文章設計了一個包含兩個卷積層的CNN網(wǎng)絡,并將其應用于一個現(xiàn)實生活中的問題—手寫郵政編碼識別。模型的泛化性能達到了當時最佳。
在上一篇網(wǎng)絡提出的Net-5的基礎上,用于圖像分類的CNN網(wǎng)絡的發(fā)展又向前邁進了一步。