(1989)Backpropagation applied to handwritten zip code recognition

在上一篇論文中《Generalization and Network Design Strategies》,Yan LeCun成功設計了多個版本的神經(jīng)網(wǎng)絡,其中Net-5是一個包含兩個卷積層,一個全連接層的CNN網(wǎng)絡(當時還沒這么稱呼),并在一個包含480張圖片的小數(shù)據(jù)集上面達到了優(yōu)秀的泛化性能,該數(shù)據(jù)集是由工作人員使用鼠標在電腦上繪制的數(shù)字位圖。

在這篇論文中,作者延續(xù)上一篇論文的思路,設計了一個CNN網(wǎng)絡用于識別由美國郵局提供的信封上面的手寫郵政編碼(zip codes)。

1. 數(shù)據(jù)集

整個數(shù)據(jù)集包含9298張手寫數(shù)字圖片,數(shù)字圖片來自信封上面不同人使用不同風格、不同工具書寫的不同大小的郵政編碼數(shù)字,經(jīng)過數(shù)字化,排除掉無關干擾標記,進行單字符分割之后的結(jié)果。這是一個實際應用問題。

  • 數(shù)據(jù)集分為7291張訓練集,2007張測試集;
  • 所有數(shù)據(jù)集被預處理成16x16的歸一化圖像(normalized image),像素值位于[-1,1];

部分樣本如下圖所示:


2. 網(wǎng)絡設計

文章中明確說明了,本文中設計的網(wǎng)絡是在上一篇論文中提出的Net-5基礎上做了擴展,不過同樣包含兩個卷積層,一個全連接層,網(wǎng)絡結(jié)構(gòu)圖如下所示:


該網(wǎng)絡具有如下特點:

  • H1和H2卷積層都包含12個feature map,用于提取輸入feature map的不同特征,卷積核大小均為5x5,超出圖像邊界的卷積輸入使用了-1的padding處理;
  • H2中每一個feature map的輸入又不是H1中所有的12個feature map,而只使用了H1中的8個feature map,具體選了哪8個feature map,論文中沒有公布;
  • H1和H2中所有的卷積操作都采用權重共享,這和目前常規(guī)CNN網(wǎng)絡的卷積方式相同,但是bias沒有共享;
  • 全連接層包含了30個神經(jīng)元;
  • 激活函數(shù)是雙曲正切函數(shù)(tanh),損失函數(shù)是均方誤差函數(shù)(MSE),和上一篇論文保持一致;
  • 和上一篇論文不同,這篇論文中開始出現(xiàn)了卷積(convolution)、卷積核(kernel)等專有名詞;
  • 文章中后面提到,卷積層H1和H2中feature map的數(shù)量是通過做實驗確定的,當采用12個feature map時,模型的泛化性能是最好的。另外,作者也嘗試了直接使用全連接網(wǎng)絡,不過泛化性能很差。

至于網(wǎng)絡中的模型參數(shù)大小,論文中描述的相當仔細,這里不再贅述。

3. 權重初始化和學習算法

模型訓練前的權重初始化采用的是-2.4/Fi—2.4/Fi 之間的均勻分布的隨機采樣,其中Fi等于該權重連接的輸出單元對應的輸入單元數(shù)(有點繞)。文章中說這項權重初始化技術能保持總的輸入保持在S型激活函數(shù)的操作范圍內(nèi)(沒懂)。

另外,學習算法采用了類似于隨機梯度下降(stochastic gradient descent)的方法,也就是每次只使用單個樣本進行權重更新,只不過權重更新采用了牛頓法的一個改進版本。

4. 總結(jié)

這篇文章設計了一個包含兩個卷積層的CNN網(wǎng)絡,并將其應用于一個現(xiàn)實生活中的問題—手寫郵政編碼識別。模型的泛化性能達到了當時最佳。

在上一篇網(wǎng)絡提出的Net-5的基礎上,用于圖像分類的CNN網(wǎng)絡的發(fā)展又向前邁進了一步。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容