VGGNet為什么效果比AlexNet好

VGGNet簡介

VGGNet網(wǎng)絡(luò)結(jié)構(gòu)

下圖是學(xué)界最常使用的vgg-16神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖,可以看到其組成由:

  • 2個通道數(shù)是64224\times 224的卷積層
  • 2個通道數(shù)是128112\times 112的卷積層
  • 3個通道數(shù)是25656\times 56的卷積層
  • 3個通道數(shù)是51228\times 28的卷積層
  • 3個通道數(shù)是51214\times 14的卷積層
  • 1個通道數(shù)是4096的全連接層
  • 1個通道數(shù)是4096的全連接層
  • 1個通道數(shù)是1000的全連接層+softmax層
    這樣加起來2+2+3+3+3+1+1+1 = 16,vgg-16就是這樣由來的:

當(dāng)然,VGGNet除了16層的網(wǎng)絡(luò)結(jié)構(gòu)還有其他樣式的網(wǎng)絡(luò)結(jié)構(gòu),如圖:


VGGNet與AlexNet網(wǎng)絡(luò)結(jié)構(gòu)的對比

可以看到,VGGNet除了層數(shù)比AlexNet多外,不管是VGG-16還是VGG-19其使用的卷積核均是3\times 3的,而非AlexNet的11\times 11或者5\times 5的,如圖:

為什么要使用小卷積核

之前對感受野有了一次介紹,這里是連接:卷積神經(jīng)網(wǎng)絡(luò)的感受野及其計算,所以在這里會采用感受野的知識來回答這個問題。我們把33\times 3的卷積核堆疊起來:

  • 第一個3\times 3的卷積核的感受野是3\times 3。
  • 第二個3\times 3的卷積核的感受野是5\times 5
  • 第三個3\times 3的卷積核的感受野是7\times 7。

也就是說,經(jīng)過3次卷積運(yùn)算后其對原始圖像的感受野是7\times 7的,相當(dāng)于一個7\times 7的卷積核的感受野!但是為什么不直接使用一個7\times 7的卷積核呢?原因是雖然33\times 3的卷積核的感受野與17\times 7的卷積核一樣,但是前者可以經(jīng)過3次激活函數(shù)的非線性變換具有比1次非線性變化得到的特征更具有表達(dá)性。除此之外,使用小的卷積核還能夠節(jié)省參數(shù)量,例如假設(shè)上一層的特征圖的通道數(shù)是C個,那么:

  • 33\times 3卷積核的參數(shù)量是:3\times (C\times (3\times 3\times C)) = 27C^2
  • 17\times 7卷積核的參數(shù)量是:C\times (7\times 7\times C)) = 49C^2

總結(jié)

  • 可多次非線性變換提高卷積核對特征的抽取。
  • 參數(shù)量更少,方便計算和存儲。

VGGNet每層的參數(shù)量

下圖展示了VGG-16網(wǎng)絡(luò)結(jié)構(gòu)每一層的參數(shù)量,需要說明的是在訓(xùn)練該網(wǎng)絡(luò)時大部分的內(nèi)存開銷都在開始的卷積層,大部分的參數(shù)都在最后的3個全連接層:


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容