對(duì)于一個(gè)網(wǎng)絡(luò),我們先使用了maxpooling進(jìn)行池化,得到的網(wǎng)絡(luò)模型架構(gòu)如下:

然后我們刪除了其中的最大池化層,得到了網(wǎng)絡(luò)模型架構(gòu)如下:

這種刪除最大池化層的網(wǎng)絡(luò)模型架構(gòu)有如下兩點(diǎn)問(wèn)題:
1.這種架構(gòu)不利于學(xué)習(xí)特征的空間層級(jí)結(jié)構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)學(xué)到的高級(jí)模式相對(duì)于初始輸入來(lái)說(shuō)仍然很小,這可能不足以學(xué)會(huì)對(duì)目標(biāo)任務(wù)進(jìn)行預(yù)測(cè)。我們需要讓最后一個(gè)卷積層的特征包含輸入的整體信息。
2.最后一層的特征圖對(duì)每個(gè)樣本共有222264=30976個(gè)元素。這太多了。如果你將其展平并在上面添加一個(gè)大小為512層的Dense層,那一層將會(huì)有1580萬(wàn)個(gè)參數(shù),這對(duì)于一個(gè)小型模型來(lái)說(shuō),會(huì)導(dǎo)致嚴(yán)重的過(guò)擬合。
綜上所述,使用下采樣的原因,一是減少需要處理的特征圖的元素個(gè)數(shù),二是通過(guò)讓連續(xù)卷積層的觀察窗口越來(lái)越大(即窗口覆蓋原始輸入的比例越來(lái)越大)
,從而引入空間過(guò)濾器的層級(jí)結(jié)構(gòu)。
請(qǐng)注意,最大池化不是實(shí)現(xiàn)下采樣的唯一方法。我們還可以在前一個(gè)卷積層中使用步幅stride來(lái)實(shí)現(xiàn)。此外,我們也可以使用平均池化來(lái)代替最大池化,其方法是將每個(gè)局部的輸入圖塊變換為取該圖塊各通道的平均值而不是最大值。但是最大池化的效果往往比這些替代方法更好。簡(jiǎn)而言之,原因在于特征中往往編碼了某種模式或概念在特征圖的不同位置是否存在,而觀察不同特征的最大值而不是平均值能夠給出更多的信息。因此,最合理的子采樣策略是首先生成密集的特征圖(通過(guò)無(wú)步進(jìn)的卷積),然后觀察特征每個(gè)小圖塊上的最大激活,而不是查看輸入的稀疏窗口(通過(guò)步進(jìn)卷積)或?qū)斎雸D塊取平均,因?yàn)楹髢煞N方法可能導(dǎo)致錯(cuò)過(guò)或者淡化特征是否存在的信息。