[翻譯]Network In Network

英文原文請(qǐng)點(diǎn)這里

摘要 我們提出了一種新型的深度網(wǎng)絡(luò)結(jié)構(gòu),稱為“Network In Network”(NIN),它可以增強(qiáng)模型在感受野(receptive field)內(nèi)對(duì)局部區(qū)域(local patches)的辨別能力。傳統(tǒng)的卷積層使用線性濾波器來(lái)掃描輸入,后面接一個(gè)非線性激活函數(shù)。而我們則構(gòu)建了一些結(jié)構(gòu)稍復(fù)雜的微型神經(jīng)網(wǎng)絡(luò)來(lái)抽象receptive field內(nèi)的數(shù)據(jù)。 我們用多層感知器實(shí)例化微型神經(jīng)網(wǎng)絡(luò),這是一種有效的函數(shù)逼近器。特征圖可以通過(guò)微型神經(jīng)網(wǎng)絡(luò)在輸入上滑動(dòng)得到,類似于CNN;接下來(lái)特征圖被傳入下一層。深度NIN可以通過(guò)堆疊上述結(jié)構(gòu)實(shí)現(xiàn)。通過(guò)微型網(wǎng)絡(luò)增強(qiáng)局部模型,我們就可以在分類層中利用所有特征圖的全局平均池化層(GAP),這樣更容易解釋且比傳統(tǒng)的全連接層更不容易過(guò)擬合。我們證明了NIN在CIFAR-10和CIFAR-100上得到了有史以來(lái)最佳的表現(xiàn)以及在SVHN和MNIST數(shù)據(jù)集上合理的表現(xiàn)。

1 Introduction

卷積神經(jīng)網(wǎng)絡(luò)(CNN)由卷積層和池化層交替組成。卷積層使用線性濾波器和底層receptive field做內(nèi)積,然后接一個(gè)非線性的激活函數(shù),得到的輸出稱作特征圖(feature map)。

CNN的卷積濾波器是底層數(shù)據(jù)塊的廣義線性模型(generalized linear model )(GLM),而且我們認(rèn)為它的抽象程度較低。這里的抽象較低是指該特征對(duì)同一概念的變體是不變的。用更有效的非線性函數(shù)逼近器代替GLM可以增強(qiáng)局部模型的抽象能力。當(dāng)樣本的隱含概念(latent concept)線性可分時(shí),GLM可以達(dá)到很好的抽象程度,例如:這些概念的變體都在GLM分割平面的同一邊,而傳統(tǒng)的CNN就默認(rèn)了這個(gè)假設(shè)——認(rèn)為隱含概念(latent concept)是線性可分的。然而,同一概念的數(shù)據(jù)通常是非線性流形的(nonlinear manifold),捕捉這些概念的表達(dá)通常都是輸入的高維非線性函數(shù)。在NIN中,GLM用“微型網(wǎng)絡(luò)”結(jié)構(gòu)替代,該結(jié)構(gòu)是一個(gè)非線性函數(shù)逼近器。在本項(xiàng)研究中,我們選擇多層感知器實(shí)例化微型網(wǎng)絡(luò),該感知器是一個(gè)通用函數(shù)逼近器,也是一個(gè)通過(guò)反向傳播訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。

最終結(jié)構(gòu)我們稱為“mlpconv”層,與CNN的比較見圖1.


圖1 線性卷積層與mlpconv層的比較。線性卷積層包含線性濾波器,而mlpconv層包含的是微型網(wǎng)絡(luò)(本文選擇多層感知器)。兩種層都將局部感受野映射到了隱含概念的置信度值

線性卷積層和mlpconv層都從局部感受野(receptive field)映射到了輸出特征向量。mlpconv 層將局部塊的輸入通過(guò)一個(gè)由全連接層和非線性激活函數(shù)組成的多層感知器(MLP)映射到了輸出的特征向量。MLP在所有局部感受野中共享。特征圖通過(guò)用像CNN一樣的方式在輸入上滑動(dòng)MLP得到,NIN的總體結(jié)構(gòu)是一系列mplconv層的堆疊。被稱作“Network In Network”(NIN),因?yàn)閮?nèi)部含有MLP。

我們沒(méi)有采用傳統(tǒng)CNN的全連接層進(jìn)行分類,而是直接通過(guò)全局平均池化層(GAP)輸出最后一個(gè)mlpconv層特征圖的空間平均值作為類別的置信度值,然后將得到的向量輸入softmax層。在傳統(tǒng)的CNN中,很難解釋如何將來(lái)自分類層(objective cost layer)的分類信息傳遞回前一個(gè)卷積層,因?yàn)槿B接層像一個(gè)黑盒一樣。相比之下,全局平均池化層(GAP)更有意義且容易解釋,因?yàn)樗鼜?qiáng)化了特征圖與分類的對(duì)應(yīng)關(guān)系,這是通過(guò)使用微型網(wǎng)絡(luò)構(gòu)成的局部建模器實(shí)現(xiàn)的。此外,全連接層更容易過(guò)擬合且嚴(yán)重依賴于dropout正則化,而GAP則本身就是一個(gè)結(jié)構(gòu)化的正則化器,能避免整體結(jié)構(gòu)的過(guò)擬合。

2 Convolutional Neural Networks

經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)由卷積層和空間池化層交替堆疊產(chǎn)生。卷積層通過(guò)線性卷積濾波器接一個(gè)非線性激活函數(shù)(如rectifier,sigmoid,tanh等等)生成特征圖。例如使用rectifier激活函數(shù),特征圖的計(jì)算如下:

公式(1)

這里的(i, j)是特征圖像素的索引,xij代表以位置(i, j)為中心的輸入塊,k用來(lái)索引特征圖的顏色通道。

當(dāng)隱含概念線性可分時(shí),這種線性卷積足以用于抽象,但是要想得到更好的抽象,應(yīng)該是用輸入數(shù)據(jù)的高度非線性函數(shù)。在傳統(tǒng)的CNN中,這可以通過(guò)利用一套完整的濾波器來(lái)彌補(bǔ),覆蓋所有隱含概念的變化。也就是說(shuō),單獨(dú)的線性濾波器可以學(xué)習(xí)檢測(cè)同一概念的不同變化。但是同一概念使用太多的濾波器會(huì)給下一層帶來(lái)額外的負(fù)擔(dān),需要考慮來(lái)自前一層的所有變化的組合,來(lái)自更高層的濾波器會(huì)映射到原始輸入的更大區(qū)域,它通過(guò)結(jié)合下層的較低級(jí)概念生成較高級(jí)的概念,因此,我們認(rèn)為在每一個(gè)局部塊結(jié)合生成更高級(jí)概念之前就作出更好的抽象是更有益的。

在最近的maxout網(wǎng)絡(luò)中,特征圖的數(shù)目通過(guò)在affine feature maps上做最大池化來(lái)減少(affine feature maps是線性卷積未通過(guò)激活函數(shù)的直接結(jié)果)。線性函數(shù)的最大化使分段線性逼近器能逼近任何凸函數(shù)。與執(zhí)行線性可分的傳統(tǒng)卷積層相比,maxout網(wǎng)絡(luò)更有效,因?yàn)樗芊蛛x在凸集內(nèi)的概念。這種改進(jìn)使maxout網(wǎng)絡(luò)在幾個(gè)基準(zhǔn)數(shù)據(jù)集上表現(xiàn)出色。
但是maxout網(wǎng)絡(luò)加了一個(gè)前提:隱含概念位于輸入空間的凸集內(nèi),而這是不一定的。因此應(yīng)該使用一個(gè)更通用的函數(shù)逼近器,在隱含概念處于更復(fù)雜的分布時(shí)也依然能用。我們通過(guò)使用新的“Network In Network”結(jié)構(gòu)在實(shí)現(xiàn)這個(gè)需求,在每個(gè)卷積層內(nèi)引入一個(gè)微型網(wǎng)絡(luò),來(lái)計(jì)計(jì)算和抽象每個(gè)局部塊的特征。

在輸入上滑動(dòng)微型網(wǎng)絡(luò)已經(jīng)在之前的研究中提出過(guò)。比如,Sturctured Multilayer Perceptron(SMLP)在輸入圖片的不同塊中使用了共享的多層感知器;在另一項(xiàng)研究中,基于神經(jīng)網(wǎng)絡(luò)的濾波器被訓(xùn)練以用于面部檢測(cè)。但是,他們都是針對(duì)某個(gè)特定問(wèn)題設(shè)計(jì)的,且滑動(dòng)的網(wǎng)絡(luò)結(jié)構(gòu)都只有一層。NIN則從一個(gè)通用的角度上提出,微型網(wǎng)絡(luò)被整合到CNN結(jié)構(gòu)中,以追求對(duì)各級(jí)特征的更好的抽象。

3 Network In Network

我們首先強(qiáng)調(diào)提出的“Network In Network”結(jié)構(gòu)的關(guān)鍵組成:3.1節(jié)和3.2節(jié)分別介紹了MLP卷積層和全局平均池化層。然后我們?cè)?.3節(jié)詳細(xì)介紹NIN整體。

3.1 MLP卷積層

由于隱含概念的分布一開始并不知道,所以用一個(gè)通用函數(shù)逼近器做局部塊的特征提取,因?yàn)樗鼙平[含概念的更多抽象表示。Radial basis network和多層感知器是兩個(gè)眾所周知的通用函數(shù)逼近器。我們使用多層感知器,有兩個(gè)原因,首先,多層感知器與卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)一樣,都是通過(guò)反向傳播訓(xùn)練。其次多層感知器本身就是一個(gè)深度模型,符合特征再利用的精神。這種多層感知器層在文本被稱作mlpconv,我們用它來(lái)替代GLM(general linear model)在輸入上做卷積。圖1展示了線性卷積層和mplconv層的不同。mlpconv層的計(jì)算如下:

公式2

這里n是多層感知器中的層編號(hào)。rectified為多層感知器的激活函數(shù)。

從cross channel(cross feature map)池化的角度來(lái)看,公式2等效于級(jí)聯(lián)普通卷積層的cross channel parametric pooling。每個(gè)池化層在輸入特征圖上做加權(quán)線性重組,然后通過(guò)rectifier函數(shù)。池化了的cross channel特征圖又在下一層池化,如此一遍又一遍重復(fù)。級(jí)聯(lián)的cross channel parameteric pooling結(jié)構(gòu)允許復(fù)雜的和可學(xué)習(xí)的cross channel信息進(jìn)行交互。

cross channel parametric pooling層也等效于一個(gè)1x1卷積核的卷積層。這個(gè)解釋可以更直觀的理解NIN的結(jié)構(gòu)。

與maxout層的比較: maxout網(wǎng)絡(luò)中的maxout層在affine feature maps上做了最大池化,maxout層的特征圖計(jì)算如下:

公式3

maxout線性函數(shù)形成了一個(gè)分段線性函數(shù),可以給任何凸函數(shù)建模。對(duì)于一個(gè)凸函數(shù)來(lái)說(shuō),函數(shù)值在特定閾值下的樣本點(diǎn)形成一個(gè)凸集,因此,通過(guò)擬合局部塊的凸函數(shù),可以形成樣本點(diǎn)在凸集內(nèi)的概念的分割超平面(例如,l2 balls, convex cones)。mlpconv層和maxout層的不同之處在與見凸函數(shù)擬合器用通用函數(shù)擬合器替代,使其能對(duì)更多的隱含概念分布建模。

3.2 Global Average Pooling

傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在網(wǎng)絡(luò)的較低層執(zhí)行卷積。對(duì)于分類任務(wù),最后一個(gè)卷積層得到的特征圖被向量化然后送入全連接層,接一個(gè)softmax邏輯回歸層。這種結(jié)構(gòu)將卷積結(jié)構(gòu)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)分類器連接起來(lái),見卷積層作為特征提取器,得到的特征用傳統(tǒng)方式進(jìn)行分類。

但是,全連接層容易過(guò)擬合,從而阻礙了整個(gè)網(wǎng)絡(luò)的泛化能力。后來(lái)dropout被Hinton等人提出,用于正則化,在訓(xùn)練過(guò)程中隨機(jī)地將全連接層的一半激活值置零,改善了它的泛化能力并且很大程度地預(yù)防了過(guò)擬合。

在本文中,我們提出了另一個(gè)策略,叫做全局平均池化層,用它來(lái)替代CNN中的全連接層。想法是在最后一個(gè)mlpconv層生成一個(gè)分類任務(wù)中相應(yīng)類別的特征圖。我們沒(méi)有在特征圖最頂端增加全連接層,而是求每個(gè)特征圖的平均值,得到的結(jié)果向量直接輸入softmax層。GAP相比全連接層的優(yōu)點(diǎn)在于通過(guò)增強(qiáng)特征圖與類比間的對(duì)應(yīng)關(guān)系使卷積結(jié)構(gòu)保留的更好,使特征圖分類是可信的得到很好的解釋;另一個(gè)優(yōu)點(diǎn)是GAP層中沒(méi)有參數(shù)設(shè)置,因此避免了過(guò)擬合;此外,GAP匯聚了空間信息,所以對(duì)輸入的空間轉(zhuǎn)換更魯棒。

我們可以看到GAP作為一個(gè)正則化器,加強(qiáng)了特征圖與概念(類別)的可信度的聯(lián)系。這是通過(guò)mlpconv層實(shí)現(xiàn)的,因?yàn)樗麄儽菺LM更好逼近置信圖(conficence maps)。

3.3 Network In Network Structure

NIN的整體結(jié)構(gòu)是一系列mlpconve層的堆疊,最上層接一個(gè)GAP層和分類層。mlpconv層間的子層可以被相加,像CNN和maxout網(wǎng)絡(luò)一樣。圖2展示了一個(gè)包含三個(gè)mlpconv層的NIN。每個(gè)mlpconv層,包含一個(gè)三層的感知器,NIN和微型網(wǎng)絡(luò)的層數(shù)都是靈活的,可以根據(jù)具體任務(wù)微調(diào)。

圖2 NIN的整體結(jié)構(gòu)。本文的NIN由三個(gè)mlpconve層和一個(gè)GAP層堆疊而成。

4 Experiment

4.1 Overview

我們?cè)谒膫€(gè)基準(zhǔn)數(shù)據(jù)集上評(píng)估了NIN:CIFAR-10,CIFAR-100,SVHN和MNIST。網(wǎng)絡(luò)在這些數(shù)據(jù)上都使用三層堆疊mplconv層結(jié)構(gòu),mlpconv層后面都跟隨一個(gè)最大池化層,把原輸入樣本縮減一倍。作為正則化器,除了最后一個(gè)mlpconv層外所有輸出都加一個(gè)dropout。除非特別說(shuō)明,否則實(shí)驗(yàn)部分的所有全連接層都用全局平均池化層替代。另一個(gè)正則化方法是和Krizhevsky等人一樣的權(quán)重衰減。圖2展示了本節(jié)所用的NIN網(wǎng)絡(luò)整體結(jié)構(gòu),詳細(xì)的參數(shù)設(shè)置在補(bǔ)充材料中。我們使用由AlexKrizhevsky開發(fā)的超快速cuda-convnet代碼來(lái)實(shí)現(xiàn)我們的網(wǎng)絡(luò)。數(shù)據(jù)預(yù)處理和訓(xùn)練集驗(yàn)證集的拆分同Goodfellow。

我們的訓(xùn)練過(guò)程同Krizhevsky等人一樣。也就是說(shuō),我們手動(dòng)初始化了權(quán)重以及學(xué)習(xí)率,使用128小批次訓(xùn)練。訓(xùn)練層初始化權(quán)重和學(xué)習(xí)率開始,直到訓(xùn)練集上的準(zhǔn)確率停止改善,然后損失率減少10倍,再繼續(xù)訓(xùn)練,重復(fù)直到學(xué)習(xí)率衰減到1%。

4.2 CIFAR-10

CIFAR-10數(shù)據(jù)集由10類自然圖片組成,有50000張訓(xùn)練圖片,10000張測(cè)試圖片,每張圖片是32x32的RGB圖片。對(duì)于這個(gè)數(shù)據(jù)集,我們使用與Goodfellow在maxout network中相同的global contrast normalization和ZCA白化。我們用訓(xùn)練集的最后10000張圖片做驗(yàn)證集。

實(shí)驗(yàn)中每個(gè)mlpconv層的特征圖數(shù)與maxout網(wǎng)絡(luò)相同。有兩個(gè)超參數(shù)用驗(yàn)證集微調(diào),如局部感受野(local receptive field)的大小和權(quán)重衰減。超參數(shù)調(diào)整好后固定,然后重新在訓(xùn)練集合驗(yàn)證集上訓(xùn)練,將最終模型用于測(cè)試集。我們?cè)跍y(cè)試集上得到了10.41%的錯(cuò)誤率,比當(dāng)前最優(yōu)結(jié)果降低1%。表1展示了與先前方法的對(duì)比。


表1:CIFAR-10各種方法在測(cè)試集上的錯(cuò)誤率

我們實(shí)驗(yàn)證明,mlpconv層間使用dropout可以通過(guò)增加模型泛化能力來(lái)提升模型表現(xiàn)。如圖3所示,在mlpconv層間引用dropout層錯(cuò)誤率減少了20%多。這一結(jié)果與Goodfellow等人的一致,所以本文的所有模型mlpconv層間都加了dropout。沒(méi)有dropout的模型在CIFAR-10數(shù)據(jù)集上錯(cuò)誤率是14.5%,已經(jīng)超過(guò)之前最好的使用正則化的模型(除了maxout)。由于沒(méi)有dropout的maxout不可靠,所以本文只與有dropout正則器的版本比較。

圖3:mlpconv層間添加dropout的影響,有dropout和沒(méi)有dropout的NIN在訓(xùn)練集和測(cè)試集前200代的錯(cuò)誤率

與先前一樣,我們也在做了位移和水平翻轉(zhuǎn)的數(shù)據(jù)增強(qiáng)的CIFAR-10數(shù)據(jù)集上對(duì)我們的方法做了評(píng)估,在測(cè)試集上達(dá)到了8.81%的錯(cuò)誤率,創(chuàng)了新紀(jì)錄。

4.3 CIFAR-100

CIFAR-100和CIFAR-10數(shù)據(jù)規(guī)模一樣,只是分為100類。因此每一類圖的數(shù)目是CIFAR-10的1/10。對(duì)于CIFAR-100,我們不調(diào)整超參數(shù),而是使用和CIFAR-10一樣的設(shè)置。位移的不同是最后一個(gè)mlpconv層輸出100個(gè)特征圖。CIFAR-100在測(cè)試集上的錯(cuò)誤率為35.68%,超了當(dāng)前不做數(shù)據(jù)增強(qiáng)最好的表現(xiàn)1%多。詳細(xì)的表現(xiàn)比較見表2。


表2:CIFAR-100各種方法在測(cè)試集上的錯(cuò)誤率

4.4 Street View House Numbers

SVHN數(shù)據(jù)集由630,420 32x32的彩圖組成,分為訓(xùn)練集、測(cè)試集和額外集和。這個(gè)數(shù)據(jù)集的任務(wù)是識(shí)別出每張圖中間的數(shù)字。訓(xùn)練和測(cè)試過(guò)程同Goodfellow,也就是說(shuō),每一類從訓(xùn)練集中選擇400張圖,從額外集中選200張圖作為驗(yàn)證集。剩余的訓(xùn)練集和額外集用于訓(xùn)練。驗(yàn)證集只用于調(diào)整超參數(shù),不用于訓(xùn)練。

數(shù)據(jù)集的預(yù)處理也同Goodfellow,即local contrast normalization。用于SVHN的結(jié)構(gòu)和參數(shù)設(shè)置同CIFAR-10一樣,由三個(gè)mlpconv層加GAP組成。我們?cè)谶@個(gè)數(shù)據(jù)集上得到2.35%的錯(cuò)誤率。我們將結(jié)果與其他沒(méi)有做數(shù)據(jù)增強(qiáng)的方法結(jié)果進(jìn)行比較,如表3所示。

表3 各種方法在SVHN的錯(cuò)誤率

4.5 MNIST

MNIST數(shù)據(jù)集由28x28的0-9手寫數(shù)字組成。有60000張訓(xùn)練集圖片和10000張測(cè)試集圖片。對(duì)于這個(gè)數(shù)據(jù)集,網(wǎng)絡(luò)結(jié)構(gòu)同CIFAR-10一樣,只是每個(gè)mlpconv層的特征圖數(shù)減少了,因?yàn)镸NIST比CIFAR-10簡(jiǎn)單。與先前使用卷積神經(jīng)網(wǎng)絡(luò)的結(jié)果對(duì)比如表4.


表4:MNIST的錯(cuò)誤率比較

我們得到了0.47%的表現(xiàn),但是沒(méi)有當(dāng)前最好的0.45%好,因?yàn)镸NIST的錯(cuò)誤率已經(jīng)非常低了。

4.6 Global Average Pooling as a Regularizer

GAP層和全連接層很相似,都對(duì)特征向量做了線性轉(zhuǎn)換。不同的是轉(zhuǎn)換矩陣。GAP的轉(zhuǎn)換矩陣是事先定義的并且僅在共享相同值的塊對(duì)角線元素上是非零的。全連接層可以有復(fù)雜矩陣變換且值是通過(guò)反向傳播設(shè)置的。為了研究GAP的正則化影響,我們用GAP替換全連接層,模型其他部分相同。我們?cè)u(píng)估了全連接層前面有dropout和沒(méi)有dropout的模型,都在CIFAR-10上測(cè)試,表現(xiàn)比較如表5.


表5:GAP和全連接層的比較

如表5所示,全連接層沒(méi)有dropout的表現(xiàn)最差,11.59%,與預(yù)期一樣,全連接層沒(méi)有正則化器會(huì)過(guò)擬合。全連接層前增加了dropout后測(cè)試集錯(cuò)誤率為10.88%。GAP在三者比較中得到了最低錯(cuò)誤率10.41%。

然后我們探索了GAP對(duì)傳統(tǒng)CNN來(lái)說(shuō)是否也有同樣的正則化影響。我們實(shí)例化了一個(gè)像Hiton等人描述的傳統(tǒng)CNN,由三個(gè)卷積層和一個(gè)局部連接層(local connection layer)組成。局部連接層生成16個(gè)特征圖,傳給沒(méi)有dropout的全連接層。為了比較的公正性,我們把局部連接層的特征圖數(shù)從16減到了10,因?yàn)镚AP的每個(gè)類別只允許一個(gè)特征圖。GAP的等價(jià)網(wǎng)絡(luò)由dropout+帶有GAP的全連接層替代,表現(xiàn)在CIFAR-10上測(cè)試。

全連接層的CNN模型只能得到17.56%的錯(cuò)誤率,添加dropout后與Hinton等人提到的表現(xiàn)相近——15.99%。用GAP替換全連接層,我們達(dá)到16.46%的錯(cuò)誤率,與沒(méi)有dropout的CNN相比提升了1%。這又一次驗(yàn)證了GAP層作為正則化器的有效性。盡管比dropout稍差一些,但是我們認(rèn)為GAP可能對(duì)線性卷積要求過(guò)高,因?yàn)樗枰獛в衦ectified激活函數(shù)的線性濾波器來(lái)為類別的置信圖建模。

4.7 Visualization of NIN

我們通過(guò)GAP來(lái)增強(qiáng)NIN最后一個(gè)mlpconv層的特征圖,使其作為分類是可信的,這可能會(huì)加強(qiáng)局部感受野的建模。為了知道這個(gè)目標(biāo)實(shí)現(xiàn)了多少,我們提取和可視化了在CIFAR-10上訓(xùn)練的模型的來(lái)自最后一個(gè)mlpconv層的特征圖。

圖4展示了CIFAR-10上測(cè)試集上選擇的10類的一些示例圖和相關(guān)特征圖。如預(yù)期,特征圖的最大激活區(qū)域和輸入的相關(guān)真實(shí)分類吻合,這明顯是GAP加強(qiáng)過(guò)的。在真實(shí)分類的特征圖內(nèi),可以看到最大的激活區(qū)域出現(xiàn)在與原物體相同的區(qū)域,在結(jié)構(gòu)化物體中尤其如此,例如圖4第二行的車。注意這些特征圖的分類只用類別信息進(jìn)行訓(xùn)練,如果使用有邊界框標(biāo)注的圖片效果會(huì)更好。

圖4:最后一個(gè)mlpconv層的特征圖可視化,只展示了特征圖的10%。相關(guān)特征圖的分類是: 1. airplane, 2. automobile, 3. bird, 4. cat, 5. deer, 6. dog, 7. frog, 8. horse, 9. ship, 10. truck。與輸入圖片的真實(shí)類別相關(guān)的特征圖被圈出,左面板和右面板只是不同樣例

可視化證明了NIN的有效性,通過(guò)用mlpconv層建模得到一個(gè)更強(qiáng)的局部感受野,使其有效,然后GAP增強(qiáng)了特征圖類別的學(xué)習(xí)。下一步研究可以用于物體偵測(cè),偵測(cè)結(jié)果可以基于與Farabet等人的場(chǎng)景標(biāo)記工作相同的類別級(jí)特征圖來(lái)實(shí)現(xiàn)。

5 Conclusions

我們提出了一個(gè)新的深度網(wǎng)絡(luò),叫做“Network In Network”(NIN),用于分類任務(wù)。這個(gè)新結(jié)構(gòu)有mlpconv層組成,使用多層感知器對(duì)輸入進(jìn)行卷積,用GAP代替?zhèn)鹘y(tǒng)CNN中的全連接層。mlpconv層對(duì)局部塊建模更好,GAP充當(dāng)結(jié)構(gòu)化正則化器,防止了過(guò)擬合。用NIN的這兩個(gè)組件,我們得到了當(dāng)前在CIFAR-10,CIFAR-100和SVHN數(shù)據(jù)集上最好的表現(xiàn)。通過(guò)可視化特征圖,我們證明了來(lái)自NIN的最后一個(gè)mlpconv層的特征圖得到的分類是可信的,并且使通過(guò)NIN做物體偵測(cè)變成了可能。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容