英文原文請(qǐng)點(diǎn)這里

摘要我們提出了一種新型的深度網(wǎng)絡(luò)結(jié)構(gòu)，稱為“Network In Network”（NIN），它可以增強(qiáng)模型在感受野（receptive field）內(nèi)對(duì)局部區(qū)域（local patches）的辨別能力。傳統(tǒng)的卷積層使用線性濾波器來(lái)掃描輸入，后面接一個(gè)非線性激活函數(shù)。而我們則構(gòu)建了一些結(jié)構(gòu)稍復(fù)雜的微型神經(jīng)網(wǎng)絡(luò)來(lái)抽象receptive field內(nèi)的數(shù)據(jù)。我們用多層感知器實(shí)例化微型神經(jīng)網(wǎng)絡(luò)，這是一種有效的函數(shù)逼近器。特征圖可以通過(guò)微型神經(jīng)網(wǎng)絡(luò)在輸入上滑動(dòng)得到，類似于CNN；接下來(lái)特征圖被傳入下一層。深度NIN可以通過(guò)堆疊上述結(jié)構(gòu)實(shí)現(xiàn)。通過(guò)微型網(wǎng)絡(luò)增強(qiáng)局部模型，我們就可以在分類層中利用所有特征圖的全局平均池化層（GAP），這樣更容易解釋且比傳統(tǒng)的全連接層更不容易過(guò)擬合。我們證明了NIN在CIFAR-10和CIFAR-100上得到了有史以來(lái)最佳的表現(xiàn)以及在SVHN和MNIST數(shù)據(jù)集上合理的表現(xiàn)。

1 Introduction

卷積神經(jīng)網(wǎng)絡(luò)（CNN）由卷積層和池化層交替組成。卷積層使用線性濾波器和底層receptive field做內(nèi)積，然后接一個(gè)非線性的激活函數(shù)，得到的輸出稱作特征圖（feature map）。

CNN的卷積濾波器是底層數(shù)據(jù)塊的廣義線性模型（generalized linear model ）（GLM），而且我們認(rèn)為它的抽象程度較低。這里的抽象較低是指該特征對(duì)同一概念的變體是不變的。用更有效的非線性函數(shù)逼近器代替GLM可以增強(qiáng)局部模型的抽象能力。當(dāng)樣本的隱含概念（latent concept）線性可分時(shí)，GLM可以達(dá)到很好的抽象程度，例如：這些概念的變體都在GLM分割平面的同一邊，而傳統(tǒng)的CNN就默認(rèn)了這個(gè)假設(shè)——認(rèn)為隱含概念（latent concept）是線性可分的。然而，同一概念的數(shù)據(jù)通常是非線性流形的（nonlinear manifold），捕捉這些概念的表達(dá)通常都是輸入的高維非線性函數(shù)。在NIN中，GLM用“微型網(wǎng)絡(luò)”結(jié)構(gòu)替代，該結(jié)構(gòu)是一個(gè)非線性函數(shù)逼近器。在本項(xiàng)研究中，我們選擇多層感知器實(shí)例化微型網(wǎng)絡(luò)，該感知器是一個(gè)通用函數(shù)逼近器，也是一個(gè)通過(guò)反向傳播訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。

最終結(jié)構(gòu)我們稱為“mlpconv”層，與CNN的比較見圖1.

圖1 線性卷積層與mlpconv層的比較。線性卷積層包含線性濾波器，而mlpconv層包含的是微型網(wǎng)絡(luò)（本文選擇多層感知器）。兩種層都將局部感受野映射到了隱含概念的置信度值

線性卷積層和mlpconv層都從局部感受野（receptive field）映射到了輸出特征向量。mlpconv 層將局部塊的輸入通過(guò)一個(gè)由全連接層和非線性激活函數(shù)組成的多層感知器（MLP）映射到了輸出的特征向量。MLP在所有局部感受野中共享。特征圖通過(guò)用像CNN一樣的方式在輸入上滑動(dòng)MLP得到，NIN的總體結(jié)構(gòu)是一系列mplconv層的堆疊。被稱作“Network In Network”（NIN），因?yàn)閮?nèi)部含有MLP。

我們沒(méi)有采用傳統(tǒng)CNN的全連接層進(jìn)行分類，而是直接通過(guò)全局平均池化層（GAP）輸出最后一個(gè)mlpconv層特征圖的空間平均值作為類別的置信度值，然后將得到的向量輸入softmax層。在傳統(tǒng)的CNN中，很難解釋如何將來(lái)自分類層（objective cost layer）的分類信息傳遞回前一個(gè)卷積層，因?yàn)槿B接層像一個(gè)黑盒一樣。相比之下，全局平均池化層（GAP）更有意義且容易解釋，因?yàn)樗鼜?qiáng)化了特征圖與分類的對(duì)應(yīng)關(guān)系，這是通過(guò)使用微型網(wǎng)絡(luò)構(gòu)成的局部建模器實(shí)現(xiàn)的。此外，全連接層更容易過(guò)擬合且嚴(yán)重依賴于dropout正則化，而GAP則本身就是一個(gè)結(jié)構(gòu)化的正則化器，能避免整體結(jié)構(gòu)的過(guò)擬合。

2 Convolutional Neural Networks

經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)由卷積層和空間池化層交替堆疊產(chǎn)生。卷積層通過(guò)線性卷積濾波器接一個(gè)非線性激活函數(shù)（如rectifier，sigmoid，tanh等等）生成特征圖。例如使用rectifier激活函數(shù)，特征圖的計(jì)算如下：

公式（1）

這里的(i, j)是特征圖像素的索引，x_ij代表以位置(i, j)為中心的輸入塊，k用來(lái)索引特征圖的顏色通道。

當(dāng)隱含概念線性可分時(shí)，這種線性卷積足以用于抽象，但是要想得到更好的抽象，應(yīng)該是用輸入數(shù)據(jù)的高度非線性函數(shù)。在傳統(tǒng)的CNN中，這可以通過(guò)利用一套完整的濾波器來(lái)彌補(bǔ)，覆蓋所有隱含概念的變化。也就是說(shuō)，單獨(dú)的線性濾波器可以學(xué)習(xí)檢測(cè)同一概念的不同變化。但是同一概念使用太多的濾波器會(huì)給下一層帶來(lái)額外的負(fù)擔(dān)，需要考慮來(lái)自前一層的所有變化的組合，來(lái)自更高層的濾波器會(huì)映射到原始輸入的更大區(qū)域，它通過(guò)結(jié)合下層的較低級(jí)概念生成較高級(jí)的概念，因此，我們認(rèn)為在每一個(gè)局部塊結(jié)合生成更高級(jí)概念之前就作出更好的抽象是更有益的。

在最近的maxout網(wǎng)絡(luò)中，特征圖的數(shù)目通過(guò)在affine feature maps上做最大池化來(lái)減少（affine feature maps是線性卷積未通過(guò)激活函數(shù)的直接結(jié)果）。線性函數(shù)的最大化使分段線性逼近器能逼近任何凸函數(shù)。與執(zhí)行線性可分的傳統(tǒng)卷積層相比，maxout網(wǎng)絡(luò)更有效，因?yàn)樗芊蛛x在凸集內(nèi)的概念。這種改進(jìn)使maxout網(wǎng)絡(luò)在幾個(gè)基準(zhǔn)數(shù)據(jù)集上表現(xiàn)出色。
但是maxout網(wǎng)絡(luò)加了一個(gè)前提：隱含概念位于輸入空間的凸集內(nèi)，而這是不一定的。因此應(yīng)該使用一個(gè)更通用的函數(shù)逼近器，在隱含概念處于更復(fù)雜的分布時(shí)也依然能用。我們通過(guò)使用新的“Network In Network”結(jié)構(gòu)在實(shí)現(xiàn)這個(gè)需求，在每個(gè)卷積層內(nèi)引入一個(gè)微型網(wǎng)絡(luò)，來(lái)計(jì)計(jì)算和抽象每個(gè)局部塊的特征。

在輸入上滑動(dòng)微型網(wǎng)絡(luò)已經(jīng)在之前的研究中提出過(guò)。比如，Sturctured Multilayer Perceptron(SMLP)在輸入圖片的不同塊中使用了共享的多層感知器；在另一項(xiàng)研究中，基于神經(jīng)網(wǎng)絡(luò)的濾波器被訓(xùn)練以用于面部檢測(cè)。但是，他們都是針對(duì)某個(gè)特定問(wèn)題設(shè)計(jì)的，且滑動(dòng)的網(wǎng)絡(luò)結(jié)構(gòu)都只有一層。NIN則從一個(gè)通用的角度上提出，微型網(wǎng)絡(luò)被整合到CNN結(jié)構(gòu)中，以追求對(duì)各級(jí)特征的更好的抽象。

3 Network In Network

我們首先強(qiáng)調(diào)提出的“Network In Network”結(jié)構(gòu)的關(guān)鍵組成：3.1節(jié)和3.2節(jié)分別介紹了MLP卷積層和全局平均池化層。然后我們?cè)?.3節(jié)詳細(xì)介紹NIN整體。

3.1 MLP卷積層

由于隱含概念的分布一開始并不知道，所以用一個(gè)通用函數(shù)逼近器做局部塊的特征提取，因?yàn)樗鼙平[含概念的更多抽象表示。Radial basis network和多層感知器是兩個(gè)眾所周知的通用函數(shù)逼近器。我們使用多層感知器，有兩個(gè)原因，首先，多層感知器與卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)一樣，都是通過(guò)反向傳播訓(xùn)練。其次多層感知器本身就是一個(gè)深度模型，符合特征再利用的精神。這種多層感知器層在文本被稱作mlpconv，我們用它來(lái)替代GLM（general linear model）在輸入上做卷積。圖1展示了線性卷積層和mplconv層的不同。mlpconv層的計(jì)算如下：

公式2

這里n是多層感知器中的層編號(hào)。rectified為多層感知器的激活函數(shù)。

從cross channel（cross feature map）池化的角度來(lái)看，公式2等效于級(jí)聯(lián)普通卷積層的cross channel parametric pooling。每個(gè)池化層在輸入特征圖上做加權(quán)線性重組，然后通過(guò)rectifier函數(shù)。池化了的cross channel特征圖又在下一層池化，如此一遍又一遍重復(fù)。級(jí)聯(lián)的cross channel parameteric pooling結(jié)構(gòu)允許復(fù)雜的和可學(xué)習(xí)的cross channel信息進(jìn)行交互。

cross channel parametric pooling層也等效于一個(gè)1x1卷積核的卷積層。這個(gè)解釋可以更直觀的理解NIN的結(jié)構(gòu)。

與maxout層的比較: maxout網(wǎng)絡(luò)中的maxout層在affine feature maps上做了最大池化，maxout層的特征圖計(jì)算如下：

公式3

maxout線性函數(shù)形成了一個(gè)分段線性函數(shù)，可以給任何凸函數(shù)建模。對(duì)于一個(gè)凸函數(shù)來(lái)說(shuō)，函數(shù)值在特定閾值下的樣本點(diǎn)形成一個(gè)凸集，因此，通過(guò)擬合局部塊的凸函數(shù)，可以形成樣本點(diǎn)在凸集內(nèi)的概念的分割超平面（例如，l₂ balls, convex cones）。mlpconv層和maxout層的不同之處在與見凸函數(shù)擬合器用通用函數(shù)擬合器替代，使其能對(duì)更多的隱含概念分布建模。

3.2 Global Average Pooling

傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在網(wǎng)絡(luò)的較低層執(zhí)行卷積。對(duì)于分類任務(wù)，最后一個(gè)卷積層得到的特征圖被向量化然后送入全連接層，接一個(gè)softmax邏輯回歸層。這種結(jié)構(gòu)將卷積結(jié)構(gòu)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)分類器連接起來(lái)，見卷積層作為特征提取器，得到的特征用傳統(tǒng)方式進(jìn)行分類。

但是，全連接層容易過(guò)擬合，從而阻礙了整個(gè)網(wǎng)絡(luò)的泛化能力。后來(lái)dropout被Hinton等人提出，用于正則化，在訓(xùn)練過(guò)程中隨機(jī)地將全連接層的一半激活值置零，改善了它的泛化能力并且很大程度地預(yù)防了過(guò)擬合。

在本文中，我們提出了另一個(gè)策略，叫做全局平均池化層，用它來(lái)替代CNN中的全連接層。想法是在最后一個(gè)mlpconv層生成一個(gè)分類任務(wù)中相應(yīng)類別的特征圖。我們沒(méi)有在特征圖最頂端增加全連接層，而是求每個(gè)特征圖的平均值，得到的結(jié)果向量直接輸入softmax層。GAP相比全連接層的優(yōu)點(diǎn)在于通過(guò)增強(qiáng)特征圖與類比間的對(duì)應(yīng)關(guān)系使卷積結(jié)構(gòu)保留的更好，使特征圖分類是可信的得到很好的解釋；另一個(gè)優(yōu)點(diǎn)是GAP層中沒(méi)有參數(shù)設(shè)置，因此避免了過(guò)擬合；此外，GAP匯聚了空間信息，所以對(duì)輸入的空間轉(zhuǎn)換更魯棒。

我們可以看到GAP作為一個(gè)正則化器，加強(qiáng)了特征圖與概念（類別）的可信度的聯(lián)系。這是通過(guò)mlpconv層實(shí)現(xiàn)的，因?yàn)樗麄儽菺LM更好逼近置信圖（conficence maps）。

3.3 Network In Network Structure

NIN的整體結(jié)構(gòu)是一系列mlpconve層的堆疊，最上層接一個(gè)GAP層和分類層。mlpconv層間的子層可以被相加，像CNN和maxout網(wǎng)絡(luò)一樣。圖2展示了一個(gè)包含三個(gè)mlpconv層的NIN。每個(gè)mlpconv層，包含一個(gè)三層的感知器，NIN和微型網(wǎng)絡(luò)的層數(shù)都是靈活的，可以根據(jù)具體任務(wù)微調(diào)。

圖2 NIN的整體結(jié)構(gòu)。本文的NIN由三個(gè)mlpconve層和一個(gè)GAP層堆疊而成。

4 Experiment

4.1 Overview

我們?cè)谒膫€(gè)基準(zhǔn)數(shù)據(jù)集上評(píng)估了NIN：CIFAR-10，CIFAR-100，SVHN和MNIST。網(wǎng)絡(luò)在這些數(shù)據(jù)上都使用三層堆疊mplconv層結(jié)構(gòu)，mlpconv層后面都跟隨一個(gè)最大池化層，把原輸入樣本縮減一倍。作為正則化器，除了最后一個(gè)mlpconv層外所有輸出都加一個(gè)dropout。除非特別說(shuō)明，否則實(shí)驗(yàn)部分的所有全連接層都用全局平均池化層替代。另一個(gè)正則化方法是和Krizhevsky等人一樣的權(quán)重衰減。圖2展示了本節(jié)所用的NIN網(wǎng)絡(luò)整體結(jié)構(gòu)，詳細(xì)的參數(shù)設(shè)置在補(bǔ)充材料中。我們使用由AlexKrizhevsky開發(fā)的超快速cuda-convnet代碼來(lái)實(shí)現(xiàn)我們的網(wǎng)絡(luò)。數(shù)據(jù)預(yù)處理和訓(xùn)練集驗(yàn)證集的拆分同Goodfellow。

我們的訓(xùn)練過(guò)程同Krizhevsky等人一樣。也就是說(shuō)，我們手動(dòng)初始化了權(quán)重以及學(xué)習(xí)率，使用128小批次訓(xùn)練。訓(xùn)練層初始化權(quán)重和學(xué)習(xí)率開始，直到訓(xùn)練集上的準(zhǔn)確率停止改善，然后損失率減少10倍，再繼續(xù)訓(xùn)練，重復(fù)直到學(xué)習(xí)率衰減到1%。

4.2 CIFAR-10

CIFAR-10數(shù)據(jù)集由10類自然圖片組成，有50000張訓(xùn)練圖片，10000張測(cè)試圖片，每張圖片是32x32的RGB圖片。對(duì)于這個(gè)數(shù)據(jù)集，我們使用與Goodfellow在maxout network中相同的global contrast normalization和ZCA白化。我們用訓(xùn)練集的最后10000張圖片做驗(yàn)證集。

實(shí)驗(yàn)中每個(gè)mlpconv層的特征圖數(shù)與maxout網(wǎng)絡(luò)相同。有兩個(gè)超參數(shù)用驗(yàn)證集微調(diào)，如局部感受野（local receptive field）的大小和權(quán)重衰減。超參數(shù)調(diào)整好后固定，然后重新在訓(xùn)練集合驗(yàn)證集上訓(xùn)練，將最終模型用于測(cè)試集。我們?cè)跍y(cè)試集上得到了10.41%的錯(cuò)誤率，比當(dāng)前最優(yōu)結(jié)果降低1%。表1展示了與先前方法的對(duì)比。

表1：CIFAR-10各種方法在測(cè)試集上的錯(cuò)誤率

我們實(shí)驗(yàn)證明，mlpconv層間使用dropout可以通過(guò)增加模型泛化能力來(lái)提升模型表現(xiàn)。如圖3所示，在mlpconv層間引用dropout層錯(cuò)誤率減少了20%多。這一結(jié)果與Goodfellow等人的一致，所以本文的所有模型mlpconv層間都加了dropout。沒(méi)有dropout的模型在CIFAR-10數(shù)據(jù)集上錯(cuò)誤率是14.5%，已經(jīng)超過(guò)之前最好的使用正則化的模型（除了maxout）。由于沒(méi)有dropout的maxout不可靠，所以本文只與有dropout正則器的版本比較。

圖3：mlpconv層間添加dropout的影響，有dropout和沒(méi)有dropout的NIN在訓(xùn)練集和測(cè)試集前200代的錯(cuò)誤率

與先前一樣，我們也在做了位移和水平翻轉(zhuǎn)的數(shù)據(jù)增強(qiáng)的CIFAR-10數(shù)據(jù)集上對(duì)我們的方法做了評(píng)估，在測(cè)試集上達(dá)到了8.81%的錯(cuò)誤率，創(chuàng)了新紀(jì)錄。

4.3 CIFAR-100

CIFAR-100和CIFAR-10數(shù)據(jù)規(guī)模一樣，只是分為100類。因此每一類圖的數(shù)目是CIFAR-10的1/10。對(duì)于CIFAR-100，我們不調(diào)整超參數(shù)，而是使用和CIFAR-10一樣的設(shè)置。位移的不同是最后一個(gè)mlpconv層輸出100個(gè)特征圖。CIFAR-100在測(cè)試集上的錯(cuò)誤率為35.68%，超了當(dāng)前不做數(shù)據(jù)增強(qiáng)最好的表現(xiàn)1%多。詳細(xì)的表現(xiàn)比較見表2。

表2：CIFAR-100各種方法在測(cè)試集上的錯(cuò)誤率

4.4 Street View House Numbers

SVHN數(shù)據(jù)集由630,420 32x32的彩圖組成，分為訓(xùn)練集、測(cè)試集和額外集和。這個(gè)數(shù)據(jù)集的任務(wù)是識(shí)別出每張圖中間的數(shù)字。訓(xùn)練和測(cè)試過(guò)程同Goodfellow，也就是說(shuō)，每一類從訓(xùn)練集中選擇400張圖，從額外集中選200張圖作為驗(yàn)證集。剩余的訓(xùn)練集和額外集用于訓(xùn)練。驗(yàn)證集只用于調(diào)整超參數(shù)，不用于訓(xùn)練。

數(shù)據(jù)集的預(yù)處理也同Goodfellow，即local contrast normalization。用于SVHN的結(jié)構(gòu)和參數(shù)設(shè)置同CIFAR-10一樣，由三個(gè)mlpconv層加GAP組成。我們?cè)谶@個(gè)數(shù)據(jù)集上得到2.35%的錯(cuò)誤率。我們將結(jié)果與其他沒(méi)有做數(shù)據(jù)增強(qiáng)的方法結(jié)果進(jìn)行比較，如表3所示。

表3 各種方法在SVHN的錯(cuò)誤率

4.5 MNIST

MNIST數(shù)據(jù)集由28x28的0-9手寫數(shù)字組成。有60000張訓(xùn)練集圖片和10000張測(cè)試集圖片。對(duì)于這個(gè)數(shù)據(jù)集，網(wǎng)絡(luò)結(jié)構(gòu)同CIFAR-10一樣，只是每個(gè)mlpconv層的特征圖數(shù)減少了，因?yàn)镸NIST比CIFAR-10簡(jiǎn)單。與先前使用卷積神經(jīng)網(wǎng)絡(luò)的結(jié)果對(duì)比如表4.

表4：MNIST的錯(cuò)誤率比較

我們得到了0.47%的表現(xiàn)，但是沒(méi)有當(dāng)前最好的0.45%好，因?yàn)镸NIST的錯(cuò)誤率已經(jīng)非常低了。

4.6 Global Average Pooling as a Regularizer

GAP層和全連接層很相似，都對(duì)特征向量做了線性轉(zhuǎn)換。不同的是轉(zhuǎn)換矩陣。GAP的轉(zhuǎn)換矩陣是事先定義的并且僅在共享相同值的塊對(duì)角線元素上是非零的。全連接層可以有復(fù)雜矩陣變換且值是通過(guò)反向傳播設(shè)置的。為了研究GAP的正則化影響，我們用GAP替換全連接層，模型其他部分相同。我們?cè)u(píng)估了全連接層前面有dropout和沒(méi)有dropout的模型，都在CIFAR-10上測(cè)試，表現(xiàn)比較如表5.

表5：GAP和全連接層的比較

如表5所示，全連接層沒(méi)有dropout的表現(xiàn)最差，11.59%，與預(yù)期一樣，全連接層沒(méi)有正則化器會(huì)過(guò)擬合。全連接層前增加了dropout后測(cè)試集錯(cuò)誤率為10.88%。GAP在三者比較中得到了最低錯(cuò)誤率10.41%。

然后我們探索了GAP對(duì)傳統(tǒng)CNN來(lái)說(shuō)是否也有同樣的正則化影響。我們實(shí)例化了一個(gè)像Hiton等人描述的傳統(tǒng)CNN，由三個(gè)卷積層和一個(gè)局部連接層（local connection layer）組成。局部連接層生成16個(gè)特征圖，傳給沒(méi)有dropout的全連接層。為了比較的公正性，我們把局部連接層的特征圖數(shù)從16減到了10，因?yàn)镚AP的每個(gè)類別只允許一個(gè)特征圖。GAP的等價(jià)網(wǎng)絡(luò)由dropout+帶有GAP的全連接層替代，表現(xiàn)在CIFAR-10上測(cè)試。

全連接層的CNN模型只能得到17.56%的錯(cuò)誤率，添加dropout后與Hinton等人提到的表現(xiàn)相近——15.99%。用GAP替換全連接層，我們達(dá)到16.46%的錯(cuò)誤率，與沒(méi)有dropout的CNN相比提升了1%。這又一次驗(yàn)證了GAP層作為正則化器的有效性。盡管比dropout稍差一些，但是我們認(rèn)為GAP可能對(duì)線性卷積要求過(guò)高，因?yàn)樗枰獛в衦ectified激活函數(shù)的線性濾波器來(lái)為類別的置信圖建模。

4.7 Visualization of NIN

我們通過(guò)GAP來(lái)增強(qiáng)NIN最后一個(gè)mlpconv層的特征圖，使其作為分類是可信的，這可能會(huì)加強(qiáng)局部感受野的建模。為了知道這個(gè)目標(biāo)實(shí)現(xiàn)了多少，我們提取和可視化了在CIFAR-10上訓(xùn)練的模型的來(lái)自最后一個(gè)mlpconv層的特征圖。

圖4展示了CIFAR-10上測(cè)試集上選擇的10類的一些示例圖和相關(guān)特征圖。如預(yù)期，特征圖的最大激活區(qū)域和輸入的相關(guān)真實(shí)分類吻合，這明顯是GAP加強(qiáng)過(guò)的。在真實(shí)分類的特征圖內(nèi)，可以看到最大的激活區(qū)域出現(xiàn)在與原物體相同的區(qū)域，在結(jié)構(gòu)化物體中尤其如此，例如圖4第二行的車。注意這些特征圖的分類只用類別信息進(jìn)行訓(xùn)練，如果使用有邊界框標(biāo)注的圖片效果會(huì)更好。

圖4：最后一個(gè)mlpconv層的特征圖可視化，只展示了特征圖的10%。相關(guān)特征圖的分類是： 1. airplane, 2. automobile, 3. bird, 4. cat, 5. deer, 6. dog, 7. frog, 8. horse, 9. ship, 10. truck。與輸入圖片的真實(shí)類別相關(guān)的特征圖被圈出，左面板和右面板只是不同樣例

可視化證明了NIN的有效性，通過(guò)用mlpconv層建模得到一個(gè)更強(qiáng)的局部感受野，使其有效，然后GAP增強(qiáng)了特征圖類別的學(xué)習(xí)。下一步研究可以用于物體偵測(cè)，偵測(cè)結(jié)果可以基于與Farabet等人的場(chǎng)景標(biāo)記工作相同的類別級(jí)特征圖來(lái)實(shí)現(xiàn)。

5 Conclusions

我們提出了一個(gè)新的深度網(wǎng)絡(luò)，叫做“Network In Network”（NIN），用于分類任務(wù)。這個(gè)新結(jié)構(gòu)有mlpconv層組成，使用多層感知器對(duì)輸入進(jìn)行卷積，用GAP代替?zhèn)鹘y(tǒng)CNN中的全連接層。mlpconv層對(duì)局部塊建模更好，GAP充當(dāng)結(jié)構(gòu)化正則化器，防止了過(guò)擬合。用NIN的這兩個(gè)組件，我們得到了當(dāng)前在CIFAR-10，CIFAR-100和SVHN數(shù)據(jù)集上最好的表現(xiàn)。通過(guò)可視化特征圖，我們證明了來(lái)自NIN的最后一個(gè)mlpconv層的特征圖得到的分類是可信的，并且使通過(guò)NIN做物體偵測(cè)變成了可能。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

[翻譯]Network In Network

[翻譯]Network In Network

1 Introduction

2 Convolutional Neural Networks

3 Network In Network

3.1 MLP卷積層

3.2 Global Average Pooling

3.3 Network In Network Structure

4 Experiment

4.1 Overview

4.2 CIFAR-10

4.3 CIFAR-100

4.4 Street View House Numbers

4.5 MNIST

4.6 Global Average Pooling as a Regularizer

4.7 Visualization of NIN

5 Conclusions

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

[翻譯]Network In Network

1 Introduction

2 Convolutional Neural Networks

3 Network In Network

3.1 MLP卷積層

3.2 Global Average Pooling

3.3 Network In Network Structure

4 Experiment

4.1 Overview

4.2 CIFAR-10

4.3 CIFAR-100

4.4 Street View House Numbers

4.5 MNIST

4.6 Global Average Pooling as a Regularizer

4.7 Visualization of NIN

5 Conclusions

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av