
文章作者:Tyan
博客:noahsnail.com ?|? CSDN ?|? 簡書
聲明:作者翻譯論文僅為學習,如有侵權請聯(lián)系作者刪除博文,謝謝!
翻譯論文匯總:https://github.com/SnailTyan/deep-learning-papers-translation
Going Deeper with Convolutions
摘要
我們在ImageNet大規(guī)模視覺識別挑戰(zhàn)賽2014(ILSVRC14)上提出了一種代號為Inception的深度卷積神經(jīng)網(wǎng)絡結(jié)構,并在分類和檢測上取得了新的最好結(jié)果。這個架構的主要特點是提高了網(wǎng)絡內(nèi)部計算資源的利用率。通過精心的手工設計,我們在增加了網(wǎng)絡深度和廣度的同時保持了計算預算不變。為了優(yōu)化質(zhì)量,架構的設計以赫布理論和多尺度處理直覺為基礎。我們在ILSVRC14提交中應用的一個特例被稱為GoogLeNet,一個22層的深度網(wǎng)絡,其質(zhì)量在分類和檢測的背景下進行了評估。
1. 引言
過去三年中,由于深度學習和卷積網(wǎng)絡的發(fā)展[10],我們的目標分類和檢測能力得到了顯著提高。一個令人鼓舞的消息是,大部分的進步不僅僅是更強大硬件、更大數(shù)據(jù)集、更大模型的結(jié)果,而主要是新的想法、算法和網(wǎng)絡結(jié)構改進的結(jié)果。例如,ILSVRC 2014競賽中最靠前的輸入除了用于檢測目的的分類數(shù)據(jù)集之外,沒有使用新的數(shù)據(jù)資源。我們在ILSVRC 2014中的GoogLeNet提交實際使用的參數(shù)只有兩年前Krizhevsky等人[9]獲勝結(jié)構參數(shù)的1/12,而結(jié)果明顯更準確。在目標檢測前沿,最大的收獲不是來自于越來越大的深度網(wǎng)絡的簡單應用,而是來自于深度架構和經(jīng)典計算機視覺的協(xié)同,像Girshick等人[6]的R-CNN算法那樣。
另一個顯著因素是隨著移動和嵌入式設備的推動,我們的算法的效率很重要——尤其是它們的電力和內(nèi)存使用。值得注意的是,正是包含了這個因素的考慮才得出了本文中呈現(xiàn)的深度架構設計,而不是單純的為了提高準確率。對于大多數(shù)實驗來說,模型被設計為在一次推斷中保持15億乘加的計算預算,所以最終它們不是單純的學術好奇心,而是能在現(xiàn)實世界中應用,甚至是以合理的代價在大型數(shù)據(jù)集上使用。
在本文中,我們將關注一個高效的計算機視覺深度神經(jīng)網(wǎng)絡架構,代號為Inception,它的名字來自于Lin等人[12]網(wǎng)絡論文中的Network與著名的“we need to go deeper”網(wǎng)絡迷因[1]的結(jié)合。在我們的案例中,單詞“deep”用在兩個不同的含義中:首先,在某種意義上,我們以“Inception module”的形式引入了一種新層次的組織方式,在更直接的意義上增加了網(wǎng)絡的深度。一般來說,可以把Inception模型看作論文[12]的邏輯頂點同時從Arora等人[2]的理論工作中受到了鼓舞和引導。這種架構的好處在ILSVRC 2014分類和檢測挑戰(zhàn)賽中通過實驗得到了驗證,它明顯優(yōu)于目前的最好水平。
2. 近期工作
從LeNet-5 [10]開始,卷積神經(jīng)網(wǎng)絡(CNN)通常有一個標準結(jié)構——堆疊的卷積層(后面可以選擇有對比歸一化和最大池化)后面是一個或更多的全連接層。這個基本設計的變種在圖像分類著作流行,并且目前為止在MNIST,CIFAR和更著名的ImageNet分類挑戰(zhàn)賽中[9, 21]的已經(jīng)取得了最佳結(jié)果。對于更大的數(shù)據(jù)集例如ImageNet來說,最近的趨勢是增加層的數(shù)目[12]和層的大小[21, 14],同時使用丟棄[7]來解決過擬合問題。
盡管擔心最大池化層會引起準確空間信息的損失,但與[9]相同的卷積網(wǎng)絡結(jié)構也已經(jīng)成功的應用于定位[9, 14],目標檢測[6, 14, 18, 5]和行人姿態(tài)估計[19]。
受靈長類視覺皮層神經(jīng)科學模型的啟發(fā),Serre等人[15]使用了一系列固定的不同大小的Gabor濾波器來處理多尺度。我們使用一個了類似的策略。然而,與[15]的固定的2層深度模型相反,Inception結(jié)構中所有的濾波器是學習到的。此外,Inception層重復了很多次,在GoogleNet模型中得到了一個22層的深度模型。
Network-in-Network是Lin等人[12]為了增加神經(jīng)網(wǎng)絡表現(xiàn)能力而提出的一種方法。在他們的模型中,網(wǎng)絡中添加了額外的1 × 1卷積層,增加了網(wǎng)絡的深度。我們的架構中大量的使用了這個方法。但是,在我們的設置中,1 × 1卷積有兩個目的:最關鍵的是,它們主要是用來作為降維模塊來移除卷積瓶頸,否則將會限制我們網(wǎng)絡的大小。這不僅允許了深度的增加,而且允許我們網(wǎng)絡的寬度增加但沒有明顯的性能損失。
最后,目前最好的目標檢測是Girshick等人[6]的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(R-CNN)方法。R-CNN將整個檢測問題分解為兩個子問題:利用低層次的信號例如顏色,紋理以跨類別的方式來產(chǎn)生目標位置候選區(qū)域,然后用CNN分類器來識別那些位置上的對象類別。這樣一種兩個階段的方法利用了低層特征分割邊界框的準確性,也利用了目前的CNN非常強大的分類能力。我們在我們的檢測提交中采用了類似的方式,但探索增強這兩個階段,例如對于更高的目標邊界框召回使用多盒[5]預測,并融合了更好的邊界框候選區(qū)域分類方法。
3. 動機和高層思考
提高深度神經(jīng)網(wǎng)絡性能最直接的方式是增加它們的尺寸。這不僅包括增加深度——網(wǎng)絡層次的數(shù)目——也包括它的寬度:每一層的單元數(shù)目。這是一種訓練更高質(zhì)量模型容易且安全的方法,尤其是在可獲得大量標注的訓練數(shù)據(jù)的情況下。但是這個簡單方案有兩個主要的缺點。更大的尺寸通常意味著更多的參數(shù),這會使增大的網(wǎng)絡更容易過擬合,尤其是在訓練集的標注樣本有限的情況下。這是一個主要的瓶頸,因為要獲得強標注數(shù)據(jù)集費時費力且代價昂貴,經(jīng)常需要專家評委在各種細粒度的視覺類別進行區(qū)分,例如圖1中顯示的ImageNet中的類別(甚至是1000類ILSVRC的子集)。

圖1: ILSVRC 2014分類挑戰(zhàn)賽的1000類中兩個不同的類別。區(qū)分這些類別需要領域知識。
統(tǒng)一增加網(wǎng)絡尺寸的另一個缺點是計算資源使用的顯著增加。例如,在一個深度視覺網(wǎng)絡中,如果兩個卷積層相連,它們的濾波器數(shù)目的任何統(tǒng)一增加都會引起計算量平方式的增加。如果增加的能力使用時效率低下(例如,如果大多數(shù)權重結(jié)束時接近于0),那么會浪費大量的計算能力。由于計算預算總是有限的,計算資源的有效分布更偏向于尺寸無差別的增加,即使主要目標是增加性能的質(zhì)量。
解決這兩個問題的一個基本的方式就是引入稀疏性并將全連接層替換為稀疏的全連接層,甚至是卷積層。除了模仿生物系統(tǒng)之外,由于Arora等人[2]的開創(chuàng)性工作,這也具有更堅固的理論基礎優(yōu)勢。他們的主要成果說明如果數(shù)據(jù)集的概率分布可以通過一個大型稀疏的深度神經(jīng)網(wǎng)絡表示,則最優(yōu)的網(wǎng)絡拓撲結(jié)構可以通過分析前一層激活的相關性統(tǒng)計和聚類高度相關的神經(jīng)元來一層層的構建。雖然嚴格的數(shù)學證明需要在很強的條件下,但事實上這個聲明與著名的赫布理論產(chǎn)生共鳴——神經(jīng)元一起激發(fā),一起連接——實踐表明,基礎概念甚至適用于不嚴格的條件下。
遺憾的是,當碰到在非均勻的稀疏數(shù)據(jù)結(jié)構上進行數(shù)值計算時,現(xiàn)在的計算架構效率非常低下。即使算法運算的數(shù)量減少100倍,查詢和緩存丟失上的開銷仍占主導地位:切換到稀疏矩陣可能是不可行的。隨著穩(wěn)定提升和高度調(diào)整的數(shù)值庫的應用,差距仍在進一步擴大,數(shù)值庫要求極度快速密集的矩陣乘法,利用底層的CPU或GPU硬件[16, 9]的微小細節(jié)。非均勻的稀疏模型也要求更多的復雜工程和計算基礎結(jié)構。目前大多數(shù)面向視覺的機器學習系統(tǒng)通過采用卷積的優(yōu)點來利用空域的稀疏性。然而,卷積被實現(xiàn)為對上一層塊的密集連接的集合。為了打破對稱性,提高學習水平,從論文[11]開始,ConvNets習慣上在特征維度使用隨機的稀疏連接表,然而為了進一步優(yōu)化并行計算,論文[9]中趨向于變回全連接。目前最新的計算機視覺架構有統(tǒng)一的結(jié)構。更多的濾波器和更大的批大小要求密集計算的有效使用。
這提出了下一個中間步驟是否有希望的問題:一個架構能利用濾波器水平的稀疏性,正如理論所建議的那樣,但能通過利用密集矩陣計算來利用我們目前的硬件。稀疏矩陣乘法的大量文獻(例如[3])認為對于稀疏矩陣乘法,將稀疏矩陣聚類為相對密集的子矩陣會有更佳的性能。在不久的將來會利用類似的方法來進行非均勻深度學習架構的自動構建,這樣的想法似乎并不牽強。
Inception架構開始是作為案例研究,用于評估一個復雜網(wǎng)絡拓撲構建算法的假設輸出,該算法試圖近似[2]中所示的視覺網(wǎng)絡的稀疏結(jié)構,并通過密集的、容易獲得的組件來覆蓋假設結(jié)果。盡管是一個非常投機的事情,但與基于[12]的參考網(wǎng)絡相比,早期可以觀測到適度的收益。隨著一點點調(diào)整加寬差距,作為[6]和[5]的基礎網(wǎng)絡,Inception被證明在定位上下文和目標檢測中尤其有用。有趣的是,雖然大多數(shù)最初的架構選擇已被質(zhì)疑并分離開進行全面測試,但結(jié)果證明它們是局部最優(yōu)的。然而必須謹慎:盡管Inception架構在計算機上領域取得成功,但這是否可以歸因于構建其架構的指導原則仍是有疑問的。確保這一點將需要更徹底的分析和驗證。
4. 架構細節(jié)
Inception架構的主要想法是考慮怎樣近似卷積視覺網(wǎng)絡的最優(yōu)稀疏結(jié)構并用容易獲得的密集組件進行覆蓋。注意假設轉(zhuǎn)換不變性,這意味著我們的網(wǎng)絡將以卷積構建塊為基礎。我們所需要做的是找到最優(yōu)的局部構造并在空間上重復它。Arora等人[2]提出了一個層次結(jié)構,其中應該分析最后一層的相關統(tǒng)計并將它們聚集成具有高相關性的單元組。這些聚類形成了下一層的單元并與前一層的單元連接。我們假設較早層的每個單元都對應輸入層的某些區(qū)域,并且這些單元被分成濾波器組。在較低的層(接近輸入的層)相關單元集中在局部區(qū)域。因此,如[12]所示,我們最終會有許多聚類集中在單個區(qū)域,它們可以通過下一層的1×1卷積層覆蓋。然而也可以預期,將存在更小數(shù)目的在更大空間上擴展的聚類,其可以被更大塊上的卷積覆蓋,在越來越大的區(qū)域上塊的數(shù)量將會下降。為了避免塊校正的問題,目前Inception架構形式的濾波器的尺寸僅限于1×1、3×3、5×5,這個決定更多的是基于便易性而不是必要性。這也意味著提出的架構是所有這些層的組合,其輸出濾波器組連接成單個輸出向量形成了下一階段的輸入。另外,由于池化操作對于目前卷積網(wǎng)絡的成功至關重要,因此建議在每個這樣的階段添加一個替代的并行池化路徑應該也應該具有額外的有益效果(看圖2(a))。

由于這些“Inception模塊”在彼此的頂部堆疊,其輸出相關統(tǒng)計必然有變化:由于較高層會捕獲較高的抽象特征,其空間集中度預計會減少。這表明隨著轉(zhuǎn)移到更高層,3×3和5×5卷積的比例應該會增加。
上述模塊的一個大問題是在具有大量濾波器的卷積層之上,即使適量的5×5卷積也可能是非常昂貴的,至少在這種樸素形式中有這個問題。一旦池化單元添加到混合中,這個問題甚至會變得更明顯:輸出濾波器的數(shù)量等于前一階段濾波器的數(shù)量。池化層輸出和卷積層輸出的合并會導致這一階段到下一階段輸出數(shù)量不可避免的增加。雖然這種架構可能會覆蓋最優(yōu)稀疏結(jié)構,但它會非常低效,導致在幾個階段內(nèi)計算量爆炸。
這導致了Inception架構的第二個想法:在計算要求會增加太多的地方,明智地減少維度。這是基于嵌入的成功:甚至低維嵌入可能包含大量關于較大圖像塊的信息。然而嵌入以密集、壓縮形式表示信息并且壓縮信息更難處理。這種表示應該在大多數(shù)地方保持稀疏(根據(jù)[2]中條件的要求】)并且僅在它們必須匯總時才壓縮信號。也就是說,在昂貴的3×3和5×5卷積之前,1×1卷積用來計算降維。除了用來降維之外,它們也包括使用線性修正單元使其兩用。最終的結(jié)果如圖2(b)所示。
通常,Inception網(wǎng)絡是一個由上述類型的模塊互相堆疊組成的網(wǎng)絡,偶爾會有步長為2的最大池化層將網(wǎng)絡分辨率減半。出于技術原因(訓練過程中內(nèi)存效率),只在更高層開始使用Inception模塊而在更低層仍保持傳統(tǒng)的卷積形式似乎是有益的。這不是絕對必要的,只是反映了我們目前實現(xiàn)中的一些基礎結(jié)構效率低下。
該架構的一個有用的方面是它允許顯著增加每個階段的單元數(shù)量,而不會在后面的階段出現(xiàn)計算復雜度不受控制的爆炸。這是在尺寸較大的塊進行昂貴的卷積之前通過普遍使用降維實現(xiàn)的。此外,設計遵循了實踐直覺,即視覺信息應該在不同的尺度上處理然后聚合,為的是下一階段可以從不同尺度同時抽象特征。
計算資源的改善使用允許增加每個階段的寬度和階段的數(shù)量,而不會陷入計算困境??梢岳肐nception架構創(chuàng)建略差一些但計算成本更低的版本。我們發(fā)現(xiàn)所有可用的控制允許計算資源的受控平衡,導致網(wǎng)絡比沒有Inception結(jié)構的類似執(zhí)行網(wǎng)絡快3—10倍,但是在這一點上需要仔細的手動設計。
5. GoogLeNet
通過“GoogLeNet”這個名字,我們提到了在ILSVRC 2014競賽的提交中使用的Inception架構的特例。我們也使用了一個稍微優(yōu)質(zhì)的更深更寬的Inception網(wǎng)絡,但將其加入到組合中似乎只稍微提高了結(jié)果。我們忽略了該網(wǎng)絡的細節(jié),因為經(jīng)驗證據(jù)表明確切架構的參數(shù)影響相對較小。表1說明了競賽中使用的最常見的Inception實例。這個網(wǎng)絡(用不同的圖像塊采樣方法訓練的)使用了我們組合中7個模型中的6個。

所有的卷積都使用了修正線性激活,包括Inception模塊內(nèi)部的卷積。在我們的網(wǎng)絡中感受野是在均值為0的RGB顏色空間中,大小是224×224?!?3×3 reduce”和“#5×5 reduce”表示在3×3和5×5卷積之前,降維層使用的1×1濾波器的數(shù)量。在pool proj列可以看到內(nèi)置的最大池化之后,投影層中1×1濾波器的數(shù)量。所有的這些降維/投影層也都使用了線性修正激活。
網(wǎng)絡的設計考慮了計算效率和實用性,因此推斷可以單獨的設備上運行,甚至包括那些計算資源有限的設備,尤其是低內(nèi)存占用的設備。當只計算有參數(shù)的層時,網(wǎng)絡有22層(如果我們也計算池化層是27層)。構建網(wǎng)絡的全部層(獨立構建塊)的數(shù)目大約是100。確切的數(shù)量取決于機器學習基礎設施對層的計算方式。分類器之前的平均池化是基于[12]的,盡管我們的實現(xiàn)有一個額外的線性層。線性層使我們的網(wǎng)絡能很容易地適應其它的標簽集,但它主要是為了方便使用,我們不期望它有重大的影響。我們發(fā)現(xiàn)從全連接層變?yōu)槠骄鼗?,提高了大約top-1 %0.6的準確率,然而即使在移除了全連接層之后,丟失的使用還是必不可少的。
給定深度相對較大的網(wǎng)絡,有效傳播梯度反向通過所有層的能力是一個問題。在這個任務上,更淺網(wǎng)絡的強大性能表明網(wǎng)絡中部層產(chǎn)生的特征應該是非常有識別力的。通過將輔助分類器添加到這些中間層,可以期望較低階段分類器的判別力。這被認為是在提供正則化的同時克服梯度消失問題。這些分類器采用較小卷積網(wǎng)絡的形式,放置在Inception (4a)和Inception (4b)模塊的輸出之上。在訓練期間,它們的損失以折扣權重(輔助分類器損失的權重是0.3)加到網(wǎng)絡的整個損失上。在推斷時,這些輔助網(wǎng)絡被丟棄。后面的控制實驗表明輔助網(wǎng)絡的影響相對較小(約0.5),只需要其中一個就能取得同樣的效果。
包括輔助分類器在內(nèi)的附加網(wǎng)絡的具體結(jié)構如下:
- 一個濾波器大小5×5,步長為3的平均池化層,導致(4a)階段的輸出為4×4×512,(4d)的輸出為4×4×528。
- 具有128個濾波器的1×1卷積,用于降維和修正線性激活。
- 一個全連接層,具有1024個單元和修正線性激活。
- 丟棄70%輸出的丟棄層。
- 使用帶有softmax損失的線性層作為分類器(作為主分類器預測同樣的1000類,但在推斷時移除)。
最終的網(wǎng)絡模型圖如圖3所示。

圖3:含有的所有結(jié)構的GoogLeNet網(wǎng)絡。
6. 訓練方法
GoogLeNet網(wǎng)絡使用DistBelief[4]分布式機器學習系統(tǒng)進行訓練,該系統(tǒng)使用適量的模型和數(shù)據(jù)并行。盡管我們僅使用一個基于CPU的實現(xiàn),但粗略的估計表明GoogLeNet網(wǎng)絡可以用更少的高端GPU在一周之內(nèi)訓練到收斂,主要的限制是內(nèi)存使用。我們的訓練使用異步隨機梯度下降,動量參數(shù)為0.9[17],固定的學習率計劃(每8次遍歷下降學習率4%)。Polyak平均[13]在推斷時用來創(chuàng)建最終的模型。
圖像采樣方法在過去幾個月的競賽中發(fā)生了重大變化,并且已收斂的模型在其他選項上進行了訓練,有時還結(jié)合著超參數(shù)的改變,例如丟棄和學習率。因此,很難對訓練這些網(wǎng)絡的最有效的單一方式給出明確指導。讓事情更復雜的是,受[8]的啟發(fā),一些模型主要是在相對較小的裁剪圖像進行訓練,其它模型主要是在相對較大的裁剪圖像上進行訓練。然而,一個經(jīng)過驗證的方案在競賽后工作地很好,包括各種尺寸的圖像塊的采樣,它的尺寸均勻分布在圖像區(qū)域的8%——100%之間,方向角限制為$[\frac {3} {4}, \frac {4} {3}]$之間。另外,我們發(fā)現(xiàn)Andrew Howard[8]的光度扭曲對于克服訓練數(shù)據(jù)成像條件的過擬合是有用的。
7. ILSVRC 2014分類挑戰(zhàn)賽設置和結(jié)果
ILSVRC 2014分類挑戰(zhàn)賽包括將圖像分類到ImageNet層級中1000個葉子結(jié)點類別的任務。訓練圖像大約有120萬張,驗證圖像有5萬張,測試圖像有10萬張。每一張圖像與一個實際類別相關聯(lián),性能度量基于分類器預測的最高分。通常報告兩個數(shù)字:top-1準確率,比較實際類別和第一個預測類別,top-5錯誤率,比較實際類別與前5個預測類別:如果圖像實際類別在top-5中,則認為圖像分類正確,不管它在top-5中的排名。挑戰(zhàn)賽使用top-5錯誤率來進行排名。
我們參加競賽時沒有使用外部數(shù)據(jù)來訓練。除了本文中前面提到的訓練技術之外,我們在獲得更高性能的測試中采用了一系列技巧,描述如下。
- 我們獨立訓練了7個版本的相同的GoogLeNet模型(包括一個更廣泛的版本),并用它們進行了整體預測。這些模型的訓練具有相同的初始化(甚至具有相同的初始權重,由于監(jiān)督)和學習率策略。它們僅在采樣方法和隨機輸入圖像順序方面不同。
- 在測試中,我們采用比Krizhevsky等人[9]更積極的裁剪方法。具體來說,我們將圖像歸一化為四個尺度,其中較短維度(高度或?qū)挾龋┓謩e為256,288,320和352,取這些歸一化的圖像的左,中,右方塊(在肖像圖片中,我們采用頂部,中心和底部方塊)。對于每個方塊,我們將采用4個角以及中心224×224裁剪圖像以及方塊尺寸歸一化為224×224,以及它們的鏡像版本。這導致每張圖像會得到4×3×6×2 = 144的裁剪圖像。前一年的輸入中,Andrew Howard[8]采用了類似的方法,經(jīng)過我們實證驗證,其方法略差于我們提出的方案。我們注意到,在實際應用中,這種積極裁剪可能是不必要的,因為存在合理數(shù)量的裁剪圖像后,更多裁剪圖像的好處會變得很微?。ㄕ缥覀兒竺嬲故镜哪菢樱?。
- softmax概率在多個裁剪圖像上和所有單個分類器上進行平均,然后獲得最終預測。在我們的實驗中,我們分析了驗證數(shù)據(jù)的替代方法,例如裁剪圖像上的最大池化和分類器的平均,但是它們比簡單平均的性能略遜。
在本文的其余部分,我們分析了有助于最終提交整體性能的多個因素。
競賽中我們的最終提交在驗證集和測試集上得到了top-5 6.67%的錯誤率,在其它的參與者中排名第一。與2012年的SuperVision方法相比相對減少了56.5%,與前一年的最佳方法(Clarifai)相比相對減少了約40%,這兩種方法都使用了外部數(shù)據(jù)訓練分類器。表2顯示了過去三年中一些表現(xiàn)最好的方法的統(tǒng)計。

我們也分析報告了多種測試選擇的性能,當預測圖像時通過改變表3中使用的模型數(shù)目和裁剪圖像數(shù)目。

8. ILSVRC 2014檢測挑戰(zhàn)賽設置和結(jié)果
ILSVRC檢測任務是為了在200個可能的類別中生成圖像中目標的邊界框。如果檢測到的對象匹配的它們實際類別并且它們的邊界框重疊至少50%(使用Jaccard索引),則將檢測到的對象記為正確。無關的檢測記為假陽性且被懲罰。與分類任務相反,每張圖像可能包含多個對象或沒有對象,并且它們的尺度可能是變化的。報告的結(jié)果使用平均精度均值(mAP)。GoogLeNet檢測采用的方法類似于R-CNN[6],但用Inception模塊作為區(qū)域分類器進行了增強。此外,為了更高的目標邊界框召回率,通過選擇搜索[20]方法和多箱[5]預測相結(jié)合改進了區(qū)域生成步驟。為了減少假陽性的數(shù)量,超分辨率的尺寸增加了2倍。這將選擇搜索算法的區(qū)域生成減少了一半。我們總共補充了200個來自多盒結(jié)果的區(qū)域生成,大約60%的區(qū)域生成用于[6],同時將覆蓋率從92%提高到93%。減少區(qū)域生成的數(shù)量,增加覆蓋率的整體影響是對于單個模型的情況平均精度均值增加了1%。最后,等分類單個區(qū)域時,我們使用了6個GoogLeNets的組合。這導致準確率從40%提高到43.9%。注意,與R-CNN相反,由于缺少時間我們沒有使用邊界框回歸。
我們首先報告了最好檢測結(jié)果,并顯示了從第一版檢測任務以來的進展。與2013年的結(jié)果相比,準確率幾乎翻了一倍。所有表現(xiàn)最好的團隊都使用了卷積網(wǎng)絡。我們在表4中報告了官方的分數(shù)和每個隊伍的常見策略:使用外部數(shù)據(jù)、集成模型或上下文模型。外部數(shù)據(jù)通常是ILSVRC12的分類數(shù)據(jù),用來預訓練模型,后面在檢測數(shù)據(jù)集上進行改善。一些團隊也提到使用定位數(shù)據(jù)。由于定位任務的邊界框很大一部分不在檢測數(shù)據(jù)集中,所以可以用該數(shù)據(jù)預訓練一般的邊界框回歸器,這與分類預訓練的方式相同。GoogLeNet輸入沒有使用定位數(shù)據(jù)進行預訓練。

在表5中,我們僅比較了單個模型的結(jié)果。最好性能模型是Deep Insight的,令人驚訝的是3個模型的集合僅提高了0.3個點,而GoogLeNet在模型集成時明顯獲得了更好的結(jié)果。

9. 總結(jié)
我們的結(jié)果取得了堅實的證據(jù),即通過易獲得的密集構造塊來近似期望的最優(yōu)稀疏結(jié)果是改善計算機視覺神經(jīng)網(wǎng)絡的一種可行方法。相比于較淺且較窄的架構,這個方法的主要優(yōu)勢是在計算需求適度增加的情況下有顯著的質(zhì)量收益。
我們的目標檢測工作雖然沒有利用上下文,也沒有執(zhí)行邊界框回歸,但仍然具有競爭力,這進一步顯示了Inception架構優(yōu)勢的證據(jù)。
對于分類和檢測,預期通過更昂貴的類似深度和寬度的非Inception類型網(wǎng)絡可以實現(xiàn)類似質(zhì)量的結(jié)果。然而,我們的方法取得了可靠的證據(jù),即轉(zhuǎn)向更稀疏的結(jié)構一般來說是可行有用的想法。這表明未來的工作將在[2]的基礎上以自動化方式創(chuàng)建更稀疏更精細的結(jié)構,以及將Inception架構的思考應用到其他領域。
參考文獻
[1] Know your meme: We need to go deeper. http://knowyourmeme.com/memes/we-need-to-go-deeper. Accessed: 2014-09-15.
[2] S. Arora, A. Bhaskara, R. Ge, and T. Ma. Provable bounds for learning some deep representations. CoRR, abs/1310.6343, 2013.
[3] U. V. C ?atalyu ?rek, C. Aykanat, and B. Uc ?ar. On two-dimensional sparse matrix partitioning: Models, methods, and a recipe. SIAM J. Sci. Comput., 32(2):656–683, Feb. 2010.
[4] J. Dean, G. Corrado, R. Monga, K. Chen, M. Devin, M. Mao, M. Ranzato, A. Senior, P. Tucker, K. Yang, Q. V. Le, and A. Y. Ng. Large scale distributed deep networks. In P. Bartlett, F. Pereira, C. Burges, L. Bottou, and K. Weinberger, editors, NIPS, pages 1232–1240. 2012.
[5] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In CVPR, 2014.
[6] R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition, 2014. CVPR 2014. IEEE Conference on, 2014.
[7] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. CoRR, abs/1207.0580, 2012.
[8] A. G. Howard. Some improvements on deep convolutional neural network based image classification. CoRR, abs/1312.5402, 2013.
[9] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems 25, pages 1106–1114, 2012.
[10] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Comput., 1(4):541–551, Dec. 1989.
[11] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.
[12] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013.
[13] B. T. Polyak and A. B. Juditsky. Acceleration of stochastic approximation by averaging. SIAM J. Control Optim., 30(4):838–855, July 1992.
[14] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR, abs/1312.6229, 2013.
[15] T. Serre, L. Wolf, S. M. Bileschi, M. Riesenhuber, and T. Poggio. Robust object recognition with cortex-like mechanisms. IEEE Trans. Pattern Anal. Mach. Intell., 29(3):411–426, 2007.
[16] F. Song and J. Dongarra. Scaling up matrix computations on shared-memory manycore systems with 1000 cpu cores. In Proceedings of the 28th ACM Interna- tional Conference on Supercomputing, ICS ’14, pages 333–342, New York, NY, USA, 2014. ACM.
[17] I. Sutskever, J. Martens, G. E. Dahl, and G. E. Hinton. On the importance of initialization and momentum in deep learning. In ICML, volume 28 of JMLR Proceed- ings, pages 1139–1147. JMLR.org, 2013.
[18] C.Szegedy,A.Toshev,andD.Erhan.Deep neural networks for object detection. In C. J. C. Burges, L. Bottou, Z. Ghahramani, and K. Q. Weinberger, editors, NIPS, pages 2553–2561, 2013.
[19] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. CoRR, abs/1312.4659, 2013.
[20] K. E. A. van de Sande, J. R. R. Uijlings, T. Gevers, and A. W. M. Smeulders. Segmentation as selective search for object recognition. In Proceedings of the 2011 International Conference on Computer Vision, ICCV ’11, pages 1879–1886, Washington, DC, USA, 2011. IEEE Computer Society.
[21] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In D. J. Fleet, T. Pajdla, B. Schiele, and T. Tuytelaars, editors, ECCV, volume 8689 of Lecture Notes in Computer Science, pages 818–833. Springer, 2014.