Detect Globally, Refine Locally: A Novel Approach to Saliency Detection論文翻譯

Detect Globally, Refine Locally: A Novel Approach to Saliency Detection

譯:全局檢測,局部細化:顯著性檢測的一種新方法

Abstract

對目標顯著性檢測來說,上下文信息的有效集成是必要的。為了達到這個目標,現(xiàn)在大多數(shù)基于“跳躍”結構的方法,主要集中于如何去融合卷積神經網絡的層級特征。它們只是簡單地應用連接或元素化操作來包含高級語義線索和低級詳細信息。然而,這會降低預測的質量,因為雜亂和嘈雜的信息也會被傳遞。為了解決這個問題,我們提出了一個全局遞歸定位網絡(RLN),它利用加權響應映射的上下文信息,以更準確地定位顯著性目標。特別是,使用一個循環(huán)模塊來在多個時間步長中逐步細化CNN的內部結構。此外,為了有效地恢復目標邊界,我們提出了一個局部邊界細化網絡(BRN)來自適應地學習每個空間位置的局部上下文信息。學習到的傳播系數(shù)可以用來最優(yōu)地捕獲每個像素與其鄰居之間的關系。在五個具有挑戰(zhàn)性的數(shù)據(jù)集上進行的實驗表明,我們的方法在流行的評估度量方面的表現(xiàn)優(yōu)于所有現(xiàn)有的方法。

1. Introduction

近年來,視覺顯著性已經獲得了廣泛關注。已經表明:視覺顯著性在人識別、視覺追蹤、圖片捕捉、機器人導航和視覺問答等廣泛應用上都很有效。當涉及到基于圖像的顯著性目標檢測時,有兩個大問題需要被解決:如何在雜亂的背景下突出顯著性目標和如何保護顯著性目標的邊界。然而,鑒于顯著性目標可能會與背景干擾器共享一些類似的視覺屬性并且有時多個顯著性目標部分或完全相互重疊的事實,顯著性檢測在計算機視覺任務中仍然具有挑戰(zhàn)性。最近基于cnn的方法[18,22,10,33,29]已經成功地緩解了上述問題,并引起了一種重要的神經網絡結構的激增。通常,標準的卷積神經網絡是由重復的卷積層組成的,然后跟著空間池化。更深的層次以更豐富的語義表示進行編碼,盡管犧牲了空間分辨率,而較淺的層包含更精細的結構。?現(xiàn)有的顯著性檢測方法[18,10,33]試圖將層次特征相結合,同時捕獲獨特的客觀性和詳細信息。然而,這些方法通常將分析集中在如何有效地組合特征上。經常被忽視的是,直接將連接或元素化操作應用于不同的特征映射是次優(yōu)的,因為有些映射過于混亂,在檢測和分割顯著對象時會引入誤導性的信息。該問題如圖1所示?,F(xiàn)有的顯著性檢測方法[18,10,33]試圖將層次特征,同時將捕獲的獨特的客觀性和詳細信息相結合。然而,這些方法通常將分析集中在如何大體上有效地組合特征上。經常被忽視的是,直接將連接或元素化操作應用于不同的特征映射是次優(yōu)的,因為有些映射過于混亂,在檢測和分割顯著對象時會引入誤導性的信息。該問題如圖1所示。

因此,從全局的角度,我們提出了一種新的遞歸定位網絡(RLN),它由兩個模塊組成:一個初始上下文加權模塊(CWM)和遞歸模塊(RM)。CWM旨在預測空間響應映射,以自適應地權重化每個位置的特征映射,它可以定位每個給定輸入最關注的部分。具體來說,CWM位于每個卷積塊的側輸出結果的頂部,它以輸出特征映射作為輸入,并基于多尺度上下文信息學習每個像素的權重。然后將權重用于每個特征圖來產生一個加權空間表示。CWM可以過濾出分散注意力和混亂的背景,并使突出的物體脫穎而出。此外,還提出了一種遞歸結構,以隨著時間逐步細化預測顯著性圖。它建立循環(huán)連接,將某些塊的輸出傳播到其輸入端,以便在不同層的訓練過程中利用上下文線索。

其次,從局部的角度,我們采用邊界細化網絡(BRN)來恢復詳細的邊界信息。BRN將初始RGB圖像和顯著性映射作為輸入。顯著性映射作為先驗映射,可以幫助學習過程中產生更準確的預測。BRN可以預測每個像素的n×n個傳播系數(shù)圖,它表示中心點與其相鄰的n×n個點之間的關系。對于每個像素,相應的系數(shù)都是位置感知的,并且可以自適應地學習n×n個鄰居的局部上下文信息。

綜上所述,我們的貢獻如下:

我們提出了一種新的局部化到細化網絡,前者遞歸地關注各種場景的空間分布,以幫助更好地定位顯著性對象,后者有助于通過每個像素與其鄰居之間的關系來細化顯著性映射。

在遞歸定位網絡中,對加權特征圖在每個位置采用上下文模塊。此外,還提出了一種循環(huán)機制來收集上下文信息來迭代地改進卷積特征。在邊界細化網絡中,采用了一個細化模塊,通過傳播效率來學習局部上下文信息。

與所有當前最好的結果相比,我們所提出的模型在ECSSD、THUR15K、DUT-OMRON、HKU-IS和DUTS基準數(shù)據(jù)集上都取得了最好的性能。

2、相關工作

為了解決顯著性檢測的問題,人們提出了各種方法。早期的研究[23,12,31,32,11,19,14,4,25]集中于低級的視覺特征,如中心偏置,對比先驗和背景先驗。近年來,基于深度學習的方法[26,36,17,28,15,16,18,22,10,29,33,3]已經取得了顯著的進展,它可以廣泛地分為基于區(qū)域的和基于全卷積網絡(FCN)的方法。下面,我們簡要回顧了這兩類方法的最新進展。

2.1 基于區(qū)域的顯著性

基于區(qū)域的方法利用每個圖像塊作為進行顯著性預測的基本處理單元。在[17]中,Li等人。通過利用上下文信息,利用從深度CNN中提取的多尺度特征。采用類化網絡來推斷每個圖像段的顯著性分數(shù)。在[36]中,趙等人提出了一種用于顯著性目標檢測的多上下文深度學習結構。他們試圖通過聯(lián)合優(yōu)化全局和局部上下文信息來建模每個超像素。在[26]中,提出了一種結合圖像補丁和候選對象的兩階段訓練策略。結合局部特征和全局線索,以生成顯著對象區(qū)域的加權和。Lee等人[16]利用雙流框架,具有從VGG-net中提取的高級特征描述符和低級啟發(fā)式特征,如顏色直方圖和Gabor響應。他們提出了一種具有全連接層的神經網絡來評估每個區(qū)域的顯著性。

2.2 基于全卷積網絡的顯著性

雖然相比基于手工制作特征的方法,基于區(qū)域的深度學習方法大大提高了性能,但它們在為每個圖像補丁分配一個顯著性標簽時忽略了重要的空間信息。此外,這些方法是耗時的,因為整個網絡運行了多次,以預測圖像中的所有補丁。為了克服這一問題,采用的是最流行的神經網絡之一——全卷積網絡?,F(xiàn)有的幾項工作主要基于以下幾個方面來改進顯著性檢測任務。

跳躍連接(Skip Connections)?跳躍連接的目標是為具有較低層次的網絡添加更深的層,并集成多分辨率的顯著性預測。在[18]中,提出了一種多尺度的FCN來捕獲有效的語義特征和視覺對比信息來進行顯著性推理。侯等人在[10]中,通過將高級特性轉換為較淺的側輸出層來引入短連接。每層的多尺度特征圖可以幫助定位顯著性區(qū)域,同時可幫助恢復詳細的結構。張等人[33]學會了在每個分辨率上聚合多層次的特征映射,并以遞歸的方式預測顯著性映射。在[29]中,王等人提出了一個階段細化模型和金字塔池化模塊,以包括局部和全局上下文信息的顯著性預測。特別是,利用階段模型逐步向預測的特征圖添加較低級的詳細特征。上述工作試圖利用中樞神經網絡的層次特征來進行預測。然而,當?shù)图壧卣髦苯优c高級特征結合時,總會包含一些雜亂的信息。為了解決這個問題,我們提出了一個類似inception的上下文權重模塊來凈化卷積特征。

遞歸結構(Recurrent Structure)遞歸結構通過迭代地聚合上下文信息,可以幫助減少預測錯誤。 Kuen[15]首先采用卷積反卷積網絡來生成一個粗糙的顯著性圖。然后利用空間變換器和遞歸網絡單元迭代尋找專注圖像子區(qū)域以進行顯著性細化。劉和韓[22]提出了一種基于全卷積網絡的端到端方法。采用層次遞歸CNN,通過整合局部上下文信息,逐步恢復顯著性圖的圖像細節(jié)。在[28]中,王等人。利用預測的顯著性圖作為反饋信號,作為顯著性信號之前,通過修正之前的誤差,自動學習改進顯著性預測。與這些工作不同的是,我們提出了一個塊式遞歸模塊,它可以在多個時間步長內結合某些卷積塊的輸出和輸入特征,從而合并上下文信息。

[if !supportLists]3.?[endif]The Proposed Method

在這一節(jié)中,我們將詳細闡述所提出的顯著性檢測框架。我們首先在3.1節(jié)中描述了全局遞歸局部化網絡(RLN),然后在3.2節(jié)中給出了局部邊界細化網絡(BRN)的詳細描述。我們所提出的網絡的整體架構如圖2所示。

3.1. Recurrent Localization Network?

3.1.1 Base Network

我們解決了基于全卷積網絡的顯著性檢測問題。我們提出的方法是基于ResNet-50網絡[24]。具體地說,我們刪除了原始的全局平均池化,全連接層和softmax損失層,并保留了ResNet-50網絡中的底部卷積塊?;A網絡由具有不同輸出尺寸的重復性殘差構建塊組成。對于輸入圖像I,基礎網絡會生成5個特征圖(f1、f2、……、f5)。每個映射都由一個殘差的卷積塊生成。從Conv5得到的特征映射f5的空間維數(shù)最小,而f1的空間維數(shù)最大。為了有效的計算,我們通過在第k個殘塊的輸出特征圖fk后面應用一個帶有128個通道的3×3卷積層,得到了第k個特征映射fkd(k∈{3,4,5})以減少維數(shù)。我們將特征映射fkd(k∈{4,5})進行上采樣到與f3d相同的大小。然后對所有的特征圖fkd進行元素級的乘法,后面跟著具有128個通道的3×3卷積層和2個通道的1×1卷積層來生成預測圖S。我們設置預測圖中輸出通道的數(shù)量等于可能的標簽的數(shù)量。S的每個通道都對應于一個置信度量,用來預測兩個類中的一個類中的每個空間位置。最后,我們使用雙線性插值直接上采樣S來匹配輸入圖像的大小。

3.1.2 Network Architecture

大多數(shù)現(xiàn)有的顯著性檢測方法通常都涉及到多尺度卷積特征的組合,這是由于不同層的CNNs通常攜帶豐富的表達,從低級視覺特征到高級識別信息。然而,如前所述,如果采用某些“壞”特征,則在集成特征之間存在限制,因為簡單地合并卷積特征可以使“壞”特征圖中的噪聲無限地傳遞到預測層?;谏鲜鲇^察結果的動機,我們提出了一種基于初始架構的上下文加權機制來調制正在傳遞的特征。特別地,采用遞歸結構來學習上下文感知特征,它可以以反饋的方式將每個塊的輸出連接到同一塊的輸入。

Inception-like Contextual Weighting Module.我們的模塊的靈感來自于上下文重加權網絡[13]在圖像地理定位中的成功。為了獲得每個位置的空間響應圖,我們首先在第k個殘差塊生成的特征圖fk后面連接一個下采樣層。然后應用一個核大小為m的卷積層在局部特征上滑動一個m×m的空間窗口,如圖3所示。因此,上下文信息可以包含在隱藏的上下文過濾器中。為了獲得多尺度的上下文信息,我們使用了三個不同大小的核的上下文過濾器(3×3、5×5、7×7)。每個過濾器生成一個大小為W×H×C的激活圖,然后是L2歸一化層。然后,我們將這些激活映射連接起來,形成特征fkcat。

為了計算上下文加權響應映射Mk,我們在fkcat后面利用帶有一個輸出通道的卷積層,它被表示為Mk = W ? fk cat + b,

其中,W表示核,b表示偏置參數(shù)。所得到的加權響應圖的大小為W×H,其中該圖中的每個值決定了每個空間位置的重要性。然后在Mk空間上應用softmax函數(shù),得到最終的加權響應圖,Φk(x, y) = exp(Mk(x, y)) P(x′ ,y′) exp(Mk(x′ , y′)) ,

其中,Φk(x、y)表示(x、y)處的標準化響應值,而k是殘差塊的索引。直觀地說,如果像素i在位置(x、y)處突出,則應為響應映射中相關的像素分配一個更高的值。最后,將權重圖上采樣得到Φku,并應用于特征fkd,F(xiàn)k(c) = Φuk ? fkd(c),

其中,c表示第c個特征通道。我們使用?來表示按元素進行乘積操作。注意,Φku是跨fkd的所有通道共享。

Recurrent Module.上下文信息[22,36,29]在顯著性檢測中已被證明是有效的。較大的上下文通常捕獲對象之間的全局空間關系,而較小的上下文則關注局部外觀,兩者都有助于顯著性檢測。在本文中,我們提出了一種新的遞歸模塊,增加了時間步長的優(yōu)勢,使整個網絡能夠隨著時間的推移在更大的鄰域整合上下文知識,并通過在Resnet-50的內部結合語義線索和詳細信息塊作為一種細化機制。我們將ResNet-50中的每個塊作為基本的遞歸單元,隨著時間的推移,它在我們的結構中共享相同的權重層參數(shù)。當前塊的狀態(tài)由當前前饋輸入和相同塊的先前狀態(tài)決定。具體地說,塊hk在時間步驟t的狀態(tài)通過把從同一塊在時間步驟t-1的先前預測hk(t?1)和在時間步驟t?1,它的前一塊(k-1)的當前輸出hk?1(t)的輸出特征圖作為輸入計算得到。


其中,符號?表示卷積操作。fk(·)是多個特定功能的組合,包括批歸一化和ReLU激活功能。fu(。)表示上采樣操作。wfk和wrk是對于組塊K的前饋和遞歸權重。bk表示組塊k的偏差。注意,wfk被同一塊共享,在每個塊上多次使用,以減少內存消耗。以不同的時間步長穿過相同的塊獨立地學習wrk,以便在時間步驟t?1從當前塊學習合并的上下文信息的特定轉換。

圖4表示伴隨著深度和時間維度的前向和反向傳播過程中的整體遞歸結構(這里設置t=1)。所提出的遞歸結構有幾個優(yōu)點。首先,通過在不同的時間步長上采用相同塊的循環(huán)連接,循環(huán)結構能夠用隱藏的卷積單元吸收上下文和結構信息。其次,通過在每一層多次共享權重,新的架構可以增加傳統(tǒng)CNNs的深度,而不顯著增加參數(shù)的總數(shù)。

3.2 Boundary Refifinement Network?

RLN可以通過過濾掉有噪聲的部分來聚合有用的特征,并通過整合相關信息來逐步細化預測。然而,沿著顯著性目標邊界的一些詳細的結構仍然缺失。為了恢復連續(xù)的細節(jié)以獲得空間精度,我們采用了一個局部邊界細化網絡(BRN)[35]來自適應地校正預測。

BRN的細節(jié)如圖5所示。由RLN和原始RGB圖像生成的顯著性圖被連接起來作為BRN的輸入。

對于每個位置,BRN的目標是學習一個n×n傳播系數(shù)圖,用它可以將局部上下文信息聚合到中心像素。對于位置i,BRN將首先輸出一個傳播系數(shù)向量,然后它將被展開為一個n×n的正方形。位置i的細化映射將由i的所有鄰居的傳播映射和顯著性映射的乘積和生成。

其中vdi是第d個鄰居在位置i的系數(shù)向量,n×n表示局部鄰域的大小。sdi和s‘i分別表示細化操作前后位置i的預測向量。BRN中的每個位置都是位置自適應的,帶有不同的傳播系數(shù),可以通過不用明確監(jiān)督的反向傳播自動學習。

Implementation details.如表2所示,BRN由7個卷積層組成,每一層的核大小為3×3。ReLU非線性操作是在兩個卷積層之間執(zhí)行。我們不用池化層,也不在卷積層使用大步長,以在輸入和輸出特征圖之間保持相同的分辨率。

傳播矩陣可以建模鄰居之間的空間關系,以幫助細化由RLN生成的預測映射。與初始的顯著性圖相比,就視覺外觀而言,細化的特征圖不應變化太大。為了實現(xiàn)這一點,我們在BRN中采用了以下初始化:

其中,l∈{1,2,……,L}表示BRN的第1個卷積層。kl是由高西加分布δ~N(μ,σ2)初始化的卷積核,其中μ=0,σμ=0.1.z是每個核中的位置,c表示信道的索引。我們將第l層(l<L)中的所有偏差參數(shù)設置為0。對于第L層,偏差全部設置為0,但n×n鄰域中心位置的偏置值設置為1。在此初始化后,某個像素的顯著性預測將主要受到傳播圖的中心系數(shù)的影響,也會受到其他系數(shù)的影響。

4. Experiments?

4.1. Experimental Setup

Evaluation Datasets.我們在五個流行的數(shù)據(jù)集上評估了提出的框架:ECSSD[31],DUTOMRON[32],THUR15K[5]、HKU-IS[17]和DUTS[27]。ECSSD包含1000個自然和復雜的圖像,具有像素精確的地面真實注釋。圖像是從互聯(lián)網中手動選擇的。DUT-OMRON有更有挑戰(zhàn)性的圖像和5168張圖像。所有的圖像都被調整大小至最大尺寸為400像素長。THUR15K包括6232張分類圖像,包括“蝴蝶”、“咖啡”、“狗”、“長頸鹿”和“飛機”。HKU-IS有4447張圖像,通過至少符合以下三個標準中的一個來選擇:多個具有重疊的突出對象、接觸圖像邊界的對象和低色對比度。DUTS是最新發(fā)布的數(shù)據(jù)集,包含10553張用于訓練的圖像和5019張用于測試的圖像。培訓和測試集都包含非常復雜的場景。

Evaluation Criteria.我們利用三種評估指標來評估我們的方法與其他顯著的目標檢測方法的性能,包括精度召回(PR)曲線、f測量分數(shù)和平均絕對誤差(MAE)。給定一個連續(xù)值歸一化為0和255范圍的顯著性映射,我們通過使用每一個可能的固定整數(shù)閾值來計算相應的二進制映射。然后,我們計算了所有二進制映射的精度/召回率對,以根據(jù)給定數(shù)據(jù)集中所有顯著性映射的平均值來繪制PR曲線。此外,我們利用f度分數(shù)來評估顯著性地圖的質量,這是由精度和召回的加權組合表示的。

γ設置為0.3,以更加強調[1]中建議的召回的精度。鑒于顯著性圖S和地面真值掩模G,可以通過S和G之間的元素級差來計算MAE分數(shù),

其中,S(i、j)表示位置(i、j)處的顯著性得分,W和H為寬度和高度。

Implementation Details.我們已經在一個英偉達GTX1080GPU上實現(xiàn)了我們的網絡。預先訓練好的ResNet-50用于初始化RLN網絡中的卷積層。第1版到第5版區(qū)塊)。其他的卷積參數(shù)都是隨機分配的。我們在DUTS的訓練集上訓練我們的模型,并在其測試集和其他數(shù)據(jù)集上進行測試。所有的訓練和測試圖像的大小都被調整為384×384,作為到RLN和480×480到BRN的輸入。我們不使用驗證集,并訓練模型,直到它的訓練損失收斂。我們使用SGD方法來訓練我們的網絡與權重衰減0.0005。RLN學習率設置為1e-10,BRN學習率設置為1e-8。我們使用軟最大熵損失來訓練這兩個網絡。對于遞歸結構,時間步長t設置為3,我們在地面真實值和預測圖之間使用三個頂級監(jiān)督。

4.2. Performance Comparison

我們比較了該算法與13種最先進的算法的比較,包括基于深度學習的方法以及其他非深度競爭對手,DRFI [12], BL [25], LEGS [26], MDF [17], MCDL [36], DS [20], DCL [18], DHS [22], RFCN [28], KSR [30], UCF [34], A?mulet [33] and SRM [29].

Quantitative Evaluation.定量評估。首先,我們將PR曲線、F度曲線和F分數(shù)與其他方法進行比較,如圖7所示。在所有的數(shù)據(jù)集和評估指標中,該方法的性能優(yōu)于其他方法。此外,我們還在表1中顯示了f-度量值和MAE分數(shù)。正如我們所看到的,我們的方法可以在所有數(shù)據(jù)集中生成最好的分數(shù)。更多的結果可以在補充材料中找到。

Visual Comparison.為了定性地評價所提出的方法,我們可視化了關于圖8中上述方法的一些例子顯著性圖。這些例子在各種場景中顯示,包括多個突出的對象(第1-2行),小的對象(第3行)、接觸圖像邊界的對象(第4行)以及與背景顏色相似的突出對象(第5-7行)。從這幅圖中,我們可以看到,我們的方法可以產生更準確的顯著性地圖,這是更接近地面真相掩模。

4.3. Ablation Study

在這節(jié)中,我們提供了關于所提議的網絡中每個組件的貢獻的結果。

Performance of the RLN and BRN.為了研究所提出的遞歸定位網絡(RLN)和邊界細化網絡(BRN)的有效性,我們在所有五個數(shù)據(jù)集上進行了消融實驗。我們利用第3.1.1節(jié)中描述的基礎網絡作為基線模型。F-測量和MAE評分的總體結果見表3。基于基線網絡,我們分析了每個提出的組件的性能,即類似初始的上下文加權模塊(CWM)、遞歸模塊(RM)和BRN。

我們首先評估CWM,整體性能可以分別提高F-seath和MAE分數(shù)。性能的提高得益于CWM在過濾噪音和雜亂中所發(fā)揮的作用背景信息。此外,通過RM,顯著性映射可以捕獲上下文依賴性,以區(qū)分令人混淆的局部像素,因此可以通過網絡來糾正錯誤。這兩個模塊都可以幫助網絡更準確地定位突出對象,并刪除后臺的干擾器。最后的BRN也可以顯示出改進,從學習的傳播中得到,以幫助自適應地細化由RLN生成的預測映射的邊界。我們還提供了RLN和BRN的示例。如圖6所示,通過CWM、RM和BRN的連接,該方法可以得到更準確的結果。

Performance of the controlled experiments.我們將我們提出的RLN與DUTS數(shù)據(jù)集上的不同變體進行了比較,如圖9所示。“RM”-k表示在我們的實驗中有k個循環(huán)模塊?!癛M-1*”表示t=0和t=1之間不共享任何參數(shù)。“RM-1**”表示我們在=1只損失一次RLN??梢钥闯觯阅軙S著時間的增加和步長而增加。此外,對每個時間步長和循環(huán)機制的最高監(jiān)督對整個網絡都很重要。

5. Conclusion

在本文中,我們提出了一種新的定位到細化網絡,從全局和局部視圖檢測顯著目標。遞歸定位網絡(RLN)通過權重響應圖可以學習更好地定位顯著性目標,為了隨著時間迭代地細化每個卷積塊,我們又提出了一個新的循環(huán)結構。邊界細化網絡(BRN)可以根據(jù)每個像素和鄰居的空間關系來優(yōu)化預測映射。這是通過由一個小的深度網絡學習的傳播系數(shù)圖來實現(xiàn)的。實驗評估驗證,該模型可以在五個基準數(shù)據(jù)集和所有流行的評估指標上一致地提高當前最好的性能。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容