顯著性目標(biāo)檢測(cè)(Visual Saliency Detection)-基于傳統(tǒng)CNNs

顯著性目標(biāo)檢測(cè)(識(shí)別圖像的主體,本質(zhì)是一種分割任務(wù)。先算顯著圖,再合并分割顯著對(duì)象
2014前,基于手工特征的傳統(tǒng)方法:無(wú)法描述復(fù)雜場(chǎng)景、對(duì)象結(jié)構(gòu);泛化能力差。
基于深度學(xué)習(xí)的方法:
1)多層感知機(jī)(MLPs)/傳統(tǒng)CNNs
輸入圖像被過(guò)度成多尺度的小區(qū)域,然后將CNN用于提取圖像中的高級(jí)特征,該高級(jí)特征隨后被反饋回MLP以確定每個(gè)小區(qū)域的顯著性值。
雖用CNN提取高級(jí)特征,但由于MLP的使用,CNN所提取的特征中的空間信息并不能被保留。
結(jié)合局部信息和全局信息,來(lái)克服基于局部的模型中突出對(duì)象邊界,而不突出對(duì)象整體。
[7] 兩個(gè)子網(wǎng)絡(luò)DNN-L、DNN-G
[8] 全局與局部上下文,以超像素為中心的窗口
本文模型將嵌套窗口中提取的多尺度CNN特征與具有多個(gè)全連接層的深度神經(jīng)網(wǎng)絡(luò)結(jié)合。(將輸入圖像分為考慮區(qū)域,緊鄰區(qū)域以及全圖三個(gè)區(qū)域,對(duì)分割出的三個(gè)不同圖像使用相同的CNNs進(jìn)行特征提取,而后進(jìn)行整合)
上述基于MLP的模型,主要依賴于區(qū)域信息和分類網(wǎng)絡(luò)。這些圖像塊區(qū)域被調(diào)整到固定大小,然后被送到分類網(wǎng)絡(luò),該網(wǎng)絡(luò)用于確定每個(gè)區(qū)域的顯著性。 雖然一些模型使用多尺度輸入來(lái)提取多個(gè)尺度的特征,但是這種學(xué)習(xí)框架無(wú)法充分利用高級(jí)語(yǔ)義信息。此外,空間信息不能傳播到最后完全連接的層,從而導(dǎo)致全局信息丟失。
2)全卷積網(wǎng)絡(luò)(FCN)
具有保存空間信息的能力。

論文:Visual Saliency Detection Based on Multiscale Deep CNN Features
年份:TIP 2016
期刊:G.-B. Li, Y.-Z. Yu. IEEE Transactions on Image Processing, Nov, 2016, pp. 5012-5024.

初版:Visual Saliency Based on Multiscale Deep Features,
年份:CVPR 2015
作者:同期刊(香港大學(xué))
https://sites.google.com/site/ligb86/mdfsaliency/


CVPR 2015(Multiscale Deep Features,MDF)

  • Results


    Figure 1:不同方法顯著圖的視覺(jué)比較

顯著圖的視覺(jué)比較:
(a)Source,(k)Ours MDF,(L)GT:ground truth,(b-j)其他9種方法

MDF

?二值gt的標(biāo)簽合理嗎

  • 定量比較


    Figure 2:在對(duì)10種不同方法的顯著性圖進(jìn)行定量比較

4個(gè)數(shù)據(jù)集上:(a)MSRA-B數(shù)據(jù)集,(b)SOD數(shù)據(jù)集,(c)iCoSeg數(shù)據(jù)集,(d)本文的數(shù)據(jù)集
(第一行)不同方法的PR曲線(精度召回precision-recall),
(第二行)使用自適應(yīng)閾值的平均精度、召回和F-測(cè)量(precision, recall and F-measure),
(第三行)平均絕對(duì)誤差(Mean Absolute Error)

  • 貢獻(xiàn)
    1、model:提出新的顯著性模型MDF(Multiscale Deep Features)
    2、framework:進(jìn)一步將顯著性模型(ours)、空間一致性模型、多層次圖像分割相結(jié)合,形成完整的顯著性框架
    3、datasets:HKU-IS
HKU-IS數(shù)據(jù)集的imgs和gt

TIP 2016

概述

  • 提出思路:用CNN提的多尺度特征 學(xué)習(xí)出高質(zhì)量的顯著性模型。已成功應(yīng)用于視覺(jué)識(shí)別任務(wù)中
  • 提出網(wǎng)絡(luò)結(jié)構(gòu)
    在CNNs的頂層加入全連接層,用于3種不同尺度的特征提取。
    Deep Contrast Feature(深度對(duì)比度特征),位于網(wǎng)絡(luò)的倒數(shù)第二層,是一個(gè)用于顯著性檢測(cè)的有判別力的高級(jí)特征向量
    將人工設(shè)計(jì)的底層特征與Deep Contrast Feature結(jié)合,得到更健壯的特征。
  • 發(fā)布了視覺(jué)顯著性的數(shù)據(jù)集:4447圖像及其像素顯著性注釋

1、介紹

  • 貢獻(xiàn):
    1、提出新的視覺(jué)顯著性模型,將(從嵌套窗口中提取的)多尺度CNN特征與(有多個(gè)全連接層的)深度網(wǎng)絡(luò)相結(jié)合。
    帶標(biāo)記的一組顯著圖中的多個(gè)區(qū)域來(lái)訓(xùn)練用于顯著性估計(jì)的深層網(wǎng)絡(luò)。(TODO:???)
    網(wǎng)絡(luò)的倒數(shù)第二層DCF,可看作是一個(gè)用于顯著性檢測(cè)的有區(qū)分度的高級(jí)特征向量,當(dāng)與手工低級(jí)特征結(jié)合時(shí),可進(jìn)一步提高顯著性性能。
    2、通過(guò)進(jìn)一步將(圖像的多級(jí)分割上的)聚集顯著性圖與(基于全連接CRF的)空間一致性模型進(jìn)行結(jié)合,開發(fā)了一個(gè)完整的顯著性框架
    (conditional random field (CRF) framework,條件隨機(jī)場(chǎng))
Fig. 1 基于人工設(shè)計(jì)底層特征的顯著性模型是脆弱的

(a)source image,
(b)ground truth,
(c)our saliency map,
(d-h)saliency maps of other five latest methods, including SF[13], DRFI[14], HS[15], RC[16], and MR[17].

TODO:其他相關(guān)方法的簡(jiǎn)要介紹
。。。

3、具有深度特征的顯著性推理(saliency inference with deep features)

Fig. 2 網(wǎng)絡(luò)模型結(jié)構(gòu)

如圖,模型由1個(gè)輸出層和(3個(gè)CNNs上的)2個(gè)全連接的隱藏層組成。(TODO:???)

  • 具體流程:
    將1張輸入圖像分解為一組非重疊區(qū)域(nonoverlapping regions),每個(gè)region內(nèi)部具有幾乎一致的顯著值。(TODO:region size一致嗎???)
    3個(gè)CNNs負(fù)責(zé)多尺度特征提取。
    每個(gè)region都從三個(gè)嵌套且逐漸增大的矩形窗口(該region的邊界框、其近鄰regions的邊界框和整個(gè)圖像)中自動(dòng)提取特征。(TODO:近鄰regions的邊界框???)
    CNNs中提取的特征被輸入到2個(gè)全連接層,每層有300個(gè)神經(jīng)元。
    全連接層的輸出送到輸出層,輸出層進(jìn)行回歸,得到該region的顯著概率。
    在生成(輸入圖像的)顯著圖時(shí),我們?cè)趫D像的每個(gè)region上逐個(gè)運(yùn)行訓(xùn)練好的顯著性模型,以生成該region的顯著性得分。該顯著性得分進(jìn)一步轉(zhuǎn)移到該區(qū)域內(nèi)的所有像素(pixels)。
    當(dāng)?shù)箶?shù)第二層的輸出作為深度對(duì)比度特征(DCF)時(shí),可以將其與手工底層特征concatenate串聯(lián)起來(lái),進(jìn)一步提高顯著性檢測(cè)的性能。
a)多尺度特征提取

用預(yù)訓(xùn)練后細(xì)調(diào)的CNNs比手工特征好得多。

用所有ImageNet訓(xùn)練圖像中相同位置的平均像素值 填充區(qū)域外但仍在其邊界框內(nèi)的像素點(diǎn)。這些填充像素值在平均減法后變?yōu)榱悖瑢?duì)后續(xù)結(jié)果沒(méi)有任何影響。
將邊界框中的區(qū)域 扭曲為227x227像素的正方形RGB圖像區(qū)域,并饋送給CNNs,并通過(guò)CNNs向前傳播 平均減去后的輸入圖像區(qū)域 來(lái)獲得4096維特征向量,命名為特征A。特征A不包括所考慮的圖像區(qū)域周圍的任何信息,因此不能判斷該區(qū)域相對(duì)于其鄰域以及圖像的其余部分是否顯著。
為了包含所考慮區(qū)域周圍區(qū)域的特征以理解其鄰域中的對(duì)比度,我們從矩形鄰域,即所考慮區(qū)域及其相鄰區(qū)域的邊界框。此邊界框中的所有像素值保持不變。同樣,這個(gè)矩形的鄰域在被扭曲后被傳送到了CNN。我們把CNN特征的結(jié)果向量稱為特征B
在顯著性計(jì)算中,一個(gè)非常重要的線索是區(qū)域相對(duì)于圖像其余部分的(顏色和內(nèi)容)唯一性程度。
而圖像區(qū)域在整個(gè)圖像中的位置是另一個(gè)重要的提示。因此,我們使用CNN從整個(gè)矩形圖像中提取特征C。
稱之為S-3CNN。

b)網(wǎng)絡(luò)訓(xùn)練

S-3CNN包含了12288個(gè)深部特征的三部分。在S-3CNN的基礎(chǔ)上,我們訓(xùn)練了一個(gè)具有1個(gè)輸出層和2個(gè)全連接的隱層的網(wǎng)絡(luò)。該網(wǎng)絡(luò)起到回歸器的作用,從圖像區(qū)域提取的多尺度CNN特征中推斷出每個(gè)圖像區(qū)域的顯著性得分。具有全連接隱層的網(wǎng)絡(luò)可達(dá)到非常高的回歸精度。

將串聯(lián)的多尺度CNN特征輸入到該網(wǎng)絡(luò)中,該網(wǎng)絡(luò)使用一組訓(xùn)練圖像及其標(biāo)記的顯著性圖進(jìn)行訓(xùn)練,這些圖像具有逐像素的二值顯著性標(biāo)記。在訓(xùn)練之前,首先將每個(gè)訓(xùn)練圖像分解為一組區(qū)域。利用逐像素顯著性標(biāo)簽進(jìn)一步估計(jì)每個(gè)圖像區(qū)域的顯著性標(biāo)簽。在訓(xùn)練階段,僅選取具有相同顯著性標(biāo)簽的70%或70%以上像素的區(qū)域作為訓(xùn)練樣本,并將其顯著性得分分別設(shè)置為1或0。在訓(xùn)練過(guò)程中,輸出層和完全連接的隱藏層一起最小化所有訓(xùn)練圖像中所有區(qū)域累積的最小二乘預(yù)測(cè)誤差。

c)Deep Contrast Feature(DCF)

網(wǎng)絡(luò)倒數(shù)第二層的輸出 > DCF

4、完整算法

a)多級(jí)圖像分解

在我們的早期版本[1]中,為了生成更精確的分割,區(qū)域合并通過(guò)兩個(gè)相鄰區(qū)域共享的邊界像素處的邊緣強(qiáng)度來(lái)確定優(yōu)先級(jí),并且邊緣強(qiáng)度由[45]中提出的超等高線圖(UCM)確定。2004.
然而,計(jì)算UCM是一個(gè)耗時(shí)的過(guò)程,但并不能明顯提高最終顯著圖的精度。
在本文中,我們簡(jiǎn)單地應(yīng)用了文獻(xiàn)[44]中基于圖的分割算法,使用不同的參數(shù)設(shè)置來(lái)生成15級(jí)的分割。最細(xì)層和最粗層的目標(biāo)區(qū)域的個(gè)數(shù)分別控制在300和20左右,中間層的區(qū)域數(shù)遵循幾何級(jí)數(shù)。
我們訓(xùn)練了一個(gè)統(tǒng)一的模型,基于這15個(gè)分割層次上的所有區(qū)域,而不是針對(duì)每個(gè)分割層次的單一模型。

b)混合深度-手工特征,HDHF: Hybrid Deep and Handcrafted Feature

如第III-C節(jié)所述,我們訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的初始顯著圖可以被視為特征DCF的回歸結(jié)果。
如圖3所示,將手工特征與DCF的結(jié)合,始終優(yōu)于MDF和LF

Fig. 3 顯著圖(LF:手工特征,MDF:多尺度深度特征,HDHF:手工特征+多尺度深度特征)

MDF:multiscale deep feature,第四行:
(圖a和b)DCF特別擅長(zhǎng)于在低對(duì)比度、復(fù)雜背景的圖像中檢測(cè)顯著區(qū)域,只要與它們周圍的鄰域存在語(yǔ)義區(qū)別。
DCF是從多尺度CNN特征(MDF:multiscale deep feature)中衍生出來(lái)的,這些特征主要集中在圖像的語(yǔ)義上,因此DCF在低層屬性中可能對(duì)比度信息不夠

如圖c所示,當(dāng)區(qū)域由于低級(jí)別屬性(例如顏色和紋理)中的對(duì)比而顯著時(shí),DCF往往比基于手工制作的低級(jí)別特征的那些方法執(zhí)行得更差。

許多例子表明,深度特征和手工低級(jí)特征都不足以生成精確的顯著性圖,我們提出了一組小的互補(bǔ)的低層特征來(lái)補(bǔ)償DCF。HDHF

結(jié)論:HDHF始終優(yōu)于MDF和LF

TABLE I 手工特征的詳細(xì)描述(R表示一個(gè)圖像段,B表示偽背景區(qū)域,I表示整個(gè)圖像)

對(duì)每一層分割中的每個(gè)區(qū)域R,提取一個(gè)包含對(duì)比度特征(左)和分割屬性(右)的39維低層特征描述子。
將我們提出的300維DCF和這個(gè)手工低層特征描述符的l2范數(shù)標(biāo)準(zhǔn)化,然后將它們連接成一個(gè)339維的混合特征向量,稱為混合深度和手工構(gòu)建特征(HDHF)。

Fig. 4 有無(wú)CRF顯著性檢測(cè)結(jié)果的比較
c)基于HDHF的顯著性回歸訓(xùn)練

隨機(jī)森林回歸

d)顯著圖融合

聚集顯著性圖A的公式定義如下:


注意顯著性融合有很多選擇。例如,文獻(xiàn)[46]中采用了條件隨機(jī)場(chǎng)(CRF)框架來(lái)聚合來(lái)自不同方法的多個(gè)顯著性圖。然而,我們已經(jīng)發(fā)現(xiàn),在我們的上下文中,所有顯著性圖的線性組合已經(jīng)能夠很好地滿足我們的目的,并且能夠產(chǎn)生聚合圖,其質(zhì)量與從更復(fù)雜的技術(shù)獲得的質(zhì)量相當(dāng)。

e)基于CRF的空間相干性研究

由于圖像分割的不完全性以及我們的模型將顯著性分?jǐn)?shù)分配給各個(gè)片段,噪聲分?jǐn)?shù)不可避免地出現(xiàn)在上述聚集的顯著性圖中。
為了增強(qiáng)空間一致性,我們?cè)赱47]中使用完全連接的CRF模型進(jìn)行像素顯著性細(xì)化。該模型解決了一個(gè)二值化的像素標(biāo)注問(wèn)題,采用了如下能量函數(shù):



[47]CRF
最小化能量函數(shù)。
能量最小化是基于對(duì)CRF分布的平均場(chǎng)近似,可以利用高維濾波來(lái)加速計(jì)算。在本文中,我們使用[47]的公開實(shí)現(xiàn)來(lái)最小化能量,并且在300*400像素的圖像上花費(fèi)不到0.5秒的時(shí)間。在能量最小化的最后,我們利用每個(gè)像素的后驗(yàn)概率來(lái)生成一個(gè)顯著性圖。請(qǐng)注意,除了顏色以外的特征可以在第一項(xiàng)中使用,以提高性能(例如,本文的早期版本[1]中使用了輪廓信息)。
目前,我們是為了提高效率而只使用顏色,并且發(fā)現(xiàn)顏色對(duì)于增強(qiáng)空間一致性和去除聚集顯著性圖中由于分割不完善而產(chǎn)生的噪聲顯著性分?jǐn)?shù)是足夠的。結(jié)果是一個(gè)增強(qiáng)的顯著性地圖。
如圖4所示,我們的初始顯著性圖通常看起來(lái)支離破碎,顯著對(duì)象的邊界沒(méi)有得到很好的保留。
CRF模型的應(yīng)用不僅可以得到更為平滑的像素精度的結(jié)果,而且可以更好地保留顯著物體的邊界。CRF模型有效性的定量研究見(jiàn)第VI-D3節(jié)。

5、數(shù)據(jù)集

圖像至少滿足以下標(biāo)準(zhǔn)之一:
1) 存在多個(gè)斷開連接的顯著對(duì)象;
2)突出物體中的接觸至少一個(gè)圖像邊界;
3) 背景復(fù)雜;
4) 顏色對(duì)比度(任何顯著物體的顏色直方圖與其周圍區(qū)域之間的最小卡方距離)小于0.7。
標(biāo)簽一致性定義為三個(gè)人標(biāo)記為顯著的像素?cái)?shù)與其中至少一個(gè)人標(biāo)記為顯著的像素?cái)?shù)之間的比率。其公式如下:


排除C<0.9者,其余4447例。對(duì)于每個(gè)通過(guò)標(biāo)簽一致性測(cè)試的圖像,我們從三個(gè)人的注釋中生成一個(gè)地面真實(shí)顯著性圖。地面真值顯著性圖中的像素顯著性標(biāo)簽G={gx | gx2{0,1}},根據(jù)三個(gè)人中的多數(shù)標(biāo)簽確定,如下所示:,


6、實(shí)驗(yàn)結(jié)果

a)數(shù)據(jù)集

public benchmarks for salient object detection:

b)實(shí)現(xiàn)細(xì)節(jié)
c)評(píng)價(jià)標(biāo)準(zhǔn)
    1. standard precision-recall (PR) and receiver operating characteristic (ROC???) curves評(píng)估性能
      通過(guò)一個(gè)閾值,將連續(xù)的顯著圖轉(zhuǎn)換為二值掩碼。再將二值掩碼與ground truth比較,得到一對(duì)精度和召回率。閾值從0到1取值,即可繪制出PR曲線。
      PR曲線 > 真正例率(TPR)-假正例率(FPR)> ROC曲線 > AUC曲線(ROC曲線下面積,越大越好)
    1. F值(F-Measure):Precision和Recall加權(quán)調(diào)和平均:

其中,\beta^2為0.3,以保證高精度[5]。

  • 實(shí)驗(yàn)結(jié)果展示了所有精確度-召回率對(duì)中的最大F值,還展示了使用[5]提出的圖像相關(guān)的自適應(yīng)閾值對(duì)每個(gè)顯著性圖進(jìn)行二值化后的性能。
    其中,自適應(yīng)閾值定義為圖像顯著值均值的兩倍:


    其中,W、H為顯著圖S的寬、高,S(x, y)為像素點(diǎn)(x, y)的顯著值。
    實(shí)驗(yàn)結(jié)果展示了使用自適應(yīng)閾值在不同數(shù)據(jù)集上的平均精度、召回率和F值。

    1. PR曲線的局限性:未考慮真負(fù)例(TN)的像素。因此采用平均絕對(duì)誤差(MAE)作為另一個(gè)評(píng)價(jià)標(biāo)準(zhǔn)。
      二值ground truth(G)和顯著圖(S)之間像素點(diǎn)的絕對(duì)值之差的均值:

      MAE度量了(ground truth與估計(jì)的顯著圖之間的)數(shù)值距離,對(duì)于評(píng)價(jià)顯著性模型更具意義。
d)消融實(shí)驗(yàn)
e)當(dāng)下CNN結(jié)構(gòu)評(píng)價(jià)
f)HDHF的性能
g)與現(xiàn)有技術(shù)的比較
h)效率
Fig. 5 
Fig. 6 
Fig. 7 
Fig. 8 
Fig. 9 
Fig. 10 
Fig. 11 
TABLE II 
TABLE III 

7、結(jié)論與展望

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容