顯著性目標(biāo)檢測(cè)（識(shí)別圖像的主體，本質(zhì)是一種分割任務(wù)。先算顯著圖，再合并分割顯著對(duì)象）
2014前，基于手工特征的傳統(tǒng)方法：無(wú)法描述復(fù)雜場(chǎng)景、對(duì)象結(jié)構(gòu)；泛化能力差。
基于深度學(xué)習(xí)的方法：
1）多層感知機(jī)（MLPs）/傳統(tǒng)CNNs
輸入圖像被過(guò)度成多尺度的小區(qū)域，然后將CNN用于提取圖像中的高級(jí)特征，該高級(jí)特征隨后被反饋回MLP以確定每個(gè)小區(qū)域的顯著性值。
雖用CNN提取高級(jí)特征，但由于MLP的使用，CNN所提取的特征中的空間信息并不能被保留。
結(jié)合局部信息和全局信息，來(lái)克服基于局部的模型中突出對(duì)象邊界，而不突出對(duì)象整體。
[7] 兩個(gè)子網(wǎng)絡(luò)DNN-L、DNN-G
[8] 全局與局部上下文，以超像素為中心的窗口
本文模型將嵌套窗口中提取的多尺度CNN特征與具有多個(gè)全連接層的深度神經(jīng)網(wǎng)絡(luò)結(jié)合。（將輸入圖像分為考慮區(qū)域，緊鄰區(qū)域以及全圖三個(gè)區(qū)域，對(duì)分割出的三個(gè)不同圖像使用相同的CNNs進(jìn)行特征提取，而后進(jìn)行整合）
上述基于MLP的模型，主要依賴于區(qū)域信息和分類網(wǎng)絡(luò)。這些圖像塊區(qū)域被調(diào)整到固定大小，然后被送到分類網(wǎng)絡(luò)，該網(wǎng)絡(luò)用于確定每個(gè)區(qū)域的顯著性。雖然一些模型使用多尺度輸入來(lái)提取多個(gè)尺度的特征，但是這種學(xué)習(xí)框架無(wú)法充分利用高級(jí)語(yǔ)義信息。此外，空間信息不能傳播到最后完全連接的層，從而導(dǎo)致全局信息丟失。
2）全卷積網(wǎng)絡(luò)（FCN）
具有保存空間信息的能力。

論文：Visual Saliency Detection Based on Multiscale Deep CNN Features
年份：TIP 2016
期刊：G.-B. Li, Y.-Z. Yu. IEEE Transactions on Image Processing, Nov, 2016, pp. 5012-5024.

初版：Visual Saliency Based on Multiscale Deep Features，
年份：CVPR 2015
作者：同期刊（香港大學(xué)）
（https://sites.google.com/site/ligb86/mdfsaliency/）

CVPR 2015（Multiscale Deep Features，MDF）

Results

Figure 1：不同方法顯著圖的視覺(jué)比較

顯著圖的視覺(jué)比較：
(a)Source，(k)Ours MDF，(L)GT：ground truth，(b-j)其他9種方法

MDF

?二值gt的標(biāo)簽合理嗎

定量比較

Figure 2：在對(duì)10種不同方法的顯著性圖進(jìn)行定量比較

4個(gè)數(shù)據(jù)集上：（a）MSRA-B數(shù)據(jù)集，（b）SOD數(shù)據(jù)集，（c）iCoSeg數(shù)據(jù)集，（d）本文的數(shù)據(jù)集
（第一行）不同方法的PR曲線(精度召回precision-recall)，
（第二行）使用自適應(yīng)閾值的平均精度、召回和F-測(cè)量(precision, recall and F-measure)，
（第三行）平均絕對(duì)誤差(Mean Absolute Error)

貢獻(xiàn)
１、model：提出新的顯著性模型MDF（Multiscale Deep Features）
２、framework：進(jìn)一步將顯著性模型（ours）、空間一致性模型、多層次圖像分割相結(jié)合，形成完整的顯著性框架
３、datasets：HKU-IS

HKU-IS數(shù)據(jù)集的imgs和gt

TIP 2016

概述

提出思路：用CNN提的多尺度特征　學(xué)習(xí)出高質(zhì)量的顯著性模型。已成功應(yīng)用于視覺(jué)識(shí)別任務(wù)中
提出網(wǎng)絡(luò)結(jié)構(gòu)：
在CNNs的頂層加入全連接層，用于3種不同尺度的特征提取。
Deep Contrast Feature（深度對(duì)比度特征），位于網(wǎng)絡(luò)的倒數(shù)第二層，是一個(gè)用于顯著性檢測(cè)的有判別力的高級(jí)特征向量
將人工設(shè)計(jì)的底層特征與Deep Contrast Feature結(jié)合，得到更健壯的特征。
發(fā)布了視覺(jué)顯著性的數(shù)據(jù)集：4447圖像及其像素顯著性注釋

１、介紹

貢獻(xiàn)：
１、提出新的視覺(jué)顯著性模型，將（從嵌套窗口中提取的）多尺度CNN特征與（有多個(gè)全連接層的）深度網(wǎng)絡(luò)相結(jié)合。
用帶標(biāo)記的一組顯著圖中的多個(gè)區(qū)域來(lái)訓(xùn)練用于顯著性估計(jì)的深層網(wǎng)絡(luò)。（ＴＯＤＯ:？？？）
網(wǎng)絡(luò)的倒數(shù)第二層DCF，可看作是一個(gè)用于顯著性檢測(cè)的有區(qū)分度的高級(jí)特征向量，當(dāng)與手工低級(jí)特征結(jié)合時(shí)，可進(jìn)一步提高顯著性性能。
２、通過(guò)進(jìn)一步將（圖像的多級(jí)分割上的）聚集顯著性圖與（基于全連接CRF的）空間一致性模型進(jìn)行結(jié)合，開發(fā)了一個(gè)完整的顯著性框架。
（conditional random field (CRF) framework，條件隨機(jī)場(chǎng)）

Fig. 1　基于人工設(shè)計(jì)底層特征的顯著性模型是脆弱的

(a)source image,
(b)ground truth,
(c)our saliency map,
(d-h)saliency maps of other five latest methods, including SF[13], DRFI[14], HS[15], RC[16], and MR[17].

ＴＯＤＯ：其他相關(guān)方法的簡(jiǎn)要介紹
。。。

３、具有深度特征的顯著性推理（saliency inference with deep features）

Fig. 2　網(wǎng)絡(luò)模型結(jié)構(gòu)

如圖，模型由1個(gè)輸出層和（3個(gè)CNNs上的）2個(gè)全連接的隱藏層組成。（ＴＯＤＯ：？？？）

具體流程：
將1張輸入圖像分解為一組非重疊區(qū)域（nonoverlapping regions），每個(gè)region內(nèi)部具有幾乎一致的顯著值。（ＴＯＤＯ：region size一致嗎？？？）
3個(gè)CNNs負(fù)責(zé)多尺度特征提取。
每個(gè)region都從三個(gè)嵌套且逐漸增大的矩形窗口（該region的邊界框、其近鄰regions的邊界框和整個(gè)圖像）中自動(dòng)提取特征。（ＴＯＤＯ：近鄰regions的邊界框？？？）
CNNs中提取的特征被輸入到2個(gè)全連接層，每層有300個(gè)神經(jīng)元。
全連接層的輸出送到輸出層，輸出層進(jìn)行回歸，得到該region的顯著概率。
在生成（輸入圖像的）顯著圖時(shí)，我們?cè)趫D像的每個(gè)region上逐個(gè)運(yùn)行訓(xùn)練好的顯著性模型，以生成該region的顯著性得分。該顯著性得分進(jìn)一步轉(zhuǎn)移到該區(qū)域內(nèi)的所有像素（pixels）。
當(dāng)?shù)箶?shù)第二層的輸出作為深度對(duì)比度特征（DCF）時(shí)，可以將其與手工底層特征concatenate串聯(lián)起來(lái)，進(jìn)一步提高顯著性檢測(cè)的性能。

a)多尺度特征提取

用預(yù)訓(xùn)練后細(xì)調(diào)的CNNs比手工特征好得多。

用所有ImageNet訓(xùn)練圖像中相同位置的平均像素值填充區(qū)域外但仍在其邊界框內(nèi)的像素點(diǎn)。這些填充像素值在平均減法后變?yōu)榱悖瑢?duì)后續(xù)結(jié)果沒(méi)有任何影響。
將邊界框中的區(qū)域扭曲為227x227像素的正方形RGB圖像區(qū)域，并饋送給CNNs，并通過(guò)CNNs向前傳播平均減去后的輸入圖像區(qū)域來(lái)獲得4096維特征向量，命名為特征A。特征A不包括所考慮的圖像區(qū)域周圍的任何信息，因此不能判斷該區(qū)域相對(duì)于其鄰域以及圖像的其余部分是否顯著。
為了包含所考慮區(qū)域周圍區(qū)域的特征以理解其鄰域中的對(duì)比度，我們從矩形鄰域，即所考慮區(qū)域及其相鄰區(qū)域的邊界框。此邊界框中的所有像素值保持不變。同樣，這個(gè)矩形的鄰域在被扭曲后被傳送到了CNN。我們把CNN特征的結(jié)果向量稱為特征B。
在顯著性計(jì)算中，一個(gè)非常重要的線索是區(qū)域相對(duì)于圖像其余部分的（顏色和內(nèi)容）唯一性程度。
而圖像區(qū)域在整個(gè)圖像中的位置是另一個(gè)重要的提示。因此，我們使用CNN從整個(gè)矩形圖像中提取特征C。
稱之為S-3CNN。

b)網(wǎng)絡(luò)訓(xùn)練

S-3CNN包含了12288個(gè)深部特征的三部分。在S-3CNN的基礎(chǔ)上，我們訓(xùn)練了一個(gè)具有1個(gè)輸出層和2個(gè)全連接的隱層的網(wǎng)絡(luò)。該網(wǎng)絡(luò)起到回歸器的作用，從圖像區(qū)域提取的多尺度CNN特征中推斷出每個(gè)圖像區(qū)域的顯著性得分。具有全連接隱層的網(wǎng)絡(luò)可達(dá)到非常高的回歸精度。

將串聯(lián)的多尺度CNN特征輸入到該網(wǎng)絡(luò)中，該網(wǎng)絡(luò)使用一組訓(xùn)練圖像及其標(biāo)記的顯著性圖進(jìn)行訓(xùn)練，這些圖像具有逐像素的二值顯著性標(biāo)記。在訓(xùn)練之前，首先將每個(gè)訓(xùn)練圖像分解為一組區(qū)域。利用逐像素顯著性標(biāo)簽進(jìn)一步估計(jì)每個(gè)圖像區(qū)域的顯著性標(biāo)簽。在訓(xùn)練階段，僅選取具有相同顯著性標(biāo)簽的70%或70%以上像素的區(qū)域作為訓(xùn)練樣本，并將其顯著性得分分別設(shè)置為1或0。在訓(xùn)練過(guò)程中，輸出層和完全連接的隱藏層一起最小化所有訓(xùn)練圖像中所有區(qū)域累積的最小二乘預(yù)測(cè)誤差。

c)Deep Contrast Feature（DCF）

網(wǎng)絡(luò)倒數(shù)第二層的輸出　>　DCF

４、完整算法

a)多級(jí)圖像分解

在我們的早期版本[1]中，為了生成更精確的分割，區(qū)域合并通過(guò)兩個(gè)相鄰區(qū)域共享的邊界像素處的邊緣強(qiáng)度來(lái)確定優(yōu)先級(jí)，并且邊緣強(qiáng)度由[45]中提出的超等高線圖（UCM）確定。2004.
然而，計(jì)算UCM是一個(gè)耗時(shí)的過(guò)程，但并不能明顯提高最終顯著圖的精度。
在本文中，我們簡(jiǎn)單地應(yīng)用了文獻(xiàn)[44]中基于圖的分割算法，使用不同的參數(shù)設(shè)置來(lái)生成15級(jí)的分割。最細(xì)層和最粗層的目標(biāo)區(qū)域的個(gè)數(shù)分別控制在300和20左右，中間層的區(qū)域數(shù)遵循幾何級(jí)數(shù)。
我們訓(xùn)練了一個(gè)統(tǒng)一的模型，基于這15個(gè)分割層次上的所有區(qū)域，而不是針對(duì)每個(gè)分割層次的單一模型。

b)混合深度－手工特征，HDHF: Hybrid Deep and Handcrafted Feature

如第III-C節(jié)所述，我們訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的初始顯著圖可以被視為特征DCF的回歸結(jié)果。
如圖3所示，將手工特征與DCF的結(jié)合，始終優(yōu)于MDF和LF

Fig. 3　顯著圖（LF：手工特征，MDF：多尺度深度特征，HDHF：手工特征＋多尺度深度特征）

MDF：multiscale deep feature，第四行：
（圖a和b）DCF特別擅長(zhǎng)于在低對(duì)比度、復(fù)雜背景的圖像中檢測(cè)顯著區(qū)域，只要與它們周圍的鄰域存在語(yǔ)義區(qū)別。
DCF是從多尺度CNN特征(MDF：multiscale deep feature)中衍生出來(lái)的，這些特征主要集中在圖像的語(yǔ)義上，因此DCF在低層屬性中可能對(duì)比度信息不夠。

如圖c所示，當(dāng)區(qū)域由于低級(jí)別屬性（例如顏色和紋理）中的對(duì)比而顯著時(shí)，DCF往往比基于手工制作的低級(jí)別特征的那些方法執(zhí)行得更差。

許多例子表明，深度特征和手工低級(jí)特征都不足以生成精確的顯著性圖，我們提出了一組小的互補(bǔ)的低層特征來(lái)補(bǔ)償DCF。HDHF

結(jié)論：HDHF始終優(yōu)于MDF和LF。

TABLE I　手工特征的詳細(xì)描述（R表示一個(gè)圖像段，B表示偽背景區(qū)域，I表示整個(gè)圖像）

對(duì)每一層分割中的每個(gè)區(qū)域R，提取一個(gè)包含對(duì)比度特征（左）和分割屬性（右）的39維低層特征描述子。
將我們提出的300維DCF和這個(gè)手工低層特征描述符的l2范數(shù)標(biāo)準(zhǔn)化，然后將它們連接成一個(gè)339維的混合特征向量，稱為混合深度和手工構(gòu)建特征（HDHF）。

Fig. 4　有無(wú)CRF顯著性檢測(cè)結(jié)果的比較

c)基于HDHF的顯著性回歸訓(xùn)練

隨機(jī)森林回歸

d)顯著圖融合

聚集顯著性圖A的公式定義如下：

注意顯著性融合有很多選擇。例如，文獻(xiàn)[46]中采用了條件隨機(jī)場(chǎng)（CRF）框架來(lái)聚合來(lái)自不同方法的多個(gè)顯著性圖。然而，我們已經(jīng)發(fā)現(xiàn)，在我們的上下文中，所有顯著性圖的線性組合已經(jīng)能夠很好地滿足我們的目的，并且能夠產(chǎn)生聚合圖，其質(zhì)量與從更復(fù)雜的技術(shù)獲得的質(zhì)量相當(dāng)。

e)基于CRF的空間相干性研究

由于圖像分割的不完全性以及我們的模型將顯著性分?jǐn)?shù)分配給各個(gè)片段，噪聲分?jǐn)?shù)不可避免地出現(xiàn)在上述聚集的顯著性圖中。
為了增強(qiáng)空間一致性，我們?cè)赱47]中使用完全連接的CRF模型進(jìn)行像素顯著性細(xì)化。該模型解決了一個(gè)二值化的像素標(biāo)注問(wèn)題，采用了如下能量函數(shù)：

[47]CRF
最小化能量函數(shù)。
能量最小化是基于對(duì)CRF分布的平均場(chǎng)近似，可以利用高維濾波來(lái)加速計(jì)算。在本文中，我們使用[47]的公開實(shí)現(xiàn)來(lái)最小化能量，并且在300*400像素的圖像上花費(fèi)不到0.5秒的時(shí)間。在能量最小化的最后，我們利用每個(gè)像素的后驗(yàn)概率來(lái)生成一個(gè)顯著性圖。請(qǐng)注意，除了顏色以外的特征可以在第一項(xiàng)中使用，以提高性能（例如，本文的早期版本[1]中使用了輪廓信息）。
目前，我們是為了提高效率而只使用顏色，并且發(fā)現(xiàn)顏色對(duì)于增強(qiáng)空間一致性和去除聚集顯著性圖中由于分割不完善而產(chǎn)生的噪聲顯著性分?jǐn)?shù)是足夠的。結(jié)果是一個(gè)增強(qiáng)的顯著性地圖。
如圖4所示，我們的初始顯著性圖通常看起來(lái)支離破碎，顯著對(duì)象的邊界沒(méi)有得到很好的保留。
CRF模型的應(yīng)用不僅可以得到更為平滑的像素精度的結(jié)果，而且可以更好地保留顯著物體的邊界。CRF模型有效性的定量研究見(jiàn)第VI-D3節(jié)。

５、數(shù)據(jù)集

圖像至少滿足以下標(biāo)準(zhǔn)之一：
1）存在多個(gè)斷開連接的顯著對(duì)象；
2）突出物體中的接觸至少一個(gè)圖像邊界；
3）背景復(fù)雜；
4）顏色對(duì)比度（任何顯著物體的顏色直方圖與其周圍區(qū)域之間的最小卡方距離）小于0.7。
標(biāo)簽一致性定義為三個(gè)人標(biāo)記為顯著的像素?cái)?shù)與其中至少一個(gè)人標(biāo)記為顯著的像素?cái)?shù)之間的比率。其公式如下：

排除C<0.9者，其余4447例。對(duì)于每個(gè)通過(guò)標(biāo)簽一致性測(cè)試的圖像，我們從三個(gè)人的注釋中生成一個(gè)地面真實(shí)顯著性圖。地面真值顯著性圖中的像素顯著性標(biāo)簽G={gx | gx2{0，1}}，根據(jù)三個(gè)人中的多數(shù)標(biāo)簽確定，如下所示：，

６、實(shí)驗(yàn)結(jié)果

a)數(shù)據(jù)集

public benchmarks for salient object detection:

b)實(shí)現(xiàn)細(xì)節(jié)

c)評(píng)價(jià)標(biāo)準(zhǔn)

1. standard precision-recall (PR) and receiver operating characteristic (ROC???) curves評(píng)估性能
  通過(guò)一個(gè)閾值，將連續(xù)的顯著圖轉(zhuǎn)換為二值掩碼。再將二值掩碼與ground truth比較，得到一對(duì)精度和召回率。閾值從0到1取值，即可繪制出PR曲線。
  PR曲線 > 真正例率（TPR）-假正例率（FPR）> ROC曲線 > AUC曲線（ROC曲線下面積，越大越好）
1. F值(F-Measure)：Precision和Recall加權(quán)調(diào)和平均：

其中， $\beta^2$ 為0.3，以保證高精度[5]。

實(shí)驗(yàn)結(jié)果展示了所有精確度-召回率對(duì)中的最大F值，還展示了使用[5]提出的圖像相關(guān)的自適應(yīng)閾值對(duì)每個(gè)顯著性圖進(jìn)行二值化后的性能。
其中，自適應(yīng)閾值定義為圖像顯著值均值的兩倍：

其中，W、H為顯著圖S的寬、高，S(x, y)為像素點(diǎn)(x, y)的顯著值。
實(shí)驗(yàn)結(jié)果展示了使用自適應(yīng)閾值在不同數(shù)據(jù)集上的平均精度、召回率和F值。
1. PR曲線的局限性：未考慮真負(fù)例（TN）的像素。因此采用平均絕對(duì)誤差（MAE）作為另一個(gè)評(píng)價(jià)標(biāo)準(zhǔn)。
  二值ground truth（G）和顯著圖（S）之間像素點(diǎn)的絕對(duì)值之差的均值：
  
  MAE度量了（ground truth與估計(jì)的顯著圖之間的）數(shù)值距離，對(duì)于評(píng)價(jià)顯著性模型更具意義。

d)消融實(shí)驗(yàn)

e)當(dāng)下CNN結(jié)構(gòu)評(píng)價(jià)

f)HDHF的性能

g)與現(xiàn)有技術(shù)的比較

h)效率

Fig. 5　

Fig. 6　

Fig. 7　

Fig. 8　

Fig. 9　

Fig. 10　

Fig. 11　

TABLE II　

TABLE III　

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

顯著性目標(biāo)檢測(cè)(Visual Saliency Detection)-基于傳統(tǒng)CNNs

顯著性目標(biāo)檢測(cè)(Visual Saliency Detection)-基于傳統(tǒng)CNNs

CVPR 2015（Multiscale Deep Features，MDF）

TIP 2016

概述

１、介紹