99re2在线精品,人妻巨乳av一区二区

統(tǒng)一局部和全局特征進(jìn)行圖像搜索的深層(網(wǎng)絡(luò))

? 本文使用機(jī)翻，稍加潤色，主要用于個人理解，不恰當(dāng)之處請看客見諒。

摘要

圖像檢索是在圖像數(shù)據(jù)庫中搜索與查詢圖像相似的項(xiàng)的問題。為了解決這一問題，研究了兩種主要的圖像表示方法：全局圖像特征和局部圖像特征。在這項(xiàng)工作中，我們的主要貢獻(xiàn)是將全局和局部特征統(tǒng)一到一個單一的深度模型中，從而實(shí)現(xiàn)精確的檢索和高效的特征提取。我們將新模型稱為DELG，代表了深層網(wǎng)絡(luò)的本地和全局特性。我們利用最近特征學(xué)習(xí)工作的經(jīng)驗(yàn)教訓(xùn)，提出了一個將全局特征的廣義均值池和局部特征的注意選擇相結(jié)合的模型。通過仔細(xì)平衡兩部分之間的梯度流，整個網(wǎng)絡(luò)可以端到端地學(xué)習(xí)——只需要圖像級別的標(biāo)簽。我們還引入了一種基于自動編碼器的局部特征降維技術(shù)，并將其集成到模型中，提高了訓(xùn)練效率和匹配性能。在重新修改的牛津和巴黎數(shù)據(jù)集上的實(shí)驗(yàn)表明，我們共同學(xué)習(xí)的基于ResNet-50的特征優(yōu)于使用深層全局特征（大多數(shù)具有更重量級的主干）和那些進(jìn)一步使用局部特征重新排序的結(jié)果。代碼和模型將被發(fā)布。

關(guān)鍵詞：deep features，image retrieval，unified model，深度特征，圖像檢索，統(tǒng)一模型

1. 介紹

大規(guī)模圖像檢索是計算機(jī)視覺中一個長期存在的問題，甚至在深度學(xué)習(xí)革命之前，計算機(jī)視覺就已經(jīng)取得了很好的結(jié)果。這個問題的核心是用來描述圖像及其相似性的表示。

為了獲得高的圖像檢索性能，需要兩種圖像表示方法：全局特征和局部特征。全局特征，也稱為“全局描述符”或“嵌入”，總結(jié)圖像的內(nèi)容，通常導(dǎo)致緊湊的表示；同時有關(guān)視覺元素的空間排列的信息丟失。另一方面，局部特征包括關(guān)于特定圖像區(qū)域的描述符和幾何信息；它們對于匹配描述剛性對象的圖像特別有用。一般來說，全局特征的召回率較高，而局部特征的準(zhǔn)確率較高。全局特征可以在局部特征無法找到對應(yīng)關(guān)系的非常不同的姿勢中學(xué)習(xí)相似性；相反，基于局部特征的幾何驗(yàn)證提供的分?jǐn)?shù)通常能很好地反映圖像相似性，比全局特征距離更可靠。一個常見的檢索系統(tǒng)設(shè)置是首先按全局特征進(jìn)行搜索，然后使用局部特征匹配對頂級數(shù)據(jù)庫圖像進(jìn)行重新排序，以獲得兩個特征字的最佳結(jié)果。這種混合方法得到普及的一個突出應(yīng)用是視覺定位。

如今，大多數(shù)依賴于這兩種特性的系統(tǒng)都需要使用不同的模型分別提取每種特性。這是不可取的，因?yàn)樗赡軐?dǎo)致高內(nèi)存使用率和增加延遲，例如，如果兩個模型都需要使用專用和有限的硬件（如gpu）運(yùn)行。此外，在許多情況下，對兩者執(zhí)行類似類型的計算，導(dǎo)致冗余處理和不必要的復(fù)雜性。

圖1. 我們提出的**DELG(Deep Local and Global features) **模型（左）聯(lián)合提取了深層的局部和全局特征。全局特征可用于檢索系統(tǒng)的第一階段，以便有效地選擇最相似的圖像（底部）。然后，可以使用局部特征對上面的結(jié)果重新排序，從而提高檢索結(jié)果的精度（右上角）。統(tǒng)一模型利用卷積神經(jīng)網(wǎng)絡(luò)誘導(dǎo)的層次圖像表示來學(xué)習(xí)局部和全局表示，結(jié)合全局特征池和注意局部特征檢測的最新進(jìn)展。

貢獻(xiàn):（1）我們的第一個貢獻(xiàn)是使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）表示局部和全局特征的統(tǒng)一模型，稱為DELG（深層局部和全局特征），如圖1所示。這允許通過提取圖像的全局特征、檢測到的關(guān)鍵點(diǎn)和單個模型中的局部描述符進(jìn)行有效的推斷。我們的模型是通過利用CNNs中出現(xiàn)的分層圖像表示來實(shí)現(xiàn)的，我們將其與廣義均值池和注意局部特征檢測相結(jié)合。（2）其次，我們采用卷積式自動編碼模塊，可以成功地學(xué)習(xí)低維的局部描述子。這可以很容易地集成到統(tǒng)一的模型中，并且避免了通常使用的后處理學(xué)習(xí)步驟（如PCA）的需要。（3）最后，我們設(shè)計了一個程序，使得只使用圖像級監(jiān)控的端到端的訓(xùn)練模型。這需要在反向傳播過程中仔細(xì)控制全局和本地網(wǎng)絡(luò)頭之間的梯度流，以避免破壞所需的表示。通過系統(tǒng)的實(shí)驗(yàn)，我們證明我們的聯(lián)合模型在僅使用全局特征進(jìn)行檢索或使用局部特征對這些結(jié)果重新排序時，在重新訪問的ROxford和RParis數(shù)據(jù)集上取得了最新的性能。

2. 相關(guān)工作

我們回顧了局部和全局特征的相關(guān)工作，主要集中在與圖像檢索相關(guān)的方法上。

局部特征：手工（特征）的技術(shù)，如SIFT和SURF已經(jīng)被廣泛用于檢索問題。早期的系統(tǒng)[32,28,39]的工作方式是根據(jù)一個包含局部描述符的大型數(shù)據(jù)庫搜索查詢局部描述符，然后用足夠數(shù)量的對應(yīng)關(guān)系對數(shù)據(jù)庫圖像進(jìn)行幾何驗(yàn)證。隨后，根據(jù)通過局部描述符聚類獲得的視覺單詞，結(jié)合TF-IDF評分，采用Bag-of-Words[52]和相關(guān)方法[42,43,24]。與全局特征相比，局部特征用于檢索的關(guān)鍵優(yōu)勢在于能夠執(zhí)行空間匹配，通常使用RANSAC。這已經(jīng)被廣泛使用，因?yàn)樗〉昧丝煽亢涂山忉尩姆謹(jǐn)?shù)。最近，一些基于深度學(xué)習(xí)的局部特征被提出。與我們工作最相關(guān)的是DELF；我們提出的統(tǒng)一模型包含了DELF的注意力模塊，但是除了支持全局特征提取之外，還有一個更簡單的訓(xùn)練流程。

全局特征：全局特征在提供緊湊表示的高圖像檢索性能方面表現(xiàn)突出。在深度學(xué)習(xí)在計算機(jī)視覺中流行之前，它們主要是通過聚集手工制作的局部描述符來開發(fā)的。如今，大多數(shù)高性能的全局特征都是基于深層卷積神經(jīng)網(wǎng)絡(luò)，這些神經(jīng)網(wǎng)絡(luò)通過基于ranking-loss或classification loss進(jìn)行訓(xùn)練。我們的工作利用了最近在全局特性設(shè)計方面的經(jīng)驗(yàn)教訓(xùn)，通過采用GeM池化和ArcFace loss。這使得全局特征檢索性能比以往的方法有了很大的提高，而基于同一模型的局部特征的幾何重排序進(jìn)一步提高了全局特征檢索性能。

聯(lián)合本地和全局CNN特征：以前的工作考慮卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合提取全局和局部圖像特征。對于室內(nèi)定位應(yīng)用程序，Taira[53]等人使用預(yù)先訓(xùn)練的基于VGG的NetVLAD模型提取全局特征用于候選姿態(tài)檢索，然后使用來自同一網(wǎng)絡(luò)的特征映射進(jìn)行密集的局部特征匹配。Simeoni[51]等人的DSM利用預(yù)先訓(xùn)練的全局特征模型，提出使用MSER檢測深度激活映射中的關(guān)鍵點(diǎn)；激活通道被解釋為視覺詞義，可用于提出一對圖像之間的暫定對應(yīng)關(guān)系。我們的工作與[53,51]有很大的不同，因?yàn)樗鼈冎粚?jīng)過預(yù)訓(xùn)練的全局特征模型進(jìn)行后期處理以生成局部特征，而我們則聯(lián)合訓(xùn)練局部和全局特征。Sarlin等人[48]提取預(yù)先訓(xùn)練好的局部SuperPoint[12]和全局NetVLAD[1]功能整合到單個模型中，以視覺定位應(yīng)用為目標(biāo)。相比之下，我們的模型是端到端的圖像檢索訓(xùn)練，并且不限于模擬單獨(dú)的預(yù)先訓(xùn)練的局部和全局模型。據(jù)我們所知，我們是第一個研究學(xué)習(xí)一個既能產(chǎn)生局部圖像特征又能產(chǎn)生全局圖像特征的非分離模型。

圖像檢索的降維方法：PCA和whitening（白化）技術(shù)廣泛應(yīng)用于圖像檢索中局部和全局特征的降維。正如在[23]中所討論的那樣，白化權(quán)重同時作用于局部特征，這通常有利于檢索應(yīng)用。Mukundan等人[35]進(jìn)一步引入一個收縮參數(shù)，該參數(shù)控制應(yīng)用白花的程度。如果有匹配對或類別標(biāo)簽形式的監(jiān)督，可以使用更復(fù)雜的方法。最近，Gordo等人[16] 提出用一個完全連通的層來代替PCA/白化，該層與全局描述符一起學(xué)習(xí)。

在本文中，我們的目標(biāo)是構(gòu)建一個可以端到端學(xué)習(xí)的系統(tǒng)，只使用圖像級標(biāo)簽，不需要使訓(xùn)練更復(fù)雜的后處理階段。此外，由于我們從常見CNN主干網(wǎng)的特征圖中提取局部特征，它們往往是高維的，不適用于大規(guī)模問題。所有上述方法要么需要一個單獨(dú)的后處理步驟來降低特征的維數(shù)，要么需要在本地補(bǔ)丁的級別上進(jìn)行監(jiān)督，導(dǎo)致它們不適合我們的需要。因此，我們在我們的模型中引入了一個自動編碼器，它可以與網(wǎng)絡(luò)的其他部分共同有效地學(xué)習(xí)。它不需要額外的監(jiān)督，因?yàn)樗梢杂?xùn)練與重建損失。

3. DELG

3.1 設(shè)計注意事項(xiàng)

為了獲得最佳性能，圖像檢索需要對用戶可能感興趣的對象類型進(jìn)行語義理解，以便系統(tǒng)能夠區(qū)分相關(guān)對象與雜波/背景。因此，局部和全局特征都應(yīng)該只關(guān)注圖像中最具鑒別能力的信息。然而，在這兩種特征模式的期望行為方面存在著實(shí)質(zhì)性的差異，這對共同學(xué)習(xí)它們構(gòu)成了相當(dāng)大的挑戰(zhàn)。

對于描繪同一感興趣對象的圖像，全局特征應(yīng)該相似，否則應(yīng)該不同。這需要對視點(diǎn)和光度變換保持不變的高級抽象表示。另一方面，局部特征需要對基于特定圖像區(qū)域的表示進(jìn)行編碼；特別是，關(guān)鍵點(diǎn)檢測器對于視點(diǎn)應(yīng)該是等價的，并且關(guān)鍵點(diǎn)描述符需要對局部視覺信息進(jìn)行編碼。這對于在圖像檢索系統(tǒng)中廣泛應(yīng)用的查詢圖像和數(shù)據(jù)庫圖像之間進(jìn)行幾何一致性檢查至關(guān)重要。

此外，我們的目標(biāo)是設(shè)計一個可以端到端學(xué)習(xí)的模型，具有局部和全局特性，而不需要額外的學(xué)習(xí)階段。這簡化了訓(xùn)練流程，允許更快的迭代和更廣泛的適用性。相比之下，以往的特征學(xué)習(xí)工作通常需要幾個學(xué)習(xí)階段：專注的局部特征深度學(xué)習(xí)[38]需要3個學(xué)習(xí)階段（微調(diào)、注意力、主成分分析）；全局特征深度通常需要兩個階段，例如區(qū)域建議和Siamese訓(xùn)練[17]，或Siamese訓(xùn)練和監(jiān)督白化[45]，或者ranking loss 訓(xùn)練和主成分分析[46]。

3.2 模型

我們設(shè)計DELG模型，如圖1所示，以滿足上述要求。我們建議利用CNNs[60]中的層次表示來表示要學(xué)習(xí)的不同類型的特征。雖然全局特征可以與表示高級線索的深層關(guān)聯(lián)，但局部特征更適合于編碼局部信息的中間層。

給定一幅圖像，我們應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)主干來獲得兩個特征映射： $S\in R^(H_S \times W_S \times C_S)$ 和 $D\in R^(H_D \times W_D \times C_D)$ ，分別代表淺激活和深激活，式中H，W，C對應(yīng)于每種情況下的高度、寬度和通道數(shù)量。對于通常的卷積網(wǎng)絡(luò)， $H_D <= H_S$ ， $W_D <= W_S$ ， $C_D >=C_S$ ；較深的層具有空間上較小的映射，具有較大數(shù)量的通道。設(shè) $s_{h,w}\in R^{C_S}$ 和 $d_{h,w} ∈R^{C_D}$ 表示這些映射中h，w位置的特征。對于一般的網(wǎng)絡(luò)設(shè)計，這些特征是非負(fù)的，因?yàn)樗鼈兪窃赗eLU非線性之后獲得的，我們的方法就是這樣。