統(tǒng)一局部和全局特征進(jìn)行圖像搜索的深層(網(wǎng)絡(luò))
? 本文使用機(jī)翻,稍加潤色,主要用于個人理解,不恰當(dāng)之處請看客見諒。
摘要
圖像檢索是在圖像數(shù)據(jù)庫中搜索與查詢圖像相似的項(xiàng)的問題。為了解決這一問題,研究了兩種主要的圖像表示方法:全局圖像特征和局部圖像特征。在這項(xiàng)工作中,我們的主要貢獻(xiàn)是將全局和局部特征統(tǒng)一到一個單一的深度模型中,從而實(shí)現(xiàn)精確的檢索和高效的特征提取。我們將新模型稱為DELG,代表了深層網(wǎng)絡(luò)的本地和全局特性。我們利用最近特征學(xué)習(xí)工作的經(jīng)驗(yàn)教訓(xùn),提出了一個將全局特征的廣義均值池和局部特征的注意選擇相結(jié)合的模型。通過仔細(xì)平衡兩部分之間的梯度流,整個網(wǎng)絡(luò)可以端到端地學(xué)習(xí)——只需要圖像級別的標(biāo)簽。我們還引入了一種基于自動編碼器的局部特征降維技術(shù),并將其集成到模型中,提高了訓(xùn)練效率和匹配性能。在重新修改的牛津和巴黎數(shù)據(jù)集上的實(shí)驗(yàn)表明,我們共同學(xué)習(xí)的基于ResNet-50的特征優(yōu)于使用深層全局特征(大多數(shù)具有更重量級的主干)和那些進(jìn)一步使用局部特征重新排序的結(jié)果。代碼和模型將被發(fā)布。
關(guān)鍵詞:deep features,image retrieval,unified model,深度特征,圖像檢索,統(tǒng)一模型
1. 介紹
大規(guī)模圖像檢索是計算機(jī)視覺中一個長期存在的問題,甚至在深度學(xué)習(xí)革命之前,計算機(jī)視覺就已經(jīng)取得了很好的結(jié)果。這個問題的核心是用來 描述 圖像及其相似性 的表示。
為了獲得高的圖像檢索性能,需要兩種圖像表示方法:全局特征和局部特征。全局特征,也稱為“全局描述符”或“嵌入”,總結(jié)圖像的內(nèi)容,通常導(dǎo)致緊湊的表示;同時有關(guān)視覺元素的空間排列的信息丟失。另一方面,局部特征包括關(guān)于特定圖像區(qū)域的描述符和幾何信息;它們對于匹配描述剛性對象的圖像特別有用。一般來說,全局特征的召回率較高,而局部特征的準(zhǔn)確率較高。全局特征可以在局部特征無法找到對應(yīng)關(guān)系的非常不同的姿勢中學(xué)習(xí)相似性;相反,基于局部特征的幾何驗(yàn)證提供的分?jǐn)?shù)通常能很好地反映圖像相似性,比全局特征距離更可靠。一個常見的檢索系統(tǒng)設(shè)置是首先按全局特征進(jìn)行搜索,然后使用局部特征匹配對頂級數(shù)據(jù)庫圖像進(jìn)行重新排序,以獲得兩個特征字的最佳結(jié)果。這種混合方法得到普及的一個突出應(yīng)用是視覺定位。
如今,大多數(shù)依賴于這兩種特性的系統(tǒng)都需要使用不同的模型分別提取每種特性。這是不可取的,因?yàn)樗赡軐?dǎo)致高內(nèi)存使用率和增加延遲,例如,如果兩個模型都需要使用專用和有限的硬件(如gpu)運(yùn)行。此外,在許多情況下,對兩者執(zhí)行類似類型的計算,導(dǎo)致冗余處理和不必要的復(fù)雜性。
圖1. 我們提出的**DELG(Deep Local and Global features) **模型(左)聯(lián)合提取了深層的局部和全局特征。全局特征可用于檢索系統(tǒng)的第一階段,以便有效地選擇最相似的圖像(底部)。然后,可以使用局部特征對上面的結(jié)果重新排序,從而提高檢索結(jié)果的精度(右上角)。統(tǒng)一模型利用卷積神經(jīng)網(wǎng)絡(luò)誘導(dǎo)的層次圖像表示來學(xué)習(xí)局部和全局表示,結(jié)合全局特征池和注意局部特征檢測的最新進(jìn)展。
貢獻(xiàn):(1)我們的第一個貢獻(xiàn)是使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)表示局部和全局特征的統(tǒng)一模型,稱為DELG(深層局部和全局特征),如圖1所示。這允許通過提取圖像的全局特征、檢測到的關(guān)鍵點(diǎn)和單個模型中的局部描述符進(jìn)行有效的推斷。我們的模型是通過利用CNNs中出現(xiàn)的分層圖像表示來實(shí)現(xiàn)的,我們將其與廣義均值池和注意局部特征檢測相結(jié)合。(2)其次,我們采用卷積式自動編碼模塊,可以成功地學(xué)習(xí)低維的局部描述子。這可以很容易地集成到統(tǒng)一的模型中,并且避免了通常使用的后處理學(xué)習(xí)步驟(如PCA)的需要。(3)最后,我們設(shè)計了一個程序,使得只使用圖像級監(jiān)控的端到端的訓(xùn)練模型。這需要在反向傳播過程中仔細(xì)控制全局和本地網(wǎng)絡(luò)頭之間的梯度流,以避免破壞所需的表示。通過系統(tǒng)的實(shí)驗(yàn),我們證明我們的聯(lián)合模型在僅使用全局特征進(jìn)行檢索或使用局部特征對這些結(jié)果重新排序時,在重新訪問的ROxford和RParis數(shù)據(jù)集上取得了最新的性能。
2. 相關(guān)工作
我們回顧了局部和全局特征的相關(guān)工作,主要集中在與圖像檢索相關(guān)的方法上。
局部特征:手工(特征)的技術(shù),如SIFT和SURF已經(jīng)被廣泛用于檢索問題。早期的系統(tǒng)[32,28,39]的工作方式是根據(jù)一個包含局部描述符的大型數(shù)據(jù)庫搜索查詢局部描述符,然后用足夠數(shù)量的對應(yīng)關(guān)系對數(shù)據(jù)庫圖像進(jìn)行幾何驗(yàn)證。隨后,根據(jù)通過局部描述符聚類獲得的視覺單詞,結(jié)合TF-IDF評分,采用Bag-of-Words[52]和相關(guān)方法[42,43,24]。與全局特征相比,局部特征用于檢索的關(guān)鍵優(yōu)勢在于能夠執(zhí)行空間匹配,通常使用RANSAC。這已經(jīng)被廣泛使用,因?yàn)樗〉昧丝煽亢涂山忉尩姆謹(jǐn)?shù)。最近,一些基于深度學(xué)習(xí)的局部特征被提出。與我們工作最相關(guān)的是DELF;我們提出的統(tǒng)一模型包含了DELF的注意力模塊,但是除了支持全局特征提取之外,還有一個更簡單的訓(xùn)練流程。
全局特征:全局特征在提供緊湊表示的高圖像檢索性能方面表現(xiàn)突出。在深度學(xué)習(xí)在計算機(jī)視覺中流行之前,它們主要是通過聚集手工制作的局部描述符來開發(fā)的。如今,大多數(shù)高性能的全局特征都是基于深層卷積神經(jīng)網(wǎng)絡(luò),這些神經(jīng)網(wǎng)絡(luò)通過基于ranking-loss或classification loss進(jìn)行訓(xùn)練。我們的工作利用了最近在全局特性設(shè)計方面的經(jīng)驗(yàn)教訓(xùn),通過采用GeM池化和ArcFace loss。這使得全局特征檢索性能比以往的方法有了很大的提高,而基于同一模型的局部特征的幾何重排序進(jìn)一步提高了全局特征檢索性能。
聯(lián)合本地和全局CNN特征:以前的工作考慮卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合提取全局和局部圖像特征。對于室內(nèi)定位應(yīng)用程序,Taira[53]等人使用預(yù)先訓(xùn)練的基于VGG的NetVLAD模型提取全局特征用于候選姿態(tài)檢索,然后使用來自同一網(wǎng)絡(luò)的特征映射進(jìn)行密集的局部特征匹配。Simeoni[51]等人的DSM利用預(yù)先訓(xùn)練的全局特征模型,提出使用MSER檢測深度激活映射中的關(guān)鍵點(diǎn);激活通道被解釋為視覺詞義,可用于提出一對圖像之間的暫定對應(yīng)關(guān)系。我們的工作與[53,51]有很大的不同,因?yàn)樗鼈冎粚?jīng)過預(yù)訓(xùn)練的全局特征模型進(jìn)行后期處理以生成局部特征,而我們則聯(lián)合訓(xùn)練局部和全局特征。Sarlin等人[48]提取預(yù)先訓(xùn)練好的局部SuperPoint[12]和全局NetVLAD[1]功能整合到單個模型中,以視覺定位應(yīng)用為目標(biāo)。相比之下,我們的模型是端到端的圖像檢索訓(xùn)練,并且不限于模擬單獨(dú)的預(yù)先訓(xùn)練的局部和全局模型。據(jù)我們所知,我們是第一個研究 學(xué)習(xí)一個既能產(chǎn)生局部圖像特征又能產(chǎn)生全局圖像特征的非分離模型。
圖像檢索的降維方法:PCA和whitening(白化)技術(shù)廣泛應(yīng)用于圖像檢索中局部和全局特征的降維。正如在[23]中所討論的那樣,白化權(quán)重同時作用于局部特征,這通常有利于檢索應(yīng)用。Mukundan等人[35]進(jìn)一步引入一個收縮參數(shù),該參數(shù)控制應(yīng)用白花的程度。如果有匹配對或類別標(biāo)簽形式的監(jiān)督,可以使用更復(fù)雜的方法。最近,Gordo等人[16] 提出用一個完全連通的層來代替PCA/白化,該層與全局描述符一起學(xué)習(xí)。
在本文中,我們的目標(biāo)是構(gòu)建一個可以端到端學(xué)習(xí)的系統(tǒng),只使用圖像級標(biāo)簽,不需要使訓(xùn)練更復(fù)雜的后處理階段。此外,由于我們從常見CNN主干網(wǎng)的特征圖中提取局部特征,它們往往是高維的,不適用于大規(guī)模問題。所有上述方法要么需要一個單獨(dú)的后處理步驟來降低特征的維數(shù),要么需要在本地補(bǔ)丁的級別上進(jìn)行監(jiān)督,導(dǎo)致它們不適合我們的需要。因此,我們在我們的模型中引入了一個自動編碼器,它可以與網(wǎng)絡(luò)的其他部分共同有效地學(xué)習(xí)。它不需要額外的監(jiān)督,因?yàn)樗梢杂?xùn)練與重建損失。
3. DELG
3.1 設(shè)計注意事項(xiàng)
為了獲得最佳性能,圖像檢索需要對用戶可能感興趣的對象類型進(jìn)行語義理解,以便系統(tǒng)能夠區(qū)分相關(guān)對象與雜波/背景。因此,局部和全局特征都應(yīng)該只關(guān)注圖像中最具鑒別能力的信息。然而,在這兩種特征模式的期望行為方面存在著實(shí)質(zhì)性的差異,這對共同學(xué)習(xí)它們構(gòu)成了相當(dāng)大的挑戰(zhàn)。
對于描繪同一感興趣對象的圖像,全局特征應(yīng)該相似,否則應(yīng)該不同。這需要對視點(diǎn)和光度變換保持不變的高級抽象表示。另一方面,局部特征需要對基于特定圖像區(qū)域的表示進(jìn)行編碼;特別是,關(guān)鍵點(diǎn)檢測器對于視點(diǎn)應(yīng)該是等價的,并且關(guān)鍵點(diǎn)描述符需要對局部視覺信息進(jìn)行編碼。這對于在圖像檢索系統(tǒng)中廣泛應(yīng)用的查詢圖像和數(shù)據(jù)庫圖像之間進(jìn)行幾何一致性檢查至關(guān)重要。
此外,我們的目標(biāo)是設(shè)計一個可以端到端學(xué)習(xí)的模型,具有局部和全局特性,而不需要額外的學(xué)習(xí)階段。這簡化了訓(xùn)練流程,允許更快的迭代和更廣泛的適用性。相比之下,以往的特征學(xué)習(xí)工作通常需要幾個學(xué)習(xí)階段:專注的局部特征深度學(xué)習(xí)[38]需要3個學(xué)習(xí)階段(微調(diào)、注意力、主成分分析);全局特征深度通常需要兩個階段,例如區(qū)域建議和Siamese訓(xùn)練[17],或Siamese訓(xùn)練和監(jiān)督白化[45],或者ranking loss 訓(xùn)練和主成分分析[46]。
3.2 模型
我們設(shè)計DELG模型,如圖1所示,以滿足上述要求。我們建議利用CNNs[60]中的層次表示來表示要學(xué)習(xí)的不同類型的特征。雖然全局特征可以與表示高級線索的深層關(guān)聯(lián),但局部特征更適合于編碼局部信息的中間層。
給定一幅圖像,我們應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)主干來獲得兩個特征映射: 和
,分別代表淺激活和深激活,式中H,W,C對應(yīng)于每種情況下的高度、寬度和通道數(shù)量。對于通常的卷積網(wǎng)絡(luò),
,
,
;較深的層具有空間上較小的映射,具有較大數(shù)量的通道。設(shè)
和
表示這些映射中h,w位置的特征。對于一般的網(wǎng)絡(luò)設(shè)計,這些特征是非負(fù)的,因?yàn)樗鼈兪窃赗eLU非線性之后獲得的,我們的方法就是這樣。
為了聚合深度激活值為全局特征,我們采用了廣義平均池化(GeM)[45],它有效地加權(quán)了每個特征的貢獻(xiàn)。