[論文解讀]R2D2: Reliable and Repeatable Detector and Descriptor

NeurIPS 2019
代碼地址
會(huì)議視頻

abstract

僅僅學(xué)習(xí)可重復(fù)并顯著的特征點(diǎn)不夠,顯著的區(qū)域并不一定是有區(qū)分性的,因此這樣可能損害描述子性能。因此,文中認(rèn)為描述子應(yīng)僅在具有高置信度的區(qū)域?qū)W習(xí)。文中方法在Hpatch和 Aachen Day-Night localization benchmark有較好的表現(xiàn)。

上圖用棋盤圖像顯示了這樣一個(gè)例子:每個(gè)角或色塊都是可重復(fù)的,但由于單元格的重復(fù),無(wú)法進(jìn)行匹配。 在自然圖像中,常見的紋理--樹木的葉子,摩天大樓的窗戶或海浪也都很突出,但很難匹配。

1. Introduction

在這項(xiàng)工作中,我們聲稱檢測(cè)和描述是不可分割的關(guān)系,因?yàn)楹玫年P(guān)鍵點(diǎn)不僅應(yīng)該是可重復(fù)的,而且應(yīng)該是具有區(qū)分度的。 因此,我們將檢測(cè)和描述過程無(wú)縫地聯(lián)合學(xué)習(xí)從而提高描述子的可靠性。本工作從這兩方面得到一個(gè)confidence map并選擇同時(shí)具有可重復(fù)和可區(qū)分的特征點(diǎn),以此來提高matching pipeline性能。



更準(zhǔn)確地說,我們的網(wǎng)絡(luò),如上圖所示,輸出密集的本地描述子(每個(gè)像素一個(gè))以及兩個(gè)相關(guān)的可重復(fù)性和可靠性置信度Maps。 兩張Maps,一個(gè)估計(jì)關(guān)鍵點(diǎn)是可重復(fù)的,另一個(gè)則估計(jì)其描述子是可分別的。 最后,關(guān)鍵點(diǎn)取自這兩張圖響應(yīng)最大化的位置。
為訓(xùn)練關(guān)鍵點(diǎn)檢測(cè)器,我們采用了一種新的無(wú)監(jiān)督損失函數(shù),它鼓勵(lì)了圖像的重復(fù)性、稀疏性以及在圖像的均勻分布。 對(duì)于局部描述子訓(xùn)練,它用listwise ranking loss訓(xùn)練,其利用基于近似平均精度(AP)的度量學(xué)習(xí)最新進(jìn)展,而不是使用標(biāo)準(zhǔn)triplet or contrastive loss。我們學(xué)習(xí)一個(gè)可靠性置信度值,以預(yù)測(cè)哪些像素將具有高AP的描述子--既具有鑒別性,又具有魯棒性,最終可以精確匹配。 我們?cè)趲讉€(gè)基準(zhǔn)上的實(shí)驗(yàn)表明,我們的公式優(yōu)雅地結(jié)合了檢測(cè)器的可重復(fù)性和稀疏性與判別和魯棒描述子。

3. Joint learning reliable and repeatable detectors and descriptors

3.1. Learning repeatability

正如以前的工作[LIFT、SuperPoint]中所觀察到的,關(guān)鍵點(diǎn)的重復(fù)性是一個(gè)無(wú)法通過標(biāo)準(zhǔn)監(jiān)督訓(xùn)練來解決的問題。 事實(shí)上,在這種情況下,使用監(jiān)督訓(xùn)練本質(zhì)上可以認(rèn)為是學(xué)習(xí)一個(gè)現(xiàn)有的檢測(cè)器,而不是發(fā)現(xiàn)更好檢測(cè)器。 因此,我們將可重復(fù)性(repeatability)視為一項(xiàng)自我監(jiān)督的任務(wù),并對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使其S中局部最大值位置是自然圖像變換的協(xié)變量,如視點(diǎn)或光照變化。

現(xiàn)在我們有兩個(gè)repeatability map -- S,分別從i,j圖片得到。為了得到具有重復(fù)性的特征點(diǎn),兩個(gè)圖片相同位置應(yīng)當(dāng)具有相同值。



P就是patch。但是這個(gè)公式有個(gè)問題,直接上S相同為一個(gè)常熟(eg 0)就直接最小化了,為此補(bǔ)上一個(gè)函數(shù),使得p的值是有差異的:



因此最后的公式是:

3.2. Learning reliability

下面是計(jì)算AP的Loss,但是特別奇怪,反復(fù)看了幾遍都沒看懂這里Patch是從哪里來的,之前似乎沒有這個(gè)概念,而且又是密集提取的descriptor,不太可能有patch。如果說有patch,那就是一個(gè)patch里所有的des加和?不是特別清楚,不過大體意思就是:
給定1 batch 正確圖像對(duì)pair,使用卷積神經(jīng)網(wǎng)絡(luò)計(jì)算它們的描述子。然后從batch的所有patch描述子之間的距離計(jì)算出歐氏矩陣。 沒給計(jì)算AP的公式,但說明了從【Local descriptors optimized for
average precision】論文里來的。


但是僅僅有AP是不夠的,這個(gè)就是描述子的精度,還需要另外一項(xiàng)就是可靠性:



這個(gè)倒是好理解,R就是reliability map的輸出,k是一個(gè)超參數(shù)--希望設(shè)置成AP的最小值。假設(shè)R要么0,要么1,最小化這個(gè)函數(shù)就是當(dāng)k>ap時(shí)候R是0。這樣相似的des在R map里就是0,也就達(dá)到了可區(qū)分性的目的。

最后總體來講,結(jié)果挺好的,就是論文有點(diǎn)簡(jiǎn)略,訓(xùn)練過程那里越寫越迷,不過好在有代碼,而且代碼本身很清晰。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容