Beyond Fixed Grid: Learning Geometric Image Representation with a Deformable Grid

在現(xiàn)代計(jì)算機(jī)視覺(jué)中,圖像通常表示為具有一定步幅的固定均勻網(wǎng)格,并通過(guò)深層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理。我們認(rèn)為將網(wǎng)格變形以更好地與高頻圖像內(nèi)容對(duì)齊是一種更有效的策略。 我們介紹了可變形網(wǎng)格(DefGrid),這是一種可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模塊,可預(yù)測(cè)二維三角形網(wǎng)格的頂點(diǎn)集或位置,以使變形網(wǎng)格的邊緣與圖像邊界對(duì)齊。
我們?cè)诟鞣N用例中展示了DefGrid,即通過(guò)將其作為模塊插入各種處理級(jí)別。 我們將DefGrid用作端到端可學(xué)習(xí)的幾何降采樣層,該層取代了標(biāo)準(zhǔn)池化方法,可在將圖像饋入深層CNN時(shí)降低特征分辨率。 與在統(tǒng)一網(wǎng)格上使用CNN進(jìn)行語(yǔ)義分割任務(wù)相比,我們?cè)谙嗤木W(wǎng)格分辨率下顯示出顯著改善的結(jié)果。 我們還在輸出層使用DefGrid來(lái)完成對(duì)象蒙版注釋的任務(wù),并表明在我們預(yù)測(cè)的多邊形網(wǎng)格上對(duì)對(duì)象邊界進(jìn)行推理可以比現(xiàn)有的基于像素和基于曲線的方法產(chǎn)生更準(zhǔn)確的結(jié)果。 我們最后展示了DefGrid作為用于無(wú)監(jiān)督圖像分區(qū)的獨(dú)立模塊,顯示了優(yōu)于現(xiàn)有方法的性能。

1 INTRODUCTION

在現(xiàn)代計(jì)算機(jī)視覺(jué)方法中,圖像被視為具有固定步幅的固定均勻網(wǎng)格,并通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理。為了提高效率,通常會(huì)以較低的分辨率處理非常高分辨率的圖像,從而使圖像本質(zhì)上模糊并進(jìn)行二次采樣。當(dāng)饋送到神經(jīng)網(wǎng)絡(luò)時(shí),每個(gè)像素因此包含來(lái)自前景和背景的原始信號(hào)混合信息的模糊版本,可能導(dǎo)致網(wǎng)絡(luò)對(duì)對(duì)象及其上下文的敏感度和依賴性更高。 相反,在許多傳統(tǒng)的計(jì)算機(jī)視覺(jué)流水線中,高分辨率圖像被分成符合圖像邊界的一小組較小的超像素,從而導(dǎo)致在下游任務(wù)中進(jìn)行更有效的推理。 我們遵循這種思路,認(rèn)為使網(wǎng)格變形以更好地與輸入中的高頻信息內(nèi)容對(duì)齊是一種更有效的表示策略。從概念上講,這類(lèi)似于超像素,但是符合具有幾何約束的常規(guī)拓?fù)?,因此仍然很容易與深度卷積網(wǎng)絡(luò)一起用于下游任務(wù)。

此外,諸如對(duì)象蒙版批注之類(lèi)的任務(wù)自然要求輸出為多邊形的形式,并帶有可管理數(shù)量的控制點(diǎn),人工注釋者可以編輯這些控制點(diǎn)。 先前的工作要么將輸出參數(shù)化為帶有固定數(shù)量的控制點(diǎn)的閉合曲線[27],要么執(zhí)行了像素標(biāo)記,然后執(zhí)行了(不可微分)多邊形化步驟[26,39,29]。在前者中,預(yù)測(cè)曲線通常更好地利用形狀先驗(yàn)來(lái)導(dǎo)致“表現(xiàn)良好”的預(yù)測(cè),但是,輸出固有地受限于其能夠表示的形狀的種類(lèi)和復(fù)雜性。相反,逐像素方法可以表示 但是,任意類(lèi)通常需要較大的輸入/輸出分辨率才能在對(duì)象邊界周?chē)a(chǎn)生準(zhǔn)確的標(biāo)記。我們認(rèn)為,在與圖像邊界很好對(duì)齊的低分辨率多邊形網(wǎng)格上進(jìn)行推理可以結(jié)合兩種方法的優(yōu)點(diǎn)。

我們介紹了可變形網(wǎng)格(DefGrid),這是一種神經(jīng)網(wǎng)絡(luò)模塊,用于表示具有二維三角形網(wǎng)格的圖像。 網(wǎng)格的基本元素是一個(gè)三角形單元,其頂點(diǎn)將三角形放置在圖像平面中。 DefGrid用統(tǒng)一的網(wǎng)格初始化,并利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)三角形頂點(diǎn)的位置,以使變形網(wǎng)格的邊緣和頂點(diǎn)與圖像邊界對(duì)齊(圖1)。 我們提出了一些精心設(shè)計(jì)的損失函數(shù)來(lái)鼓勵(lì)這種行為。 由于變形操作的可區(qū)分性,DefGrid可以使用下游神經(jīng)網(wǎng)絡(luò)作為即插即用模塊在各種深度處理級(jí)別上進(jìn)行端到端訓(xùn)練。 我們?cè)诟鞣N用例中展示DefGrid:作為可學(xué)習(xí)的幾何圖像降采樣層,以顯著降低的網(wǎng)格分辨率來(lái)組織高精度語(yǔ)義分割。 此外,當(dāng)用于對(duì)輸出進(jìn)行參數(shù)化時(shí),我們證明它可以為交互式對(duì)象蒙版注釋的任務(wù)帶來(lái)更有效,更準(zhǔn)確的結(jié)果。 我們的DefGrid也可以用作獨(dú)立模塊進(jìn)行無(wú)監(jiān)督的圖像分區(qū),并且與現(xiàn)有的基于超像素的方法相比,我們顯示出更高的性能。


Fig.1 DefGrid是一個(gè)神經(jīng)模塊,使用三角形網(wǎng)格表示一副圖像。 DefGrid均勻初始化網(wǎng)格,變形網(wǎng)格的頂點(diǎn),以使網(wǎng)格的邊緣與圖像邊界對(duì)齊,同時(shí)保持拓?fù)涔潭ā?/div>
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容