語(yǔ)義分割無(wú)監(jiān)督后處理:將高置信度像素標(biāo)簽傳播到低置信度區(qū)域

視頻分割后處理從兩個(gè)方面入手,一個(gè)是從視頻的歷史幀掩膜,一個(gè)是從圖像分割的角度,例如這篇論文

Probabilistic Semantic Segmentation Refinement by Monte Carlo Region Growing

具有細(xì)粒度像素級(jí)精度的語(yǔ)義分割是各種計(jì)算機(jī)視覺(jué)應(yīng)用的基本組成部分。然而,盡管卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)最近有了很大的改進(jìn),但現(xiàn)代最先進(jìn)的方法所提供的分割仍然顯示出有限的邊界依從性。我們提出了一種完全無(wú)監(jiān)督的后處理算法,利用蒙特卡羅抽樣和像素相似度將高置信度像素標(biāo)簽傳播到低置信度分類區(qū)域。我們的算法,我們稱之為概率區(qū)域生長(zhǎng)細(xì)化(PRGR),是基于一個(gè)嚴(yán)格的數(shù)學(xué)基礎(chǔ),其中集群被建模為多元正態(tài)分布的像素集。pRGR利用貝葉斯估計(jì)和方差減少技術(shù)的概念,在不同的接收?qǐng)龃笮∠逻M(jìn)行多次求精迭代,同時(shí)更新聚類統(tǒng)計(jì)以適應(yīng)局部圖像特征。使用多個(gè)現(xiàn)代語(yǔ)義分割網(wǎng)絡(luò)和基準(zhǔn)數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)證明了我們的方法在不同粗糙度下細(xì)化分割預(yù)測(cè)的有效性,以及在蒙特卡羅迭代中獲得的方差估計(jì)作為與分割精度高度相關(guān)的不確定性度量的適用性。

https://arxiv.org/pdf/2005.05856.pdf

SUBMITTED TO IEEE TRANSACTIONS ON IMAGE PROCESSING (UNDER REVIEW), APR 2020

作者:Marquette University

將要開(kāi)源,實(shí)時(shí)性不確定,計(jì)算量不確定,需要評(píng)估和測(cè)試

作者2018年的另一篇論文似乎是這篇論文的前身(2018.2)

https://arxiv.org/pdf/1802.07789.pdf?

作者還有個(gè)工作是自動(dòng)標(biāo)注的:

https://arxiv.org/pdf/1902.06806.pdf

http://www.coviss.org/%20%20freelabel/

摘要具有細(xì)粒度像素級(jí)精度的語(yǔ)義分割是各種計(jì)算機(jī)視覺(jué)應(yīng)用的基本組成部分。然而,盡管卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)最近有了很大的改進(jìn),但現(xiàn)代最先進(jìn)的方法所提供的分割仍然顯示出有限的邊界依從性。我們提出了一種完全無(wú)監(jiān)督的后處理算法,利用蒙特卡羅抽樣和像素相似度將高置信度像素標(biāo)簽傳播到低置信度分類區(qū)域。我們的算法,我們稱之為概率區(qū)域生長(zhǎng)細(xì)化(PRGR),是基于一個(gè)嚴(yán)格的數(shù)學(xué)基礎(chǔ),其中集群被建模為多元正態(tài)分布的像素集。pRGR利用貝葉斯估計(jì)和方差減少技術(shù)的概念,在不同的接收?qǐng)龃笮∠逻M(jìn)行多次求精迭代,同時(shí)更新聚類統(tǒng)計(jì)以適應(yīng)局部圖像特征。使用多個(gè)現(xiàn)代語(yǔ)義分割網(wǎng)絡(luò)作品和基準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)證明了我們的方法在不同粗糙度下細(xì)化分割預(yù)測(cè)的有效性,以及在蒙特卡羅迭代中獲得的方差估計(jì)作為與分割精度高度相關(guān)的不確定性度量的適用性。索引項(xiàng)分割;像素分類;區(qū)域生長(zhǎng);隨機(jī)方法;不確定性與概率推理。在計(jì)算機(jī)視覺(jué)的許多應(yīng)用中,像素級(jí)的高精度圖像分割是一個(gè)關(guān)鍵要求。在動(dòng)作和活動(dòng)識(shí)別中,人-人和人-物交互的相關(guān)視覺(jué)線索包括主體和客體之間的接觸、特定的身體輪廓和零件位置[1]-[3]。自動(dòng)化任務(wù)通常需要對(duì)物體或儀器進(jìn)行操作,其中物體姿態(tài)和形態(tài)估計(jì)的質(zhì)量直接影響成功率[4],[5]。農(nóng)業(yè)領(lǐng)域是一個(gè)例子[6]-[8],其中圖像分割作為感知模塊的一部分被開(kāi)發(fā)出來(lái),目標(biāo)是在園藝場(chǎng)景中授粉、果園管理和收獲。廣泛的圖像分割應(yīng)用包括圖像編輯、自動(dòng)駕駛車輛[9]、網(wǎng)上購(gòu)物的虛擬服裝試穿[10]和醫(yī)學(xué)成像。醫(yī)學(xué)分段十項(xiàng)全能挑戰(zhàn)[11]就是一個(gè)例子,器官和結(jié)構(gòu)(如腫瘤)的精確定位對(duì)于最終指導(dǎo)醫(yī)療干預(yù)至關(guān)重要?;诰矸e神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)模型極大地提高了圖像理解的技術(shù)水平。然而,傳統(tǒng)的基于CNN的分割模型受到了用于學(xué)習(xí)層次特征的典型下采樣的限制。在這個(gè)過(guò)程中,像素級(jí)的細(xì)節(jié)會(huì)丟失,從而導(dǎo)致分割遮罩很難與對(duì)象邊界結(jié)合。為了減輕這些限制,現(xiàn)代圖像分割模型采用了諸如阿托羅斯卷積[12]、具有跳躍連接的編碼器-解碼器體系結(jié)構(gòu)[13]–[15]、金字塔縮放[16]等策略。與傳統(tǒng)的CNN結(jié)構(gòu)相比,這些策略已經(jīng)取得了很大的改進(jìn),但是它們產(chǎn)生的分割仍然沒(méi)有很好地與對(duì)象的邊界對(duì)齊。后處理方法,如條件隨機(jī)場(chǎng)(crf)[16],[17]已經(jīng)在分割細(xì)化方面取得了成功,但它們的性能取決于對(duì)每個(gè)特定數(shù)據(jù)集和所使用的預(yù)測(cè)模塊的參數(shù)進(jìn)行適當(dāng)優(yōu)化。


在[18]中,我們引入了區(qū)域增長(zhǎng)細(xì)化(Region Growing refinence,RGR)算法,這是一種無(wú)監(jiān)督且易于推廣的后處理模塊,它通過(guò)基于外觀的區(qū)域增長(zhǎng)來(lái)細(xì)化語(yǔ)義分割模板。在Monte Carlo框架中,初始像素作為高質(zhì)量種子從高置信度標(biāo)記的區(qū)域中進(jìn)行采樣,并成長(zhǎng)為用于分割細(xì)化的簇。在此背景下,我們提出了概率區(qū)域增長(zhǎng)求精(pRGR)算法,這是RGR的一個(gè)擴(kuò)展,它提供了以下貢獻(xiàn):

一個(gè)堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),利用概率框架來(lái)指導(dǎo)算法的所有步驟;

?結(jié)合來(lái)自貝葉斯估計(jì)的技術(shù),許多先前以臨時(shí)方式確定的參數(shù)現(xiàn)在使用貝葉斯共軛先驗(yàn)初始化,并隨著像素到簇的分配而更新。此外,在蒙特卡羅精化迭代中利用方差減少技術(shù)來(lái)優(yōu)化采樣步驟;

?通過(guò)一種新的參數(shù)化,允許對(duì)不同的感受野大小進(jìn)行em 計(jì)算,pRGR通過(guò)恢復(fù)更精細(xì)的邊界細(xì)節(jié)和減弱假陽(yáng)性像素標(biāo)簽的影響,進(jìn)一步提高了分割細(xì)化性能;

?我們通過(guò)實(shí)驗(yàn)證明了pRGR在各種場(chǎng)景中的適用性,包括最先進(jìn)的模型,如DeepLabV3+[19]。這些實(shí)驗(yàn)也表明DenseCRF[17]和pRGR的結(jié)合是一種有效的分割細(xì)化策略;

我們觀察到,pRGR的Monte Carlo估計(jì)的方差可以作為一種不確定性估計(jì)機(jī)制,實(shí)驗(yàn)證明了它與最終分割精度值之間的高相關(guān)關(guān)系;一旦發(fā)布,代碼將在covis上提供。組織/代碼。我們報(bào)告了使用不同CNN、數(shù)據(jù)集和基線的實(shí)驗(yàn)。為了便于與CRF和RGR基線進(jìn)行比較,我們首先報(bào)告了DeepLab[12]和DeepLabV2[16]為PASCAL VOC 2012[20]驗(yàn)證集提供的細(xì)分預(yù)測(cè)改進(jìn)實(shí)驗(yàn)。然后,我們報(bào)告了在PASCAL val集和DAVIS數(shù)據(jù)集的選定序列上使用最先進(jìn)的DeepLabV3+[19]分割模型進(jìn)行的實(shí)驗(yàn)。與PASCAL數(shù)據(jù)集相比,DAVIS數(shù)據(jù)集包含的注釋更細(xì)粒度,邊界更緊密。論文的結(jié)構(gòu)如下。在第二節(jié)中,我們概述了相關(guān)的工作,包括現(xiàn)代語(yǔ)義分割模型、分割細(xì)化策略和使用相似概率概念的聚類算法。第三節(jié)對(duì)pRGR模型的完整公式進(jìn)行了說(shuō)明,第四節(jié)詳細(xì)介紹了實(shí)現(xiàn)pRGR的算法。在第五節(jié)中,我們報(bào)告了將pRGR與RGR、CRF和CRF+pRGR的組合進(jìn)行比較以改進(jìn)由多個(gè)CNN模型提供的預(yù)測(cè)的實(shí)驗(yàn)。最后,在第六節(jié)中,我們強(qiáng)調(diào)了這項(xiàng)工作的主要收獲,無(wú)論是在取得的成果方面,還是在未來(lái)的方向,pRGR可以開(kāi)發(fā)。



二?;赿eep-CNNs的相關(guān)工作模型在圖像分類和目標(biāo)檢測(cè)等計(jì)算機(jī)視覺(jué)任務(wù)中都取得了顯著的進(jìn)展。然而,對(duì)于基于CNN的系統(tǒng)來(lái)說(shuō),需要像素級(jí)圖像標(biāo)記的任務(wù)尤其具有挑戰(zhàn)性。雖然對(duì)于評(píng)估不同級(jí)別的上下文并因此學(xué)習(xí)分層特征至關(guān)重要,但池操作和跨行操作的組合會(huì)導(dǎo)致下采樣效果,從而影響像素密集分類任務(wù)中cnn的性能。這一點(diǎn)通過(guò)由諸如Eigen&Fergus[22]和早期的完全卷積網(wǎng)絡(luò)(FCNs)[13]所引入的模型所產(chǎn)生的分割預(yù)測(cè)得到了清楚的證明,這些模型的結(jié)構(gòu)基本上由圖像分類CNN模型組成,其完全連接的層被進(jìn)一步卷積所代替。這些模型產(chǎn)生了邊界粘連有限的粗分割掩模,這是一個(gè)開(kāi)放性問(wèn)題,推動(dòng)了該領(lǐng)域的許多進(jìn)展。目前許多語(yǔ)義分割方法都側(cè)重于開(kāi)發(fā)更好的上采樣策略,以提高分割精度。Noh等人。[23]專注于學(xué)習(xí)反褶積網(wǎng)絡(luò),而諸如U-Net[14]和SegNet[24]的工作則專注于編碼器-解碼器體系結(jié)構(gòu),其中解碼器路徑包括跳過(guò)連接以從編碼器層傳輸信息以更好地指導(dǎo)上采樣。為了獲得更精細(xì)的分段而研究的另一個(gè)方向集中在減少通過(guò)下采樣丟失的細(xì)節(jié)數(shù)量上。為此,DeepLab模型家族[12]、[16]、[19]利用了擴(kuò)張卷積(或阿托拉斯卷積)的思想,其中卷積濾波器用零填充,作為增加接收?qǐng)龅牧硪环N方法。此外,像PSPNet[25]這樣的作品重新審視了早期的策略[26],這些策略側(cè)重于在多個(gè)尺度上評(píng)估圖像,以便更好地結(jié)合不同層次的場(chǎng)景上下文。在這種情況下,DeepLabV2[16]采用了atrus空間金字塔池(ASPP),其中atros卷積與空間金字塔池的概念相結(jié)合[27]。最近,最新的DeepLabV3+模型[19]被引入,結(jié)合了調(diào)整后的ASPP策略以利用圖像級(jí)特征和解碼器模塊來(lái)優(yōu)化沿邊界的分割。

除了對(duì)CNN結(jié)構(gòu)的調(diào)整外,一些研究集中在研究利用低層圖像特征來(lái)幫助基于CNN的模型完成圖像分割任務(wù)的技術(shù)。Girschick等人利用了選擇性搜索的概念[28]。[29]構(gòu)思用于目標(biāo)檢測(cè)的RCNN族的第一個(gè)模型?;谙嗨贫群喜⑿^(qū)域集合[30],生成區(qū)域建議,然后使用深度學(xué)習(xí)模型對(duì)其進(jìn)行評(píng)估。類似的想法利用超級(jí)像素[31]作為預(yù)處理步驟,其中像素基于低級(jí)屬性(例如顏色相似性)分組,每個(gè)組使用手工設(shè)計(jì)的層次特征[32]或CNNs[33],[34]進(jìn)行評(píng)估。同樣,局部外觀技術(shù),如超混合和條件隨機(jī)場(chǎng)(crf)也被用于深CNN模型產(chǎn)生的分割的后處理。DeepLab論文[12]提出將其新穎的體系結(jié)構(gòu)與[17]中的DenseCRF模型相結(jié)合,以改進(jìn)分割掩模,特別是沿邊界的分割掩模。與傳統(tǒng)的全連接CRFs實(shí)現(xiàn)相比,DenseCRF通過(guò)一種近似推理算法提高了計(jì)算效率,該算法將成對(duì)勢(shì)建模為高斯核的組合。然而,使用DenseCRF模型對(duì)分割掩模進(jìn)行后處理細(xì)化需要通過(guò)網(wǎng)格搜索優(yōu)化超參數(shù),每當(dāng)CNN模型和/或數(shù)據(jù)集發(fā)生變化時(shí),都必須執(zhí)行此過(guò)程。

在[18]中,我們引入了區(qū)域增長(zhǎng)細(xì)化(RGR)算法,該算法通過(guò)將高置信度標(biāo)簽傳播到不確定像素分類區(qū)域來(lái)細(xì)化分割預(yù)測(cè)。在不同的數(shù)據(jù)集和CNN模型組合上的實(shí)驗(yàn)表明:一)RGR對(duì)分割細(xì)化的有效性;二)它的高泛化能力,不需要對(duì)數(shù)據(jù)集或模型進(jìn)行特定的調(diào)整。除了分割細(xì)化[7],RGR的實(shí)際相關(guān)性也在FreeLabel[35]中得到了說(shuō)明,F(xiàn)reeLabel[35]是一個(gè)開(kāi)源的注釋工具,可以從用戶提供的手繪軌跡中獲得高質(zhì)量的分割遮罩。雖然在某些方面類似于SLIC[36]等超級(jí)混合算法,但RGR基于從高置信區(qū)域隨機(jī)采樣的種子初始化允許具有靈活大小的簇,并強(qiáng)制從高置信區(qū)域?qū)С龈卟淮_定區(qū)域的分類。傳統(tǒng)的超像素算法也有一些局限性,如對(duì)局部特征的調(diào)整缺乏自適應(yīng)性,以及對(duì)參數(shù)初始化錯(cuò)誤的魯棒性差。引入了利用貝葉斯估計(jì)的模型來(lái)克服超級(jí)像素算法的這些局限性,其策略范圍從像素相關(guān)高斯混合模型(GMMs)[37]、[38]到非參數(shù)混合模型[39]。在這種方法中,將先前固定的歸一化超參數(shù)替換為貝葉斯先驗(yàn),當(dāng)像素被分配給簇時(shí),貝葉斯先驗(yàn)與其他簇統(tǒng)計(jì)信息一起以協(xié)方差的形式更新。III.提出的方法在本節(jié)中,我們首先簡(jiǎn)要回顧構(gòu)成RGR算法的主要操作。然后,我們描述了構(gòu)成概率區(qū)域增長(zhǎng)求精(pRGR)方法的步驟序列和相應(yīng)的數(shù)學(xué)公式。區(qū)域增長(zhǎng)細(xì)化(RGR):基于語(yǔ)義分割檢測(cè)器(如現(xiàn)代CNN)提供的像素分類分?jǐn)?shù),RGR識(shí)別圖像中的三個(gè)區(qū)域:高置信度背景、高置信度對(duì)象和不確定性區(qū)域。這是通過(guò)使用極值對(duì)記分圖進(jìn)行閾值化來(lái)實(shí)現(xiàn)的,即對(duì)于高置信度前景接近1.0,對(duì)于高置信度背景識(shí)別接近0.0。然后基于像素顏色和位置相似性進(jìn)行區(qū)域生長(zhǎng),從從高置信度區(qū)域采樣的初始種子開(kāi)始。RGR使用Monte Carlo方法多次執(zhí)行此過(guò)程:為每個(gè)生長(zhǎng)迭代隨機(jī)采樣不同的種子集,以便將最終采樣假陽(yáng)性像素作為種子的總體影響降到最低。一旦簇形成,RGR在每個(gè)簇內(nèi)進(jìn)行基于像素的多數(shù)投票,以獲得對(duì)的精確估計(jì)

每個(gè)區(qū)域的分段分?jǐn)?shù)。最后,對(duì)每個(gè)Monte Carlo迭代所得的細(xì)化分?jǐn)?shù)進(jìn)行平均,以獲得最終的細(xì)化分割預(yù)測(cè)。與RGR算法相似,pRGR算法是一種通用的無(wú)監(jiān)督后處理模塊,用于細(xì)化分割邊界,可與任何CNN或類似語(yǔ)義分割模型的輸出耦合。在共享相似概念的同時(shí),pRGR通過(guò)使用概率公式來(lái)推進(jìn)RGR,在該公式中,算法的所有步驟都是使用數(shù)學(xué)相干框架導(dǎo)出的。此外,在參數(shù)的初始化和更新過(guò)程中,采用了方差歸約和貝葉斯估計(jì)的概念。

組成pRGR的主要操作如圖1所示。在較高層次上,RGR和pRGR所執(zhí)行的步驟可以概括為:1)識(shí)別高置信分類區(qū)域;2)從高置信區(qū)域進(jìn)行蒙特卡羅種子采樣;3)種子區(qū)域生長(zhǎng)成簇;4)簇內(nèi)像素得分平均;5)通過(guò)多次蒙特卡羅迭代進(jìn)行平均。在多類分割的情況下,RGR和pRGR都在與每個(gè)類相關(guān)聯(lián)的記分圖上執(zhí)行這些步驟,并且通過(guò)計(jì)算跨類的最大似然來(lái)定義最終分類。在本節(jié)的其余部分中,我們將證明這些操作的合理性,并導(dǎo)出指導(dǎo)構(gòu)成我們的方法的步驟的一組方程。來(lái)自高置信區(qū)域的概率種子抽樣

我們的求精算法的輸入被表示為觀察圖像I∈Rw×h和相應(yīng)的置信映射C∈Rw×h×C。這里,w×h是輸入圖像I的維數(shù),C是集合C中每個(gè)類的分?jǐn)?shù)映射,由任何現(xiàn)代分割CNN生成。為了簡(jiǎn)單起見(jiàn),我們首先介紹二進(jìn)制情況下的方法,其中| C |=1,因?yàn)樵诙囝悎?chǎng)景中,所有步驟都是在每個(gè)類scoremap上獨(dú)立執(zhí)行的。

其中Fb(·)和Ff(·)分別是tb和tf分布對(duì)應(yīng)的累積密度函數(shù)(CDFs)。如[18]所述,種子之間間隔γ的取樣確保了它們?cè)谡麄€(gè)不確定區(qū)域生長(zhǎng)的路徑的可用性。也就是說(shuō),在高置信區(qū)域內(nèi)的γ×γ點(diǎn)之間均勻地采樣種子,使得,給定閾值tf、tb和種子間距γ,在具有置信分?jǐn)?shù)ci的像素處采樣種子si的概率是

而在RGR中,所有樣本生長(zhǎng)迭代的種子間距γ是固定的,對(duì)于pRGR,我們采用一種策略,其中γ以分層方式從均勻分布的γ~U(γl,γh)中采樣,其中γl和γh是最小和最大間距值。如(2)所示,參數(shù)γ直接影響待采樣種子的數(shù)量,與通過(guò)種子生長(zhǎng)形成的簇的預(yù)期大小成反比。因此,使用分層方法采樣γ允許在多個(gè)接收野大小下模擬細(xì)化過(guò)程,這是許多現(xiàn)代分割體系結(jié)構(gòu)中使用的常見(jiàn)做法[19],[25]。

其中,第二個(gè)方程基于種子僅從高置信區(qū)域采樣的事實(shí),即P(si | IH,γ)=0。設(shè)m=1,…,ns表示Monte Carlo生長(zhǎng)迭代的指數(shù),使得s(m)i表示迭代m中的第i種子,并設(shè)γ(m)為對(duì)應(yīng)的種子間距?;冢?)和(4),種子樣本按分布

閾值分布:基于深度學(xué)習(xí)模型的語(yǔ)義分割方法通常包括三個(gè)主要步驟。首先,CNN計(jì)算每個(gè)類的每個(gè)像素的激活的無(wú)限分?jǐn)?shù)圖。通過(guò)對(duì)每個(gè)像素的所有類應(yīng)用softmax函數(shù),這些記分圖隨后被規(guī)范化為范圍[0,1]。最后,通過(guò)對(duì)規(guī)范化記分圖的arg max操作,將類標(biāo)簽分配給每個(gè)像素。因此,沒(méi)有單一的固定閾值應(yīng)用于分類的類記分圖。因此,為了估計(jì)(3)中所要求的CDFs F b,F(xiàn) F,我們使用兩個(gè)非參數(shù)分布F●b和F●F來(lái)近似它們。如圖2所示,從arg max步驟的輸出中,我們識(shí)別標(biāo)記為前景的像素pf∈F和標(biāo)記為背景的像素pb∈B。對(duì)于如圖2所示的多個(gè)類別的場(chǎng)景,前景對(duì)應(yīng)于標(biāo)記為被評(píng)估類別的一部分的像素(例如人),而背景對(duì)應(yīng)于所有剩余類別(例如非人)的并集。然后,我們分別估計(jì)由CNN計(jì)算的前景F和背景b內(nèi)預(yù)測(cè)像素的分?jǐn)?shù)cf和cb的CDFs F∮F≈F(cf)和F∮b≈F(cb)。為此,我們使用

核函數(shù),在每個(gè)區(qū)域的標(biāo)準(zhǔn)化分?jǐn)?shù)[0,1]范圍內(nèi)的等距點(diǎn)上計(jì)算。

相似性度量

一旦擁有了高置信度的種子,pRGR就開(kāi)始基于空間和顏色相似性將這些初始像素生長(zhǎng)成簇。讓每個(gè)像素pj由5D特征向量zj=[xj,cj]T來(lái)描述,其中xj=[xj,yj]T是其2D空間特征,cj=[lj,aj,bj]T是其3D顏色(CIELab)特征。類似地,讓xk,ck表示簇Ψk的質(zhì)心特征。然后,根據(jù)[18]中的公式(基于SLIC超混合算法[36]),pj和簇Ψk之間的相似性由

方程(6)可以推廣到 我們假設(shè)對(duì)于每個(gè)分區(qū)π,每個(gè)具有特征zj的像素pj最好由一個(gè)且只有一個(gè)簇Ψk來(lái)描述,該簇Ψk正態(tài)分布具有平均(質(zhì)心)zk和協(xié)方差∑k1。因此,zj的分布由 給出,其中d(zj,zk)=(zj zk)T∑k1(zj zk)和α=ln?2π5/2 |∑k | 1/2 |。因此,對(duì)于zj~N(zk,∑k1),(9)中的距離等于點(diǎn)zj的對(duì)數(shù)似然(沒(méi)有對(duì)應(yīng)于歸一化因子的常數(shù)偏移)。因此,最小距離d(pj,Ψk)等于最大距離l(zj | zk)。

像素pj被分配給簇Ψi的概率由 給出,其中∏zk=E[z |Ψk]是簇Ψk內(nèi)z的期望值,也就是說(shuō),像素pj被分配給簇Ψi的概率由zj和質(zhì)心∏zi之間的距離是所有簇質(zhì)心∏zk之間的最小距離的概率給出。由于d(zj,∏z i)服從n自由度的卡方分布,其中n是z的維數(shù),因此聚類分配概率是樣本d(zj,∏zi)~x2n是i.i.d.樣本d(zj,∏zk)~x2n,?Ψk∈π中最小的概率。

CDF(·)分布的最小過(guò)η樣本的分布由 給出,其中Γ(·)是伽瑪函數(shù),γ(·,·)是下不完全伽瑪函數(shù)。對(duì)于我們的方案F(1)(x),方程(12)變?yōu)閤=d(zj,'-zi)和n=5,因此對(duì)應(yīng)于另一個(gè)簇比Ψi更接近像素pj的概率。因此,這就是指導(dǎo)像素簇為區(qū)域生長(zhǎng)過(guò)程分配的方程。像素概率估計(jì)

給出了群π(m)=nΨ(m)1,Ψ(m)2。,Ψ(m)| S | o在算法的第m次迭代中生成,每個(gè)簇Ψ(m)i內(nèi)的期望類似然c |(m)i值被估計(jì)為與其像素pj∈Ψ(m)k相關(guān)聯(lián)的分?jǐn)?shù)cj的平均值,根據(jù)像素簇分配的概率P(pj∈Ψ(m)i | S(m))加權(quán)。也就是說(shuō),


那么,c′i(m)是所有像素pj∈Ψ(m)i的精煉類概率,即在沒(méi)有種子與給定像素足夠相似的情況下,將該像素分配給任何簇的概率

將是低的,增長(zhǎng)過(guò)程將結(jié)束,沒(méi)有任何分配這個(gè)像素。我們將這些元素稱為孤立像素。在像素P o保持孤立的迭代中,即po∈/Ψ(m)i,?Ψi∈π(m),我們保持其最初的預(yù)測(cè)分?jǐn)?shù)co為c(m)o=P(po∈F |π(m))。設(shè)∏={π(1),…,π(ns)}表示多重蒙特卡羅迭代生成的所有分區(qū)集。通過(guò)足夠的迭代,我們可以逼近分布,其中δπ(π)是狄拉克三角函數(shù),如果π∈π等于1,否則為零。在分割集∏上的邊緣化,我們有 ,使得每個(gè)像素P j的最終精細(xì)類概率由c∮j=P(pj∈F)給出。方差估計(jì):

除了在(19)中計(jì)算出的平均值外,還可以為每個(gè)像素計(jì)算由多次蒙特卡羅迭代提供的估計(jì)的方差。與計(jì)算平均c∮j類似,分區(qū)之間的方差σ∮2j可以計(jì)算為 ,如第五節(jié)所示,方差可以用作與分段精度高度相關(guān)的不確定性度量。在實(shí)際應(yīng)用中,我們觀察到對(duì)于顯著的粗預(yù)測(cè),有利于將整個(gè)pRGR算法運(yùn)行一次以上,以進(jìn)一步提高分割質(zhì)量。讓r表示一組運(yùn)行r={1,…,| r |}中每個(gè)完整運(yùn)行的序號(hào)索引。然后,包括(19)中的索引r,每一次運(yùn)行提供像素P j的估計(jì)c∏j(r)=P(pj∈F∏(r))。為了得到最終的估計(jì)P(pj∈F),我們利用逆方差加權(quán)來(lái)結(jié)合每次運(yùn)行提供的估計(jì)。即集群統(tǒng)計(jì)的初始化與更新

如上所述,我們假設(shè)簇是按N(zk,∑k1)正態(tài)分布的,這意味著一個(gè)正態(tài)分布的似然函數(shù)。此外,為了允許類似于[38]、[39]的靈活的簇來(lái)適應(yīng)局部圖像和預(yù)測(cè)特性,我們分別更新(8)中的空間和顏色協(xié)方差項(xiàng),即。,

式中,σx,σy是沿水平和垂直坐標(biāo)的方差,σl

是L色通道的方差,σa,σb分別是a和b通道的方差。

初始化:

為了保證正態(tài)分布的后驗(yàn)概率,便于更新過(guò)程,我們使用共軛先驗(yàn)分布初始化每個(gè)簇的平均zk和協(xié)方差∑k[40],[41]。由于空間和顏色的方差假設(shè)是獨(dú)立的,我們可以定義形式的正態(tài)逆卡方(NI-x2)先驗(yàn)分布,其中μ和σ2是(zk,σk)的五個(gè)維度的均值和方差,為了簡(jiǎn)單起見(jiàn),下標(biāo)被刪除。正態(tài)分布的平均值μ0根據(jù)對(duì)應(yīng)種子的位置和顏色進(jìn)行初始化,而k 0固定為1,因?yàn)榉N子值值得方差σ2的一次觀測(cè)。

空間方差:初始化與方差相關(guān)的逆卡方參數(shù)(vo,σ20)更為復(fù)雜。在正態(tài)分布的簇假設(shè)下,簇的期望大小與其空間方差的期望值成正比。由于種子間距以采樣參數(shù)γ的形式已知,我們期望平均簇大小與γ×γ成正比。因此,空間方差可以初始化為

式中,λ是經(jīng)驗(yàn)定義的比例常數(shù)。為了使聚類在沒(méi)有鄰近種子的情況下變得更大并達(dá)到更低的置信區(qū)域,基于對(duì)來(lái)自PASCAL數(shù)據(jù)集的350個(gè)隨機(jī)采樣圖像的子集執(zhí)行的網(wǎng)格搜索,我們?cè)谒袑?shí)驗(yàn)中使用了λ=27的固定值,不管CNN模型用于生成分割掩碼還是正在考慮的數(shù)據(jù)集。如[40]所述,v0參數(shù)給出了相應(yīng)先驗(yàn)知識(shí)值的觀測(cè)值?;谶@一直覺(jué),我們?cè)俅卫闷骄谕卮笮∨cγ×γ成正比的事實(shí),使得v0 ~×γ2。此外,我們注意到樣本方差估計(jì)的可靠性與相應(yīng)初始種子的質(zhì)量成正比,因?yàn)樗x了初始平均值。因此,在質(zhì)量較低的種子的情況下,對(duì)于隨后的樣本方差估計(jì),必須給予先驗(yàn)更多的權(quán)重。結(jié)合這兩個(gè)特征,其中P(sk∈IH)對(duì)應(yīng)于從(4)得到的種子在高置信域內(nèi)的概率。顏色差異:確定一個(gè)期望的聚類顏色差異并不是那么簡(jiǎn)單。因此,我們首先檢查了使用傳統(tǒng)的形成的簇的顏色統(tǒng)計(jì)

PASCAL數(shù)據(jù)集的同一子集上的超級(jí)像素算法(SLIC[36])。具有不同數(shù)量的超級(jí)混合料和壓實(shí)度值的多次運(yùn)行表明,約σ2l=850和σ2a=σ2b=260的方差覆蓋了超級(jí)混合料中99%的樣品?;谶@些觀測(cè)值,我們進(jìn)行了網(wǎng)格搜索,得到了在所有實(shí)驗(yàn)中使用的最優(yōu)初始化值σ20,l=1000和σ20,a=σ20,b=300。

由于顏色相似性的分布可以從一幅圖像到另一幅圖像發(fā)生變化,我們采用了一種對(duì)偶抽樣方差減少策略[42],其中初始顏色方差值乘以1±ρ。在[0.1:0.1:0.9]上進(jìn)行網(wǎng)格搜索后,使用上述相同的PASCAL子集,為所有實(shí)驗(yàn)定義了一個(gè)p=0.6的值。也就是說(shuō),我們初始化σ20,l=1000×[1±ρ]和σ20,a=σ20,b=300×[1±ρ]。使用與(25)中給出的用于空間方差的方法相同的方法計(jì)算顏色方差的等效樣本大小v0,{lab}。最后,如第。四、 在區(qū)域生長(zhǎng)過(guò)程中,所有的簇都是從中心向外生長(zhǎng)的,因?yàn)榉峙涞牡谝粋€(gè)像素是對(duì)應(yīng)的種子鄰域,隨后的暫定像素分配是與剛剛分配的像素相鄰的。就樣本統(tǒng)計(jì)而言,這意味著初始空間樣本方差嚴(yán)重偏向于較小的值,因?yàn)橹付ǖ牡谝粋€(gè)像素是最接近相應(yīng)簇的質(zhì)心的像素。為了補(bǔ)償這種偏差,我們將先驗(yàn)方差知識(shí)的v0權(quán)與一個(gè)常數(shù)相乘,即對(duì)于所有實(shí)驗(yàn),我們?cè)O(shè)置v0=α[γ/P(sk∈IH)]2。我們使用α=5表示空間方差,由于顏色統(tǒng)計(jì)的這種偏差要低得多,因此我們經(jīng)驗(yàn)地將α=0.1設(shè)置為顏色方差。更新:如[40]、[43]中所述,根據(jù)n i∏2先驗(yàn)和相應(yīng)的正態(tài)似然的組合,給出相應(yīng)的后驗(yàn)參數(shù),其中x∏表示樣本均值,n表示樣本總數(shù),對(duì)應(yīng)于簇大小,即n=|Ψk |。如果樣本量不夠大,估計(jì)樣本方差時(shí)可能會(huì)出現(xiàn)偏差,從而導(dǎo)致大小不正確的聚類。因此,我們應(yīng)用了一種更新策略,其中樣本方差估計(jì)僅在達(dá)到期望的簇大小后計(jì)算,即|Ψk |≥[γ/P(sk∈IH)]2。

后部:

為了計(jì)算像素到簇的距離和相應(yīng)的分配概率,用具有vn自由度的t-student分布給出后驗(yàn)預(yù)測(cè)分布。因?yàn)閷?duì)于絕大多數(shù)迭代v0≥30,該后驗(yàn)可以根據(jù)N(μN(yùn),σN)近似為正態(tài)分布。

四、 算法實(shí)現(xiàn)

我們通過(guò)調(diào)用Alg的主函數(shù)來(lái)實(shí)現(xiàn)pRGR。1,總結(jié)了將像素分配給簇的區(qū)域增長(zhǎng)過(guò)程。首先,主腳本執(zhí)行閾值分布的非參數(shù)估計(jì)和隨后的種子采樣概率計(jì)算。然后,該腳本對(duì)種子的初始集進(jìn)行采樣并調(diào)用Alg。1個(gè)用于區(qū)域生長(zhǎng)。從圖像特征Z和對(duì)應(yīng)的種子集S作為輸入,Alg。1返回?cái)?shù)組L,其中每個(gè)像素通過(guò)索引映射到其對(duì)應(yīng)的簇。

設(shè)元素ej=[j,k,Pjk]表示像素pj到簇Ψk的暫定賦值,相應(yīng)的概率Pjk=P(pj∈Ψk | S)(15)。對(duì)于作為種子采樣的像素,創(chuàng)建的元素Pjk設(shè)置為1.0。受SNIC[44]實(shí)現(xiàn)的啟發(fā),這些臨時(shí)分配元素被推送到優(yōu)先級(jí)隊(duì)列Q1中,根據(jù)分配概率Pjk按降序排序。分配是通過(guò)從Q1中彈出元素并根據(jù)相應(yīng)的概率進(jìn)行采樣來(lái)實(shí)現(xiàn)的。從對(duì)應(yīng)的種子開(kāi)始,當(dāng)像素pj被有效地分配給簇Ψk時(shí),對(duì)其所有pn 8-連通鄰域進(jìn)行評(píng)估:如果它們還沒(méi)有被聚類,則元素en=[n,k,Pnk]被推到Q1中,作為這些像素對(duì)它們現(xiàn)在相鄰的簇Ψk的暫定分配。

在增長(zhǎng)過(guò)程中,通過(guò)這樣的8連接性強(qiáng)制,我們確保一個(gè)像素最多被訪問(wèn)(采樣)8次。但是,由于這只是一個(gè)上限,我們選擇一個(gè)實(shí)現(xiàn),確保每個(gè)像素在被視為孤立像素之前至少被訪問(wèn)8次。這是通過(guò)使用回收隊(duì)列Q2的回收過(guò)程實(shí)現(xiàn)的。當(dāng)從Q1彈出一個(gè)元素但沒(méi)有發(fā)生賦值時(shí),如果對(duì)應(yīng)像素的采樣次數(shù)小于8次,則將該元素推入回收隊(duì)列Q2。每當(dāng)Q1被清空時(shí),Q2中的所有元素都會(huì)根據(jù)最新的集群統(tǒng)計(jì)數(shù)據(jù)進(jìn)行更新,并重新推送到Q1中進(jìn)行處理。利用這個(gè)策略,我們確保在(15)中使用固定的η=8。因此,一旦所有像素被分配到一個(gè)簇或訪問(wèn)最多8次,算法就會(huì)收斂。一旦擁有Alg返回的像素到簇的對(duì)應(yīng)映射。1,主函數(shù)繼續(xù)根據(jù)(16-21)計(jì)算像素概率估計(jì)。高斯濾波:由于我們必須使用有限數(shù)量的蒙特卡羅迭代來(lái)近似后驗(yàn)分布,因此具有高不確定性的像素可能需要額外的細(xì)化步驟來(lái)產(chǎn)生準(zhǔn)確的結(jié)果。為了避免執(zhí)行會(huì)影響相對(duì)較少像素的大量迭代,我們?cè)谑褂茫?9)獲得的精制分?jǐn)?shù)圖的基礎(chǔ)上,使用3×3卷積和高斯核來(lái)平滑虛假的像素激活。

五、 實(shí)驗(yàn)

我們?cè)u(píng)估了pRGR的性能:i)構(gòu)成PASCAL VOC 2012數(shù)據(jù)集的val集的1449個(gè)圖像[20];ii)DAVIS數(shù)據(jù)集的選定視頻序列[21],[45]。雖然PASCAL數(shù)據(jù)集可以說(shuō)是最廣泛使用的語(yǔ)義分割基準(zhǔn),但其評(píng)估指標(biāo)忽略了每個(gè)對(duì)象邊界周圍5像素寬的區(qū)域。因此,通常在邊界附著方面的明顯改善不會(huì)反映在總體平均精度(mAP)中。因此,我們還包括使用DAVIS數(shù)據(jù)集[21]的結(jié)果,該數(shù)據(jù)集由高質(zhì)量視頻序列組成,每個(gè)幀具有像素精確的地面真值分割。 基線:我們將pRGR與其前信元RGR進(jìn)行比較,并與CRF進(jìn)行比較,CRF可以說(shuō)是語(yǔ)義分割中使用最廣泛的后處理模塊。我們還評(píng)估了CRF+pRGR的組合,其中我們的求精算法是在使用CRF求精的預(yù)測(cè)之上運(yùn)行的。網(wǎng)絡(luò):

為了評(píng)估我們對(duì)不同質(zhì)量輸入預(yù)測(cè)的方法,我們考慮了四種不同的預(yù)先訓(xùn)練的、可公開(kāi)使用的語(yǔ)義分割模型。首先,DeepLab COCO LargeFOV(此處DeepLab LargeFOV用于簡(jiǎn)潔)模型[12],一個(gè)使用大視場(chǎng)的DeepLab模型,在[18]中也用于評(píng)估RGR。我們還評(píng)估了兩個(gè)DeepLabV2模型(一個(gè)使用VGG[46]主干網(wǎng),另一個(gè)使用ResNet主干網(wǎng)[47])生成的預(yù)測(cè)的精化。最后,我們使用Exception主干網(wǎng)[48]評(píng)估了DeepLabV3+模型[19]

如第。二、 這些模型代表了語(yǔ)義最新發(fā)展的不同階段

分割。從他們的體系結(jié)構(gòu)來(lái)看,當(dāng)一個(gè)人從DeepLab移動(dòng)到DeepLabV2,最后是DeepLabV3時(shí),無(wú)論是在整體精度還是邊界附著方面,都需要更精細(xì)的分段。訓(xùn)練這些模型所用的數(shù)據(jù)集對(duì)它們的性能也起著重要的作用。我們注意到,在預(yù)培訓(xùn)方面,DeepLab LargeFOV模型利用了MS-COCO數(shù)據(jù)集、PASCAL VOC 2012的trainaug子集以及執(zhí)行評(píng)估的PASCAL VOC 2012的val集的注釋。相反,我們?cè)谠u(píng)估中使用的DeepLabV2和DeepLabV3+模型都只在VOC的trainaug子集上訓(xùn)練。在這四款機(jī)型中,只有DeepLabV2(VGG)沒(méi)有接受COCO的預(yù)先培訓(xùn)。參數(shù)化: 由于CRF依賴于對(duì)其超參數(shù)的網(wǎng)格搜索以獲得最佳性能,如下文所述,我們選擇了還提供了最佳CRF配置的公共可用模型。關(guān)于RGR,對(duì)于所有實(shí)驗(yàn),如文獻(xiàn)[18]所述進(jìn)行參數(shù)化,其中在每個(gè)區(qū)域生長(zhǎng)迭代中從分布U(0.5,0.9)中采樣不同的高置信前景閾值τF。對(duì)于上述所有情況,pRGR被配置為對(duì)每個(gè)類記分圖執(zhí)行20次蒙特卡羅迭代。在[2,γh]范圍內(nèi),采用系統(tǒng)分層抽樣法,共對(duì)種子間距參數(shù)γ的10個(gè)不同值進(jìn)行抽樣。對(duì)于每一個(gè)γ,用反義顏色配置進(jìn)行兩次迭代,其中ρ=0.6,如第2節(jié)所述。III-E.根據(jù)它們的輸出跨步,所考慮的不同網(wǎng)絡(luò)在接收野大小方面需要不同程度的細(xì)化。對(duì)于pRGR,這對(duì)應(yīng)于改變上限γh,因?yàn)樗x了最大預(yù)期簇大小。因此,γh是pRGR的唯一參數(shù),根據(jù)具體情況進(jìn)行了經(jīng)驗(yàn)調(diào)整。為我們的實(shí)驗(yàn)選擇的值列在表一中。對(duì)于所有使用CRF+pRGR的實(shí)驗(yàn),γh設(shè)為16。

如圖3所示,由DeepLab LargeFOV和DeepLabV2(VGG)提供的分段相當(dāng)粗糙,因此對(duì)于這些情況,我們使用逆方差加權(quán)來(lái)執(zhí)行兩個(gè)pRGR細(xì)化步驟,以合并每個(gè)步驟的估計(jì)結(jié)果,如(21)中所述。

與帕斯卡基線的比較

表二總結(jié)了每種細(xì)化方法與對(duì)應(yīng)的語(yǔ)義分割網(wǎng)絡(luò)的四種變體的組合所提供的量化結(jié)果。由于邊界只占圖像總像素的一小部分,為了更好地量化邊界依從性,我們遵循了[49]中提出的策略,并且還評(píng)估了在更靠近邊界的較窄區(qū)域上的分割精度。圖3示出了由每個(gè)提供的分割遮罩的定性示例

方法的組合,而圖4示出了每種方法獲得的地圖值作為評(píng)估中考慮的對(duì)象邊界寬度的函數(shù)。最后,圖5根據(jù)PASCAL數(shù)據(jù)集的每個(gè)類別詳細(xì)說(shuō)明了每個(gè)方法的性能。

邊界依從性:圖4中的結(jié)果強(qiáng)調(diào)了所考慮的所有方法如何提高分割精度,特別是在邊界附近的區(qū)域。與表二所示的結(jié)果相比,即使在諸如DeepLabV2(ResNet)這樣的場(chǎng)景中,總體地圖改進(jìn)略高于+1.0%,使用pRGR在邊界附近小于5px的區(qū)域中的分割精度也提高了大約+3.5%。

RGR與pRGR的比較:總體而言,我們的結(jié)果表明pRGR在考慮的所有場(chǎng)景中始終優(yōu)于RGR。與它的前身RGR相比,pRGR的概率公式結(jié)合不同接收?qǐng)龃笮〉募?xì)化迭代,減少了噪聲預(yù)測(cè)的發(fā)生,并將錯(cuò)誤的影響降到最低

積極的。這在圖3所示的鳥的翅膀和喙附近,也在馬的頂部附近。

CRF與pRGR:就總體準(zhǔn)確性而言,pRGR提供的mAP值略低于用CRF獲得的mAP值。然而,圖4中總結(jié)的結(jié)果表明:

對(duì)于邊界附近小于5px的區(qū)域,使用pRGR改進(jìn)的預(yù)測(cè)稍好于使用CRF的預(yù)測(cè)(FOV:+0.33%,VGG:+0.14%,ResNet:+0.43%)。這在圖3中的鳥翅膀附近也是一個(gè)例子。另一方面,圖5中自行車和椅子等類別的詳細(xì)結(jié)果表明,pRGR的主要故障情況對(duì)應(yīng)于具有大量誤報(bào)的封閉區(qū)域,例如自行車車輪和椅子主軸的內(nèi)部區(qū)域。定性地,這在圖3的最后一個(gè)示例中示出。由于區(qū)域生長(zhǎng)過(guò)程是基于8連通性的,它不能糾正這種包含大量誤報(bào)的封閉區(qū)域。相反,CRF能夠從這些錯(cuò)誤中恢復(fù)過(guò)來(lái),這反映在總體較高的mAP值中。然而,必須再次指出,pRGR是完全無(wú)監(jiān)督的,而CRF必須根據(jù)所考慮的數(shù)據(jù)集和分割網(wǎng)絡(luò)進(jìn)行微調(diào)。

CRF+pRGR: 我們的分析表明,盡管CRF和pRGR提供相似的總體性能,但它們有不同的成功/失敗案例。因此,結(jié)合CRF和pRGR是進(jìn)一步細(xì)化分割掩模的潛在策略,這一點(diǎn)已被表II和圖2中報(bào)告為CRF+pRGR的結(jié)果所證實(shí)。3和4。在所有評(píng)估的場(chǎng)景中,這種組合明顯優(yōu)于單獨(dú)的CRF,特別是在圖4定量顯示的邊界附近區(qū)域,并且可以在圖3的椅子和鳥的細(xì)節(jié)中注意到。此外,圖3中的第四個(gè)例子說(shuō)明了pRGR如何還可以減輕CRF部分減弱的一些假陽(yáng)性,例如馬鞍和馬膝附近的錯(cuò)誤檢測(cè)。最后,結(jié)合CRF+pRGR的結(jié)果也表明,如果減少假陽(yáng)性的數(shù)量,并且有足夠的優(yōu)質(zhì)種子,pRGR

DeepLabV3+預(yù)測(cè)的改進(jìn) 表三總結(jié)了使用RGR和pRGR進(jìn)行改進(jìn)前后DeepLabV3+的性能,用于PASCAL和DAVIS數(shù)據(jù)集的實(shí)驗(yàn)。與之前的實(shí)驗(yàn)不同,這里不考慮CRF基線,因?yàn)槟壳皼](méi)有針對(duì)DeepLabV3+優(yōu)化的CRF實(shí)現(xiàn)。

從表三和圖4右下角的結(jié)果來(lái)看,使用DeepLabV3+在PASCAL數(shù)據(jù)集上的實(shí)驗(yàn)再次表明,盡管總體mAP的增益相對(duì)較小(≈0.36%),但RGR和pRGR在邊界依從性方面提供了不可忽略的改進(jìn),即使是最先進(jìn)的語(yǔ)義分割網(wǎng)絡(luò)(對(duì)于邊界附近小于5px的區(qū)域,約為1.0%)。為了進(jìn)一步驗(yàn)證這一觀察結(jié)果,我們從DAVIS 2016[21]和2017[45]數(shù)據(jù)集中選擇了圖6中列出的53個(gè)視頻序列,以便使用相同的DeepLabV3+模型進(jìn)行進(jìn)一步實(shí)驗(yàn)。由于該模型是為21個(gè)PASCAL類別訓(xùn)練的,因此我們只選擇目標(biāo)對(duì)象在該類別集中的序列。

如前所述,DAVIS評(píng)估指標(biāo)既包括union(或Jaccard index)J上的總交集,也包括輪廓精度指標(biāo)F,它專門評(píng)估對(duì)象邊界附近的精度。表三包含了在RGR和pRGR求精前后使用兩種預(yù)測(cè)指標(biāo)得到的結(jié)果。由于DAVIS注釋考慮了構(gòu)成對(duì)象邊界的所有像素,因此在該數(shù)據(jù)集中,與在PASCAL數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)相比,邊界依從性方面的改進(jìn)對(duì)最終性能指標(biāo)的影響更大。結(jié)果表明,兩種改進(jìn)方法的改進(jìn)程度都在≈4.0%左右,pRGR在兩個(gè)指標(biāo)上都略優(yōu)于其前測(cè)者。F度量的結(jié)果表明,pRGR在邊界附著方面提供了很大的改進(jìn),平均F增加了3.9%。圖7顯示了此類改進(jìn)的定性示例。在所有的例子中,我們觀察到細(xì)化的分割遮罩如何包含更少的像素組成周圍的背景。在前兩張圖片中,人們的頭發(fā)和腳等細(xì)節(jié)被恢復(fù)。在最后一幅圖像中,精細(xì)的分割正確地貼附在狗的皮毛上,并正確地將人與狗分開(kāi)。根據(jù)圖6中詳述的單個(gè)戴維斯序列的結(jié)果,觀察到一些包含車輛和動(dòng)物作為目標(biāo)的序列的性能較低。在第一種情況下,故障主要是由車輛下陰影的誤報(bào)檢測(cè)傳播引起的。對(duì)于動(dòng)物來(lái)說(shuō),當(dāng)這種細(xì)長(zhǎng)的結(jié)構(gòu)被低置信度檢測(cè)到,遠(yuǎn)離動(dòng)物的身體,并且與周圍的背景顏色相似時(shí),四肢可能會(huì)失去。然而,我們強(qiáng)調(diào),對(duì)于大多數(shù)評(píng)估的場(chǎng)景,都觀察到了顯著的改進(jìn)。

不確定度估計(jì)

正如Kendall&Gal[50]所指出的,CNNs提供的標(biāo)準(zhǔn)化得分并不一定反映這些分類模型的不確定性。在文[51]中,利用蒙特卡羅輟學(xué)和具體輟學(xué)來(lái)捕獲DeepLabV3+語(yǔ)義分割模型的不確定性。在我們的pRGR框架中,多個(gè)Monte Carlo精化項(xiàng)(使用(20)計(jì)算)的估計(jì)方差可以作為分類不確定性的度量。為了驗(yàn)證這一說(shuō)法,我們對(duì)PASCAL數(shù)據(jù)集上的mAP值進(jìn)行了評(píng)估,以確定方差值的閾值越來(lái)越高。同樣,我們通過(guò)計(jì)算原始網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性來(lái)建立一個(gè)比較基線,預(yù)測(cè)的班級(jí)分?jǐn)?shù)的閾值越來(lái)越高。圖8顯示了使用DeepLab LargeFOV預(yù)測(cè)進(jìn)行實(shí)驗(yàn)的結(jié)果。對(duì)于這兩種情況,最上面一行的曲線表明預(yù)測(cè)得分(對(duì)于CNN預(yù)測(cè))和估計(jì)方差(來(lái)自pRGR輸出)與實(shí)際分割精度之間存在顯著相關(guān)性。

然而,對(duì)于CNN的預(yù)測(cè),在地圖曲線的起點(diǎn)和終點(diǎn)都觀察到了更尖銳的斜率變化。由于在這兩種情況下,覆蓋的樣本分?jǐn)?shù)隨閾值的增加而非線性變化,因此我們也

分析樣本的精確度與分?jǐn)?shù),以評(píng)估分割質(zhì)量與不確定性估計(jì)之間的相關(guān)性。更具體地說(shuō),圖8的底行中的圖是通過(guò)繪制從頂行開(kāi)始的每個(gè)對(duì)應(yīng)圖的左y軸與右y軸來(lái)獲得的。此分析對(duì)應(yīng)于評(píng)估當(dāng)考慮具有越來(lái)越高不確定性的較大樣本分?jǐn)?shù)時(shí),分割精度如何衰減。這一分析清楚地表明了pRGR方差估計(jì)與分割不確定性之間的線性關(guān)系。右列圖顯示pRGR估計(jì)方差與最終分割精度之間的相關(guān)性很強(qiáng),相關(guān)系數(shù)R2≥0.99。為了簡(jiǎn)潔起見(jiàn),我們只提供使用DeepLab LargeFOV的圖,但是DeepLabV2(VGG)、DeepLabV2(ResNet)和DeepLabV3+網(wǎng)絡(luò)配置的系數(shù)R2≥0.99。VI.結(jié)論我們提出了pRGR,一種用于語(yǔ)義分割細(xì)化的完全無(wú)監(jiān)督RGR算法的更新版本。通過(guò)結(jié)合概率論、貝葉斯估計(jì)和方差約簡(jiǎn)的概念,PRGR不僅為RGR提供了堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),而且進(jìn)一步提高了細(xì)化后得到的分割的質(zhì)量。通過(guò)以分層方式采樣種子間距參數(shù)的蒙特卡羅公式,pRGR在其高置信種子的多區(qū)域生長(zhǎng)迭代中評(píng)估不同的接收?qǐng)龃笮?。結(jié)合使用共軛先驗(yàn)初始化簇協(xié)方差并隨著像素簇分配發(fā)生而更新的策略,這些新特性允許pRGR優(yōu)化分割遮罩以顯著提高像素精度級(jí)別。通過(guò)在PASCAL和DAVIS數(shù)據(jù)集上使用DeepLab系列的四種不同配置進(jìn)行的實(shí)驗(yàn)表明,用pRGR改進(jìn)的分割預(yù)測(cè)得到了改進(jìn),特別是在邊界附著和去除假陽(yáng)性像素標(biāo)簽方面。

此外,該算法的實(shí)用性還包括與DenseCRF模型的可能結(jié)合,以進(jìn)一步提高這些方法單獨(dú)提供的分割質(zhì)量,我們的實(shí)驗(yàn)結(jié)果證明了這一點(diǎn)。最后,由于其Monte Carlo估計(jì)框架,pRGR還生成方差估計(jì),與最終的分割精度值顯示出強(qiáng)的反向相關(guān)性。換言之,pRGR方差值可用于分割預(yù)測(cè)的不確定性估計(jì),這將其應(yīng)用范圍擴(kuò)展到諸如主動(dòng)學(xué)習(xí)[52]、用于圖像標(biāo)記的人在環(huán)系統(tǒng)[53]和用于圖像分割的半監(jiān)督或弱監(jiān)督方法[54]、[55]等場(chǎng)景。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容