自動(dòng)駕駛?cè)腴T日記-3-圖像語(yǔ)義分割

在基于圖像的語(yǔ)義分割問(wèn)題中,為了解決FCN中結(jié)果比較粗糙的問(wèn)題,后續(xù)在FCN的基礎(chǔ)上進(jìn)行了許多精細(xì)化工作,主要可以分為兩個(gè)方面的優(yōu)化,第一是利用條件隨機(jī)場(chǎng)(CRF)或者其變體來(lái)提升局部準(zhǔn)確率,第二是設(shè)計(jì)一個(gè)多尺度模型以結(jié)合高層和底層特征信息進(jìn)行語(yǔ)義分割,下面結(jié)合幾篇比較出色的論文進(jìn)行簡(jiǎn)單闡述。

1.CRF

代表論文:

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

Semantic image segmentation via deep parsing network

Conditional random fields as recurrent neural networks

DeepLab

DeepLab是一個(gè)很優(yōu)雅的結(jié)構(gòu),論文工作在2014年就已經(jīng)完成了,最終被收錄于2017年P(guān)AMI,現(xiàn)在的很多工作都是基于這篇論文的基礎(chǔ)上完成的,因此很值得一讀。

DeepLab實(shí)在DCNN結(jié)構(gòu)上改進(jìn)的語(yǔ)義分割模型,因此作者提出了DCNN在語(yǔ)義分割這一任務(wù)中的局限性,并提出了自己的解決方案。

1.分辨率下降

在FCN中解決這一缺陷的方法是反卷積,本文作者提出了一種atrous conv+雙線性插值的方法,該方法受啟發(fā)于通信技術(shù),可以在不增加參數(shù)個(gè)數(shù)的情況下獲得更大的感受野。

2.物體存在不同的尺度

對(duì)這個(gè)問(wèn)題,通常的做法是將同一幅圖像的不同尺度的feature/score map聚合得到結(jié)果,作者認(rèn)為這樣的方法的確可以增提高性能,但是增加量計(jì)算量。因此作者提出了“atrous spatial pyramid pooling” (ASPP)方法,即在卷積操作之前采用多個(gè)不同采樣率的atrous convolutional layers進(jìn)行resample。

3.定位不精確

在物體檢測(cè)任務(wù)中需要對(duì)空間變換具有不變性,因此限制了DCNN的空間精度。 FCN解決該問(wèn)題的方法是skip-layers ,從多層提取出hyper-column features 進(jìn)行融合,本文作者提出了一個(gè)更為有效的方法:采用一個(gè)fully-connected CRF來(lái)優(yōu)化目標(biāo)邊界。

方法流程圖

文中提到的三個(gè)貢獻(xiàn)

1.Atrous conv?

個(gè)人認(rèn)為是文章中最精彩的工作,這里使用了一個(gè)非常漂亮的做法,作者將pooling的stride改為1,再加上 1 padding。這樣池化后的圖片尺寸并未減小,并且依然保留了池化整合特征的特性。

但是,因?yàn)槌鼗瘜幼兞?,后面的卷積的感受野也對(duì)應(yīng)的改變了,這樣也不能進(jìn)行參數(shù)微調(diào)了。所以,Atrous Convolution就誕生了。


1維空洞卷積操作示意圖


感受野變化

上圖a為普通的池化的結(jié)果,感受野大小為7,但是損失了信息;b為“優(yōu)雅”池化的結(jié)果。b上進(jìn)行同樣的卷積操作,對(duì)應(yīng)的感受野變?yōu)榱?(輸入5維輸出4維,上圖b中綠、橙、藍(lán)、黃四個(gè)點(diǎn)),感受野減小了。而使用hole為1的Atrous Convolution進(jìn)行步長(zhǎng)為1的卷積操作,則感受野依然為7,同時(shí)保證輸出的結(jié)果更加精確.


上采樣與空洞卷積對(duì)比

從上圖可以看出,使用空洞卷積可以得到分辨率更高的結(jié)果。

2.多尺度圖像表征

為了提取不同尺度物體的特征,作者受到RCNN的啟發(fā),對(duì)同一圖像同時(shí)采用多個(gè)不同采樣率的空洞卷積,最后整合在一起。


多尺度圖像表征

3.物體邊界定位(恢復(fù))

這里采用全連接條件隨機(jī)場(chǎng)進(jìn)行邊界恢復(fù),將深度卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別能力和全連接條件隨機(jī)場(chǎng)優(yōu)化的定位精度耦合在一起,得到了很好的結(jié)果。


全連接條件隨機(jī)場(chǎng)

對(duì)于每個(gè)像素i具有類別標(biāo)簽xi還有對(duì)應(yīng)的觀測(cè)值yi,這樣每個(gè)像素點(diǎn)作為節(jié)點(diǎn),像素與像素間的關(guān)系作為邊,即構(gòu)成了一個(gè)條件隨機(jī)場(chǎng)。而且我們通過(guò)觀測(cè)變量yi來(lái)推測(cè)像素i對(duì)應(yīng)的類別標(biāo)簽xi.更多公式及計(jì)算細(xì)節(jié)可以參考全連接條件隨機(jī)場(chǎng)(DenseCRF)。

其他學(xué)習(xí)資料:

DeepLab官網(wǎng)


Semantic image segmentation via deep parsing network(DPN)

Conditional random fields as recurrent neural networks(CRFasRNN)

這兩篇論文都是的前端框架與DeepLab和FCN類似,論文將重點(diǎn)放到了后端框架與前端框架的融合當(dāng)中,即如何設(shè)計(jì)一種端到端的模型。在DPN中作者使用MRF代替CRF,并將平均場(chǎng)構(gòu)造為CNN的形式,并且在訓(xùn)練過(guò)程中可以one-pass inference,免去了迭代的麻煩。


DPN

而在CRFasRNN這篇文章中,看標(biāo)題就可以知道,作者將CRF轉(zhuǎn)化為卷積計(jì)算的形式,但是由于作者將其進(jìn)行了迭代,所以文章認(rèn)為其是as RNN。


CRFasRNN

深度學(xué)習(xí)中的網(wǎng)絡(luò)結(jié)構(gòu)例如CNN,RNN可以有效的提取數(shù)據(jù)特征,而好的特征將為下一步的分類或回歸問(wèn)題帶來(lái)好處。同時(shí)將概率圖模型網(wǎng)絡(luò)化將使深度學(xué)習(xí)結(jié)構(gòu)具有更好的可解釋性,并且得到一個(gè)端到端的網(wǎng)絡(luò)結(jié)構(gòu)。

其他學(xué)習(xí)材料:

CRF,條件隨機(jī)場(chǎng)

概率圖模型是人工智能的另一個(gè)主要研究方向,其經(jīng)典著作和論文很多,但本人水平有限,還沒(méi)有學(xué)到其皮毛,感興趣的朋友可以深入研究,很有意義的一個(gè)領(lǐng)域。

祝好!愿與諸君一起進(jìn)步。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容