- 論文地址:DeepLabv1: Semantic image segmentation with deep convolutional nets and fully connected CRFs
- 收錄:ICLR 2015 (International Conference on Learning Representations)
- 論文代碼: github-Caffe
概述
作者發(fā)現(xiàn)Deep Convolutional Neural Networks (DCNNs) 能夠很好的處理的圖像級別的分類問題,因為它具有很好的平移不變性(空間細節(jié)信息已高度抽象),但是DCNNs很難處理像素級別的分類問題,例如姿態(tài)估計和語義分割,它們需要準確的位置信息。
- 兩個問題要處理:
- 重復池化和下采樣導致分辨率大幅下降,位置信息丟失難以恢復
- 空間不變性導致細節(jié)信息丟失
- 處理方案:
- 空洞卷積
- Fully-connected Conditional Random Field (CRF)
3.優(yōu)勢
- 速度很快,DCNN 8fps,CRF需要0.5秒
- 準確率高,當時在PASCAL的語義分割集上效果最好
- 結構簡單,DCNN和CRF的組合
網(wǎng)絡結構—DCNN
- 啥是空洞卷積?
論文中給出了示意圖:
Input stride 也就是空洞因子或者膨脹因子,在同樣的卷積核大小下,通過增加Input stride可以增大卷積核的感受野。更好的示意圖:
可以發(fā)現(xiàn)感受野從3變成 了5,近似的擴大了2倍,卷積核大小仍為3x3,Input stride為2,現(xiàn)在都叫dilate rate。 -
Finetune VGG-16
重溫VGG-16結構圖:
作者為了加載預先在ImageNet訓練好的VGG-16模型,并保證圖片僅縮放了8倍做了如下修改:
- 把全連接層
(fc6、fc7、fc8)改成卷積層(做分割嘛) - 把最后兩個池化層
(pool4、pool5)的步長2改成1(保證feature的分辨率) - 把最后三個卷積層
(conv5_1、conv5_2、conv5_3)的dilate rate設置為2,且第一個全連接層的dilate rate設置為4(保持感受野) - 把最后一個全連接層fc8的通道數(shù)從1000改為21(分類數(shù)為21)
- 加速訓練
第一個全連接層fc6,通道數(shù)從4096變?yōu)?code>1024,卷積核大小從7x7變?yōu)?code>3x3,后續(xù)實驗中發(fā)現(xiàn)此處的dilate rate為12時(LargeFOV),效果最好。
網(wǎng)絡結構—CRF
通常網(wǎng)絡中分類準確率和位置準確性是一對矛盾的存在,有一些工作嘗試在保證分類準確率的條件下解決位置問題:
- 利用卷積網(wǎng)絡中多個層次的信息
- 利用超像素,把位置問題交給底層次的分割處理(此處低層次分割是無語義分割)
一般利用到條件隨機場(CRFs)來處理分割中不光滑問題,它只考慮到目標像素點的附近點,是一個短距離的CRFs。由于網(wǎng)絡中得到的結果已經(jīng)比較光滑了,更希望的是修復一些小的結構,所以用到了全連接的CRF模型。它的能量函數(shù):

- 目標就是要最小化能量函數(shù),先看第一項:
這一項保證了分類的準確率,準確率越高P(x)越接近1(0到1),此項值越小。 - 再看第二項:
此處有:
說明只考慮標簽不相同的兩個像素點,因為是全連接所以這兩個點為模型中任意兩點?。。?/strong>
為其右邊式子的權重,右邊的它是一個高斯核函數(shù):
此高斯核函數(shù)具體為:
此核函數(shù)主要由兩個像素點的位置和顏色決定,位置為主,顏色為輔。右下角帶有α、β、γ的參數(shù)和w1、w2參數(shù),試驗時由w2=3和γ=3決定,搜索最優(yōu)。
效果如圖所示:
可以看到DCNN output的邊緣雖然比較光滑,但是缺少了很多細節(jié)信息,而隨著CRF的迭代優(yōu)化,細節(jié)更加突出。 - 高斯核是啥呢?
借用百度的原話:
高斯核函數(shù)形式為 k(||x-xc||)=exp{- ||x-xc||2/(2*σ2) } 其中xc為核函數(shù)中心,σ為函數(shù)的寬度參數(shù) , 控制了函數(shù)的徑向作用范圍。分布如圖所示:
網(wǎng)絡結構—MLP
作者也嘗試融合了多層次信息,前四個pool層之后都額外接了兩個卷積層,第一個卷積層128 3x3,第二卷積層128 1x1,和最后一個softmax層concat之后會有5*128=640個通道,訓練這部分分支時,固定其它網(wǎng)絡的參數(shù)。
發(fā)現(xiàn)多層次融合后能提升細節(jié)信息,但是沒有CRF來的明顯。
實驗
-
以下是自對比實驗
- MSc—多層次融合
- CRF—全連接條件隨機場
- LargeFOV—fc6的dilate rate為12
從圖中可以發(fā)現(xiàn)DeepLab-CRF-LargeFOV和DeepLab-CRF-LargeFOV的mean IOU相同都為67.64,說明7x7的卷積核和dilate rate為12的3x3卷積核效果一樣,而3x3的卷積核參數(shù)更少。
- 與FCN-8s和TTI-Zoomout-16的效果對比
從上到下依次為原圖、真值圖、被對比的效果圖、DeepLab-CRF的效果圖。












