DeepLab系列之V1

  1. DeepLab系列之V1
  2. DeepLab系列之V2
  3. DeepLab系列之V3
  4. DeepLab系列之V3+

概述

作者發(fā)現(xiàn)Deep Convolutional Neural Networks (DCNNs) 能夠很好的處理的圖像級別的分類問題,因為它具有很好的平移不變性(空間細節(jié)信息已高度抽象),但是DCNNs很難處理像素級別的分類問題,例如姿態(tài)估計和語義分割,它們需要準確的位置信息。

  1. 兩個問題要處理:
  • 重復池化和下采樣導致分辨率大幅下降,位置信息丟失難以恢復
  • 空間不變性導致細節(jié)信息丟失
  1. 處理方案:
  • 空洞卷積
  • Fully-connected Conditional Random Field (CRF)

3.優(yōu)勢

  • 速度很快,DCNN 8fps,CRF需要0.5秒
  • 準確率高,當時在PASCAL的語義分割集上效果最好
  • 結構簡單,DCNN和CRF的組合

網(wǎng)絡結構—DCNN

  1. 啥是空洞卷積?
    論文中給出了示意圖:

    Input stride 也就是空洞因子或者膨脹因子,在同樣的卷積核大小下,通過增加Input stride可以增大卷積核的感受野。更好的示意圖:

    可以發(fā)現(xiàn)感受野從3變成 了5,近似的擴大了2倍,卷積核大小仍為3x3,Input stride為2,現(xiàn)在都叫dilate rate。
  2. Finetune VGG-16
    重溫VGG-16結構圖:



    作者為了加載預先在ImageNet訓練好的VGG-16模型,并保證圖片僅縮放了8倍做了如下修改:

  • 把全連接層(fc6、fc7、fc8)改成卷積層(做分割嘛)
  • 把最后兩個池化層(pool4、pool5)的步長2改成1(保證feature的分辨率)
  • 把最后三個卷積層(conv5_1、conv5_2、conv5_3)的dilate rate設置為2,且第一個全連接層的dilate rate設置為4(保持感受野)
  • 把最后一個全連接層fc8的通道數(shù)從1000改為21(分類數(shù)為21)
  1. 加速訓練
    第一個全連接層fc6,通道數(shù)從4096變?yōu)?code>1024,卷積核大小從7x7變?yōu)?code>3x3,后續(xù)實驗中發(fā)現(xiàn)此處的dilate rate為12時(LargeFOV),效果最好。

網(wǎng)絡結構—CRF

通常網(wǎng)絡中分類準確率和位置準確性是一對矛盾的存在,有一些工作嘗試在保證分類準確率的條件下解決位置問題:

  • 利用卷積網(wǎng)絡中多個層次的信息
  • 利用超像素,把位置問題交給底層次的分割處理(此處低層次分割是無語義分割)

一般利用到條件隨機場(CRFs)來處理分割中不光滑問題,它只考慮到目標像素點的附近點,是一個短距離的CRFs。由于網(wǎng)絡中得到的結果已經(jīng)比較光滑了,更希望的是修復一些小的結構,所以用到了全連接的CRF模型。它的能量函數(shù):

  • 目標就是要最小化能量函數(shù),先看第一項:

    這一項保證了分類的準確率,準確率越高P(x)越接近1(0到1),此項值越小。
  • 再看第二項:

    此處有:

    說明只考慮標簽不相同的兩個像素點,因為是全連接所以這兩個點為模型中任意兩點?。。?/strong>

    為其右邊式子的權重,右邊的它是一個高斯核函數(shù)

    此高斯核函數(shù)具體為:

    此核函數(shù)主要由兩個像素點的位置顏色決定,位置為主,顏色為輔。右下角帶有αβ、γ的參數(shù)和w1、w2參數(shù),試驗時由w2=3γ=3決定,搜索最優(yōu)。
    效果如圖所示:

    可以看到DCNN output的邊緣雖然比較光滑,但是缺少了很多細節(jié)信息,而隨著CRF的迭代優(yōu)化,細節(jié)更加突出。
  • 高斯核是啥呢?
    借用百度的原話:
    高斯核函數(shù)形式為 k(||x-xc||)=exp{- ||x-xc||2/(2*σ2) } 其中xc為核函數(shù)中心,σ為函數(shù)的寬度參數(shù) , 控制了函數(shù)的徑向作用范圍。分布如圖所示:

網(wǎng)絡結構—MLP

作者也嘗試融合了多層次信息,前四個pool層之后都額外接了兩個卷積層,第一個卷積層128 3x3,第二卷積層128 1x1,和最后一個softmax層concat之后會有5*128=640個通道,訓練這部分分支時,固定其它網(wǎng)絡的參數(shù)。
發(fā)現(xiàn)多層次融合后能提升細節(jié)信息,但是沒有CRF來的明顯。

實驗

  1. 以下是自對比實驗


  • MSc—多層次融合
  • CRF—全連接條件隨機場
  • LargeFOV—fc6的dilate rate為12

從圖中可以發(fā)現(xiàn)DeepLab-CRF-LargeFOVDeepLab-CRF-LargeFOV的mean IOU相同都為67.64,說明7x7的卷積核和dilate rate為12的3x3卷積核效果一樣,而3x3的卷積核參數(shù)更少。

  1. 與FCN-8s和TTI-Zoomout-16的效果對比

    從上到下依次為原圖、真值圖、被對比的效果圖DeepLab-CRF的效果圖。
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容