《TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation》論文筆記

《TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation》論文筆記

論文鏈接

TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation

論文概述

像素級(jí)分割在計(jì)算機(jī)視覺(jué)中是一項(xiàng)艱巨的任務(wù),經(jīng)典的UNet網(wǎng)絡(luò)結(jié)構(gòu)在醫(yī)學(xué)影像和衛(wèi)星圖像中非常流行。一般來(lái)說(shuō)神經(jīng)網(wǎng)權(quán)重由一些大型數(shù)據(jù)集如ImageNet進(jìn)行初始化后會(huì)有更好的效果。在一些實(shí)際應(yīng)用中,尤其是在醫(yī)學(xué)和交通安全方面,模型的精確是至關(guān)重要的,本文演示如何使用預(yù)訓(xùn)練編碼器來(lái)改善UNet網(wǎng)絡(luò)結(jié)構(gòu),代碼見(jiàn)此:https://github.com/ternaus/TernausNet

論文要點(diǎn)概括

  1. 經(jīng)典的UNet網(wǎng)絡(luò)權(quán)重采用隨機(jī)初始化方式來(lái)完成,眾所周知訓(xùn)練一個(gè)未過(guò)擬合的網(wǎng)絡(luò)需要大量的數(shù)據(jù)來(lái)完成。因此采用經(jīng)過(guò)Imagenet訓(xùn)練后的權(quán)重來(lái)進(jìn)行初始化這一方法被廣泛應(yīng)用。通過(guò)這種方式來(lái)加速學(xué)習(xí)過(guò)程。
  2. 此網(wǎng)絡(luò)編碼器部分采用VGG11(VGG11包含7個(gè)3x3卷積層,每個(gè)層后加一個(gè)ReLU,同時(shí)進(jìn)行5次最大池化操作,具體如下圖)


    VGG11
  3. 為構(gòu)造編碼器,這里移除了全連接層替換其為一個(gè)512通道的單卷積層來(lái)分離編碼器和解碼器。為構(gòu)造解碼器這里采用轉(zhuǎn)置卷積層放大特征圖尺寸并且減少一半原通道數(shù)。同時(shí)將轉(zhuǎn)置卷積的輸出與解碼器的相應(yīng)部分的輸出串聯(lián)。特征圖的結(jié)果通過(guò)卷積操作使得其通道數(shù)與對(duì)應(yīng)編碼器部分相同。這一上采樣過(guò)程重復(fù)5次對(duì)應(yīng)5次池化操作。傳統(tǒng)全連接層可接受任意大小圖片輸入,但因?yàn)榇颂幱?個(gè)池化層,每次圖像縮小到原來(lái)一半,即縮小$2^5=32$倍,因此當(dāng)前網(wǎng)絡(luò)要求輸入圖像大小需要能被32整除。下圖為UNet結(jié)構(gòu)與本文網(wǎng)絡(luò)結(jié)構(gòu)圖對(duì)比。


    TernausNet

    UNet
  4. 結(jié)果與評(píng)價(jià)
  1. LeCun uniform initializer: IoU = 0.593
  2. The Encoder is pre-trained on ImageNet: IoU = 0.686
  3. Fully pre-trained U-Net on Carvana: IoU = 0.687
Result
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容