《TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation》論文筆記
論文鏈接
TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation
論文概述
像素級(jí)分割在計(jì)算機(jī)視覺(jué)中是一項(xiàng)艱巨的任務(wù),經(jīng)典的UNet網(wǎng)絡(luò)結(jié)構(gòu)在醫(yī)學(xué)影像和衛(wèi)星圖像中非常流行。一般來(lái)說(shuō)神經(jīng)網(wǎng)權(quán)重由一些大型數(shù)據(jù)集如ImageNet進(jìn)行初始化后會(huì)有更好的效果。在一些實(shí)際應(yīng)用中,尤其是在醫(yī)學(xué)和交通安全方面,模型的精確是至關(guān)重要的,本文演示如何使用預(yù)訓(xùn)練編碼器來(lái)改善UNet網(wǎng)絡(luò)結(jié)構(gòu),代碼見(jiàn)此:https://github.com/ternaus/TernausNet
論文要點(diǎn)概括
- 經(jīng)典的UNet網(wǎng)絡(luò)權(quán)重采用隨機(jī)初始化方式來(lái)完成,眾所周知訓(xùn)練一個(gè)未過(guò)擬合的網(wǎng)絡(luò)需要大量的數(shù)據(jù)來(lái)完成。因此采用經(jīng)過(guò)Imagenet訓(xùn)練后的權(quán)重來(lái)進(jìn)行初始化這一方法被廣泛應(yīng)用。通過(guò)這種方式來(lái)加速學(xué)習(xí)過(guò)程。
-
此網(wǎng)絡(luò)編碼器部分采用VGG11(VGG11包含7個(gè)3x3卷積層,每個(gè)層后加一個(gè)ReLU,同時(shí)進(jìn)行5次最大池化操作,具體如下圖)
VGG11 -
為構(gòu)造編碼器,這里移除了全連接層替換其為一個(gè)512通道的單卷積層來(lái)分離編碼器和解碼器。為構(gòu)造解碼器這里采用轉(zhuǎn)置卷積層放大特征圖尺寸并且減少一半原通道數(shù)。同時(shí)將轉(zhuǎn)置卷積的輸出與解碼器的相應(yīng)部分的輸出串聯(lián)。特征圖的結(jié)果通過(guò)卷積操作使得其通道數(shù)與對(duì)應(yīng)編碼器部分相同。這一上采樣過(guò)程重復(fù)5次對(duì)應(yīng)5次池化操作。傳統(tǒng)全連接層可接受任意大小圖片輸入,但因?yàn)榇颂幱?個(gè)池化層,每次圖像縮小到原來(lái)一半,即縮小$2^5=32$倍,因此當(dāng)前網(wǎng)絡(luò)要求輸入圖像大小需要能被32整除。下圖為UNet結(jié)構(gòu)與本文網(wǎng)絡(luò)結(jié)構(gòu)圖對(duì)比。
TernausNet
UNet - 結(jié)果與評(píng)價(jià)
- LeCun uniform initializer: IoU = 0.593
- The Encoder is pre-trained on ImageNet: IoU = 0.686
- Fully pre-trained U-Net on Carvana: IoU = 0.687



