簡述
Pyramid Scene Parsing Network
作者為了引入足夠的上下文信息以及不同感受野下的全局信息來提出global-scene-level的信息,即PSPNet
Links
代碼:
效果圖

輸出結(jié)果圖.png
與傳統(tǒng)方法FCN的比較

與FCN結(jié)果的比較與分析.png
- Mismatched Relationship:上下文關(guān)系匹配對理解復(fù)雜場景很重要,例如在上圖第一行,在水面上的大很可能是“boat”,而不是“car”。雖然“boat和“car”很像。FCN缺乏依據(jù)上下文推斷的能力。
- Confusion Categories: 許多標(biāo)簽之間存在關(guān)聯(lián),可以通過標(biāo)簽之間的關(guān)系彌補(bǔ)。上圖第二行,把摩天大廈的一部分識別為建筑物,這應(yīng)該只是其中一個,而不是二者。這可以通過類別之間的關(guān)系彌補(bǔ)。
- Inconspicuous Classes:模型可能會忽略小的東西,而大的東西可能會超過FCN接收范圍,從而導(dǎo)致不連續(xù)的預(yù)測。如上圖第三行,枕頭與被子材質(zhì)一致,被識別成到一起了。為了提高不顯眼東西的分割效果,應(yīng)該注重小面積物體。
融合合適的全局特征,將局部和全局信息融合到一起
2017年之前效果最好的文章
提升結(jié)果的Trick
- Various data augmentation
- Dropout to the last convolution
- Using dilated convolution
- Learning rate policy
- Total iteration number
- Correct way to use batch normalization
- Larger cropsize and larger receptive field
(這里面使用了許多細(xì)節(jié)的trick使得效果比較好)
Evils in the details
Deeply supervise for better optimization
實(shí)施過程

系統(tǒng)簡略圖.png

詳細(xì)網(wǎng)絡(luò)結(jié)構(gòu)圖.png
評價(jià)
- 此方法算是用了一些Trick來獲得比賽的高分, 但是效果也很好
- Time consuming so that only useful for competitions
總的方法提升效果如下圖所示:

提升效果匯總.png