Mask R-CNN
之前講的Fast/Faster RCNN的方法都是得到region proposal,這個方法可以直接得到圖像的mask.這個網(wǎng)絡(luò)可以同時得到圖像的label,bounding boxes,mask,而且是instance segmentation.

loss function 結(jié)構(gòu)如下:L=L_cls+L_box+L_mask
其中L_mask 為逐像素的softmax,和多維度交叉熵表示法.
另一個主要貢獻(xiàn)是在于:網(wǎng)絡(luò)把ROIPooling層轉(zhuǎn)變?yōu)镽OIAlign層.由于圖像投影到feature map,feature map投影到maxpooling都存在精度損失問題,所以這兩次損失我們都可以用雙線性插值的方法引入浮點(diǎn)型坐標(biāo).最后在maxpooling的時候,對每一個bin選四個基礎(chǔ)點(diǎn)(可以是浮點(diǎn)型,利用雙線性差值的方法),然后就可以在這四個點(diǎn)里面選一個最大值,就可以.

具體實(shí)現(xiàn)細(xì)節(jié)參考下面博客:
https://blog.csdn.net/u011918382/article/details/79455407