maskrcnn-benchmark學(xué)習(xí)

前言

因為后面或多或少還要進(jìn)行檢測的工作,歸根到底這里還是邁不過的一道坎,這次videonet比賽正好也稍微鍛煉過,于是打算基于facebook整理的maskrcnn-benchmark來做。主要是參考

MaskrcnnBenchmark 源碼解析-模型定義(modeling)之RPN網(wǎng)絡(luò)
深度學(xué)習(xí): RPN (區(qū)域候選網(wǎng)絡(luò))

進(jìn)行理解。

環(huán)境搭配

安裝官網(wǎng)給出的install.md安裝教程進(jìn)行,經(jīng)本機測試pytorch1.1及cuda9.0可以完美運行,官方建議的1.0實際上是當(dāng)時在開發(fā)中的1.1版本?,F(xiàn)pytorch版本已更新至1.2版本,目前1.3版本在開發(fā)中。(1.2版本開始起只支持cuda9.2以上的接口需注意)

一些細(xì)節(jié)

Mask R-CNN 的作者提出了一種方法 ROIAlign,在特征圖的不同點采樣,并應(yīng)用雙線性插值。
Roi:特征圖上的每一個RoI都由一個四元組(r,c,h,w)表示,其中(r,c)表示左上角,而(h,w)則代表高度和寬度。RoI 最大池化將每個候選區(qū)域均勻分成 H × W 塊,每塊是將 h×w RoI窗口劃分為 h / H × w /W的子窗口網(wǎng)格,然后將每個子窗口中的值max pooling到相應(yīng)的輸出網(wǎng)格單元。從而將特征圖上大小不一的RoI區(qū)域轉(zhuǎn)化成固定大小的 H*W 的特征圖,送入下一層。(在maskrcnn里)
NMS: 使用極大概率的候選框抑制其它位置相近的候選框。如果有兩個框重疊的部分比較多,就把概率低的剔除掉。
a.從最大概率矩形框F開始,分別判斷A~E與F的重疊度IOU是否大于某個設(shè)定的閾值
b.假設(shè)B、D與F的重疊度超過閾值,那么就扔掉B、D;并標(biāo)記第一個矩形框F,保留下來
c.從剩下的矩形框A、C、E中,選擇概率最大的E,然后判斷E與A、C的重疊度,重疊度大于一定的閾值,那么就扔掉;并標(biāo)記E是保留下來的第二個矩形框
d.一直重復(fù)這個過程,直到所有被保留下來的候選框(有可能存在同一類別的多個目標(biāo))
RetinaNet:和yolo一樣屬于單階段的暴力遞歸網(wǎng)絡(luò),精度卻又比yolo要高很多。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容