《Object Detection from Video Tubelets with Convolutional Neural Networks》論文筆記

文章開(kāi)頭指出了ImageNet開(kāi)始引入視頻作為數(shù)據(jù)集,意味著計(jì)算機(jī)視覺(jué)進(jìn)入了新的篇章——可以借鑒做文章的背景陳述

提出了兩個(gè)核心的點(diǎn)


比較算得上亮點(diǎn)的是將檢測(cè)和融合結(jié)合起來(lái)(也許隨便一個(gè)檢測(cè)都可以這么說(shuō)?)


1,A Spatio-Temporal Tubelets Proposal Module


Step 1. Image Object Proposal

The SS method outputs around 2000 object proposals on each video frame. The majority object proposals are negative samples and may not contain objects.

本方案使用了 pre-trained AlexNet model,并且通過(guò)R-CNN去除簡(jiǎn)單得negative object proposals.

并具體提出了去除無(wú)用項(xiàng)設(shè)置的閾值

Step 2. Object Proposal Scoring

Our detector is a GoogLeNet pre-trained on ImageNet image classification data, and fine-tuned for the DET task.

文章在此處的針對(duì)性很強(qiáng),只針對(duì)了30個(gè)特定的類,所以使用的網(wǎng)絡(luò)的pre-train也是直接使用了針對(duì)特定任務(wù)的網(wǎng)絡(luò),對(duì)應(yīng)著30個(gè)SVM來(lái)進(jìn)行分類

這里也用到了 hard negative mining 這個(gè)trick

Step 3. High-confidence Proposal Tracking

使用特定的tracker來(lái)針對(duì)性的解決scale和pose的問(wèn)題

小trick:

we early stop the tracking when the tracking confidence is below a threshold (probability of0.1in our experiments) to reduce false positive tracklets

2, ?A Tubelet Classification and re-scoring Module

一個(gè)很直接的方法就是對(duì) tubelet 中的每個(gè)矩形框進(jìn)行分類。這個(gè)方法和基于R-CNN靜態(tài)圖像目標(biāo)檢測(cè)效果差不多。原因大致有4點(diǎn):

1) tubelets 中的矩形候選區(qū)域數(shù)量要比 Selective Search 少很多,這可能會(huì)讓我們漏掉一些目標(biāo)。

2) 針對(duì)靜態(tài)圖像訓(xùn)練的目標(biāo)檢測(cè)器 對(duì)于目標(biāo)位置的變化比較敏感,如圖1(a)所示,所以tubelets 中的矩形候選區(qū)域的分?jǐn)?shù)比較低。

3) 在跟蹤過(guò)程中,我們進(jìn)行了 proposal sup-pression,這也可能是我們丟失一些目標(biāo)。

4)我們應(yīng)該嵌入 temporal information是的檢測(cè)更穩(wěn)定。

來(lái)自http://blog.csdn.net/cv_family_z/article/details/52873045

step 4. Tubelet box perturbation and max-pooling

提出了兩種方式



再次評(píng)估tubelet,只留下分?jǐn)?shù)高的框(并取代之前重疊的框),

最大池化則是提高控件上的robustness

step 5. Temporal convolution and re-scoring

這里我們提出了一個(gè) Temporal Convolutional Network (TCN) 來(lái)嵌入時(shí)序信息來(lái)提高tubelet 矩形框檢測(cè)分?jǐn)?shù)的穩(wěn)定性。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容