MCMOT: Multi-Class Multi-Object Tracking using Changing Point Detection
這篇文章比較出彩的地方就是? 多目標(biāo)跟蹤+context region

一、成績(jī)
?Object Detection from Video (VID)? ? ? ? ? ? ? ? 2ndplace(mAP: 73.15%)
?Object Detection/Tracking from Video (VID) 2ndplace(mAP: 49.09%)
二、主要結(jié)構(gòu)
Faster R-CNN Object Detector 加上 MCMOT(Multi-Class Multi-Object Tracking)
(1)Faster R-CNN Object Detector
由于視頻中有些幀中的object 比較小,所以文章采取了large feature map(即去掉VGG-16中的pool4)

同時(shí),視頻幀也存在模糊的情況,本文應(yīng)用了context region
我們知道一幅圖不同proposal對(duì)應(yīng)圖像不同的region,這樣的話每個(gè)region對(duì)與最終分類的貢獻(xiàn)也就不一樣,可以分為三類:
target region:本身包含了分類目標(biāo)(比如人);
context region:上下文,比如出現(xiàn)了一匹馬通常就會(huì)有人(一般是人騎馬);
背景區(qū)域:比如一棵樹和人同時(shí)出現(xiàn)在圖像中,而樹和人在日常生活中并沒有太相關(guān)的聯(lián)系,所以可以把樹看成背景區(qū)域,包含噪聲。
這三種很明顯的target region對(duì)分類的貢獻(xiàn)高于其他兩者,context region高于background noise region。
cross region pooling:跨區(qū)域合并

(2)數(shù)據(jù)集的選取和擴(kuò)充
由于視頻圖片的冗余性和單一性,需要大量的訓(xùn)練數(shù)據(jù),于是文章利用COCO數(shù)據(jù)集進(jìn)行pre_train.
(3)MCMOT: Multi-Class Multi-Object Tracking using Changing Point Detection
這里沒有看的非常明白,但大概意思應(yīng)該是提出基于變換點(diǎn)檢測(cè)的多目標(biāo)跟蹤算法[11],該算法首先檢測(cè)出目標(biāo),然后對(duì)其進(jìn)行跟蹤,并在跟蹤過程中對(duì)跟蹤軌跡點(diǎn)進(jìn)行分析處理,可以較好地緩解跟蹤時(shí)的漂移現(xiàn)象,并能在軌跡異常時(shí)及時(shí)終止跟蹤。
貼一張?jiān)砹鞒虉D

還解釋了是否需要復(fù)雜的跟蹤算法:Based on high performance detection,simple & fastMOT algorithm can achieve competitive result,是不需要的,因?yàn)閐etection部分已經(jīng)有很好的表現(xiàn)了