第一篇 RCNN
論文名稱:Rich feature hierarchies for accurate object detection and semantic segmentation
提出時(shí)間:2014年
論文地址:https://openaccess.thecvf.com/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf
針對(duì)問題:
從Alexnet提出后,作者等人思考如何利用卷積網(wǎng)絡(luò)來完成檢測任務(wù),即輸入一張圖,實(shí)現(xiàn)圖上目標(biāo)的定位(目標(biāo)在哪)和分類(目標(biāo)是什么)兩個(gè)目標(biāo),并最終完成了RCNN網(wǎng)絡(luò)模型。
創(chuàng)新點(diǎn):
RCNN提出時(shí),檢測網(wǎng)絡(luò)的執(zhí)行思路還是脫胎于分類網(wǎng)絡(luò)。也就是深度學(xué)習(xí)部分僅完成輸入圖像塊的分類工作。那么對(duì)檢測任務(wù)來說如何完成目標(biāo)的定位呢,作者采用的是Selective Search候選區(qū)域提取算法,來獲得當(dāng)前輸入圖上可能包含目標(biāo)的不同圖像塊,再將圖像塊裁剪到固定的尺寸輸入CNN網(wǎng)絡(luò)來進(jìn)行當(dāng)前圖像塊類別的判斷。下圖為RCNN論文中的網(wǎng)絡(luò)完整檢測流程圖。

參考博客:https://blog.csdn.net/briblue/article/details/82012575。
第二篇 OverFeat
論文題目:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks
提出時(shí)間:2014年
論文地址:https://arxiv.org/pdf/1312.6229.pdf
針對(duì)問題:
該論文討論了,CNN提取到的特征能夠同時(shí)用于定位和分類兩個(gè)任務(wù)。也就是在CNN提取到特征以后,在網(wǎng)絡(luò)后端組織兩組卷積或全連接層,一組用于實(shí)現(xiàn)定位,輸出當(dāng)前圖像上目標(biāo)的最小外接矩形框坐標(biāo),一組用于分類,輸出當(dāng)前圖像上目標(biāo)的類別信息。也是以此為起點(diǎn),檢測網(wǎng)絡(luò)出現(xiàn)基礎(chǔ)主干網(wǎng)絡(luò)(backbone)+分類頭或回歸頭(定位頭)的網(wǎng)絡(luò)設(shè)計(jì)模式雛形。
創(chuàng)新點(diǎn):
在這篇論文中還有兩個(gè)比較有意思的點(diǎn),一是作者認(rèn)為全連接層其實(shí)質(zhì)實(shí)現(xiàn)的操作和1x1的卷積是類似的,而且用1x1的卷積核還可以避免FC對(duì)輸入特征尺寸的限制,那用1x1卷積來替換FC層,是否可行呢?作者在測試時(shí)通過將全連接層替換為1x1卷積核證明是可行的;二是提出了offset max-pooling,也就是對(duì)池化層輸入特征不能整除的情況,通過進(jìn)行滑動(dòng)池化并將不同的池化層傳遞給后續(xù)網(wǎng)絡(luò)層來提高效果。如下為論文中的offset max-pooling示意圖。
另外作者在論文里提到他的用法是先基于主干網(wǎng)絡(luò)+分類頭訓(xùn)練,然后切換分類頭為回歸頭,再訓(xùn)練回歸頭的參數(shù),最終完成整個(gè)網(wǎng)絡(luò)的訓(xùn)練。圖像的輸入作者采用的是直接在輸入圖上利用卷積核劃窗。然后在指定的每個(gè)網(wǎng)絡(luò)層上回歸目標(biāo)的尺度和空間位置。
參考博客:https://blog.csdn.net/qq_35732097/article/details/79027095
第三篇 MultiBox
論文題目:Scalable Object Detection using Deep Neural Networks
提出時(shí)間:2014年
論文地址:https://openaccess.thecvf.com/content_cvpr_2014/papers/Erhan_Scalable_Object_Detection_2014_CVPR_paper.pdf
針對(duì)問題:
既然CNN網(wǎng)絡(luò)提取的特征可以直接用于檢測任務(wù)(定位+分類),作者就嘗試將目標(biāo)框(可能包含目標(biāo)的最小外包矩形框)提取任務(wù)放到CNN中進(jìn)行。也就是直接通過網(wǎng)絡(luò)完成輸入圖像上目標(biāo)的定位工作。
創(chuàng)新點(diǎn):
本文作者通過將物體檢測問題定義為輸出多個(gè)bounding box的回歸問題. 同時(shí)每個(gè)bounding box會(huì)輸出關(guān)于是否包含目標(biāo)物體的置信度, 使得模型更加緊湊和高效。先通過聚類獲得圖像中可能有目標(biāo)的位置聚類中心,(800個(gè)anchor box)然后學(xué)習(xí)預(yù)測不考慮目標(biāo)類別的二分類網(wǎng)絡(luò),背景or前景。用到了多尺度下的檢測。
參考博客:https://blog.csdn.net/m0_45962052/article/details/104845125
第四篇 DeepBox
論文題目:DeepBox: Learning Objectness with Convolutional Networks
提出時(shí)間:2015年ICCV
論文地址:https://openaccess.thecvf.com/content_iccv_2015/papers/Kuo_DeepBox_Learning_Objectness_ICCV_2015_paper.pdf
主要針對(duì)的問題:
本文完成的工作與第三篇類似,都是對(duì)目標(biāo)框提取算法的優(yōu)化方案,區(qū)別是本文首先采用自底而上的方案來提取圖像上的疑似目標(biāo)框,然后再利用CNN網(wǎng)絡(luò)提取特征對(duì)目標(biāo)框進(jìn)行是否為前景區(qū)域的排序;而第三篇為直接利用CNN網(wǎng)絡(luò)來回歸圖像上可能的目標(biāo)位置。

創(chuàng)新點(diǎn):
本文作者想通過CNN學(xué)習(xí)輸入圖像的特征,從而實(shí)現(xiàn)對(duì)輸入網(wǎng)絡(luò)目標(biāo)框是否為真實(shí)目標(biāo)的情況進(jìn)行計(jì)算,量化每個(gè)輸入框的包含目標(biāo)的可能性值。
參考博客:https://www.cnblogs.com/zjutzz/p/8232740.html
第五篇 AttentionNet
論文題目:AttentionNet: AggregatingWeak Directions for Accurate Object Detection
提出時(shí)間:2015年ICCV
論文地址:https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yoo_AttentionNet_Aggregating_Weak_ICCV_2015_paper.pdf
主要針對(duì)的問題:
對(duì)檢測網(wǎng)絡(luò)的實(shí)現(xiàn)方案進(jìn)行思考,之前的執(zhí)行策略是,先確定輸入圖像中可能包含目標(biāo)位置的矩形框,再對(duì)每個(gè)矩形框進(jìn)行分類和回歸從而確定目標(biāo)的準(zhǔn)確位置,參考RCNN。那么能否直接利用回歸的思路從圖像的四個(gè)角點(diǎn),逐漸得到目標(biāo)的最小外接矩形框和類別呢?
創(chuàng)新點(diǎn):
通過從圖像的四個(gè)角點(diǎn),逐步迭代的方式,每次計(jì)算一個(gè)縮小的方向,并縮小指定的距離來使得逐漸逼近目標(biāo)。作者還提出了針對(duì)多目標(biāo)情況的處理方式。
參考博客:https://blog.csdn.net/m0_45962052/article/details/104945913
第六篇 SPPNet
論文題目:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
提出時(shí)間:2014年
論文地址:https://link.springer.com/content/pdf/10.1007/978-3-319-10578-9_23.pdf
針對(duì)問題:
如RCNN會(huì)將輸入的目標(biāo)圖像塊處理到同一尺寸再輸入進(jìn)CNN網(wǎng)絡(luò),在處理過程中就造成了圖像塊信息的損失。在實(shí)際的場景中,輸入網(wǎng)絡(luò)的目標(biāo)尺寸很難統(tǒng)一,而網(wǎng)絡(luò)最后的全連接層又要求輸入的特征信息為統(tǒng)一維度的向量。作者就嘗試進(jìn)行不同尺寸CNN網(wǎng)絡(luò)提取到的特征維度進(jìn)行統(tǒng)一。
創(chuàng)新點(diǎn):
作者提出的SPPnet中,通過使用特征金字塔池化來使得最后的卷積層輸出結(jié)果可以統(tǒng)一到全連接層需要的尺寸,在訓(xùn)練的時(shí)候,池化的操作還是通過滑動(dòng)窗口完成的,池化的核寬高及步長通過當(dāng)前層的特征圖的寬高計(jì)算得到。原論文中的特征金字塔池化操作圖示如下。

參考博客:https://blog.csdn.net/weixin_43624538/article/details/87966601
第七篇 Multi Region CNN
論文題目:Object detection via a multi-region & semantic segmentation-aware CNN model
提出時(shí)間:2015年
論文地址:https://openaccess.thecvf.com/content_iccv_2015/papers/Gidaris_Object_Detection_via_ICCV_2015_paper.pdf
針對(duì)問題:
既然第三篇論文multibox算法提出了可以用CNN來實(shí)現(xiàn)輸入圖像中待檢測目標(biāo)的定位,本文作者就嘗試增加一些訓(xùn)練時(shí)的方法技巧來提高CNN網(wǎng)絡(luò)最終的定位精度。
創(chuàng)新點(diǎn):
作者通過對(duì)輸入網(wǎng)絡(luò)的region進(jìn)行一定的處理(通過數(shù)據(jù)增強(qiáng),使得網(wǎng)絡(luò)利用目標(biāo)周圍的上下文信息得到更精準(zhǔn)的目標(biāo)框)來增加網(wǎng)絡(luò)對(duì)目標(biāo)回歸框的精度。具體的處理方式包括:擴(kuò)大輸入目標(biāo)的標(biāo)簽包圍框、取輸入目標(biāo)的標(biāo)簽中包圍框的一部分等并對(duì)不同區(qū)域分別回歸位置,使得網(wǎng)絡(luò)對(duì)目標(biāo)的邊界更加敏感。這種操作豐富了輸入目標(biāo)的多樣性,從而提高了回歸框的精度。

參考博客:https://blog.csdn.net/alfred_torres/article/details/83022967
第八篇 Fast R-CNN
論文題目:Fast-RCNN
提出時(shí)間:2015年
論文地址:https://openaccess.thecvf.com/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf
針對(duì)問題:
RCNN中的CNN每輸入一個(gè)圖像塊就要執(zhí)行一次前向計(jì)算,這顯然是非常耗時(shí)的,那么如何優(yōu)化這部分呢?
創(chuàng)新點(diǎn):
作者參考了SPPNet(第六篇論文),在網(wǎng)絡(luò)中實(shí)現(xiàn)了ROIpooling來使得輸入的圖像塊不用裁剪到統(tǒng)一尺寸,從而避免了輸入的信息丟失。其次是將整張圖輸入網(wǎng)絡(luò)得到特征圖,再將原圖上用Selective Search算法得到的目標(biāo)框映射到特征圖上,避免了特征的重復(fù)提取。

參考博客:https://blog.csdn.net/u014380165/article/details/72851319
第九篇 DeepProposal
論文題目:DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers
提出時(shí)間:2015年
論文地址:https://openaccess.thecvf.com/content_iccv_2015/papers/Ghodrati_DeepProposal_Hunting_Objects_ICCV_2015_paper.pdf
主要針對(duì)的問題:
本文的作者觀察到CNN可以提取到很棒的對(duì)輸入圖像進(jìn)行表征的論文,作者嘗試通過實(shí)驗(yàn)來對(duì)CNN網(wǎng)絡(luò)不同層所產(chǎn)生的特征的作用和情況進(jìn)行討論和解析。
創(chuàng)新點(diǎn):
作者在不同的激活層上以滑動(dòng)窗口的方式生成了假設(shè),并表明最終的卷積層可以以較高的查全率找到感興趣的對(duì)象,但是由于特征圖的粗糙性,定位性很差。相反,網(wǎng)絡(luò)的第一層可以更好地定位感興趣的對(duì)象,但召回率降低。
第十篇 Faster R-CNN
論文題目:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
提出時(shí)間:2015年NIPS
論文地址:https://proceedings.neurips.cc/paper/2015/file/14bfa6bb14875e45bba028a21ed38046-Paper.pdf
主要針對(duì)的問題:
由multibox(第三篇)和DeepBox(第四篇)等論文,我們知道,用CNN可以生成目標(biāo)待檢測框,并判定當(dāng)前框?yàn)槟繕?biāo)的概率,那能否將該模型整合到目標(biāo)檢測的模型中,從而實(shí)現(xiàn)真正輸入端為圖像,輸出為最終檢測結(jié)果的,全部依賴CNN完成的檢測系統(tǒng)呢?
創(chuàng)新點(diǎn):
將當(dāng)前輸入圖目標(biāo)框提取整合到了檢測網(wǎng)絡(luò)中,依賴一個(gè)小的目標(biāo)框提取網(wǎng)絡(luò)RPN來替代Selective Search算法,從而實(shí)現(xiàn)真正的端到端檢測算法。
參考博客:https://zhuanlan.zhihu.com/p/31426458