第一篇 RCNN

論文名稱：Rich feature hierarchies for accurate object detection and semantic segmentation

提出時(shí)間：2014年

論文地址：https://openaccess.thecvf.com/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

針對(duì)問題：

從Alexnet提出后，作者等人思考如何利用卷積網(wǎng)絡(luò)來完成檢測任務(wù)，即輸入一張圖，實(shí)現(xiàn)圖上目標(biāo)的定位（目標(biāo)在哪）和分類（目標(biāo)是什么）兩個(gè)目標(biāo)，并最終完成了RCNN網(wǎng)絡(luò)模型。

創(chuàng)新點(diǎn)：

RCNN提出時(shí)，檢測網(wǎng)絡(luò)的執(zhí)行思路還是脫胎于分類網(wǎng)絡(luò)。也就是深度學(xué)習(xí)部分僅完成輸入圖像塊的分類工作。那么對(duì)檢測任務(wù)來說如何完成目標(biāo)的定位呢，作者采用的是Selective Search候選區(qū)域提取算法，來獲得當(dāng)前輸入圖上可能包含目標(biāo)的不同圖像塊，再將圖像塊裁剪到固定的尺寸輸入CNN網(wǎng)絡(luò)來進(jìn)行當(dāng)前圖像塊類別的判斷。下圖為RCNN論文中的網(wǎng)絡(luò)完整檢測流程圖。

參考博客：https://blog.csdn.net/briblue/article/details/82012575。

第二篇 OverFeat

論文題目：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

提出時(shí)間：2014年

論文地址：https://arxiv.org/pdf/1312.6229.pdf

針對(duì)問題：

該論文討論了，CNN提取到的特征能夠同時(shí)用于定位和分類兩個(gè)任務(wù)。也就是在CNN提取到特征以后，在網(wǎng)絡(luò)后端組織兩組卷積或全連接層，一組用于實(shí)現(xiàn)定位，輸出當(dāng)前圖像上目標(biāo)的最小外接矩形框坐標(biāo)，一組用于分類，輸出當(dāng)前圖像上目標(biāo)的類別信息。也是以此為起點(diǎn)，檢測網(wǎng)絡(luò)出現(xiàn)基礎(chǔ)主干網(wǎng)絡(luò)(backbone)+分類頭或回歸頭（定位頭）的網(wǎng)絡(luò)設(shè)計(jì)模式雛形。

創(chuàng)新點(diǎn)：

在這篇論文中還有兩個(gè)比較有意思的點(diǎn)，一是作者認(rèn)為全連接層其實(shí)質(zhì)實(shí)現(xiàn)的操作和1x1的卷積是類似的，而且用1x1的卷積核還可以避免FC對(duì)輸入特征尺寸的限制，那用1x1卷積來替換FC層，是否可行呢？作者在測試時(shí)通過將全連接層替換為1x1卷積核證明是可行的；二是提出了offset max-pooling，也就是對(duì)池化層輸入特征不能整除的情況，通過進(jìn)行滑動(dòng)池化并將不同的池化層傳遞給后續(xù)網(wǎng)絡(luò)層來提高效果。如下為論文中的offset max-pooling示意圖。

另外作者在論文里提到他的用法是先基于主干網(wǎng)絡(luò)+分類頭訓(xùn)練，然后切換分類頭為回歸頭，再訓(xùn)練回歸頭的參數(shù)，最終完成整個(gè)網(wǎng)絡(luò)的訓(xùn)練。圖像的輸入作者采用的是直接在輸入圖上利用卷積核劃窗。然后在指定的每個(gè)網(wǎng)絡(luò)層上回歸目標(biāo)的尺度和空間位置。

參考博客：https://blog.csdn.net/qq_35732097/article/details/79027095

第三篇 MultiBox

論文題目：Scalable Object Detection using Deep Neural Networks

提出時(shí)間：2014年

論文地址：https://openaccess.thecvf.com/content_cvpr_2014/papers/Erhan_Scalable_Object_Detection_2014_CVPR_paper.pdf

針對(duì)問題：

既然CNN網(wǎng)絡(luò)提取的特征可以直接用于檢測任務(wù)（定位+分類），作者就嘗試將目標(biāo)框（可能包含目標(biāo)的最小外包矩形框）提取任務(wù)放到CNN中進(jìn)行。也就是直接通過網(wǎng)絡(luò)完成輸入圖像上目標(biāo)的定位工作。

創(chuàng)新點(diǎn)：

本文作者通過將物體檢測問題定義為輸出多個(gè)bounding box的回歸問題. 同時(shí)每個(gè)bounding box會(huì)輸出關(guān)于是否包含目標(biāo)物體的置信度, 使得模型更加緊湊和高效。先通過聚類獲得圖像中可能有目標(biāo)的位置聚類中心，（800個(gè)anchor box）然后學(xué)習(xí)預(yù)測不考慮目標(biāo)類別的二分類網(wǎng)絡(luò)，背景or前景。用到了多尺度下的檢測。

參考博客：https://blog.csdn.net/m0_45962052/article/details/104845125

第四篇 DeepBox

論文題目：DeepBox: Learning Objectness with Convolutional Networks

提出時(shí)間：2015年ICCV

論文地址：https://openaccess.thecvf.com/content_iccv_2015/papers/Kuo_DeepBox_Learning_Objectness_ICCV_2015_paper.pdf

主要針對(duì)的問題：

本文完成的工作與第三篇類似，都是對(duì)目標(biāo)框提取算法的優(yōu)化方案，區(qū)別是本文首先采用自底而上的方案來提取圖像上的疑似目標(biāo)框，然后再利用CNN網(wǎng)絡(luò)提取特征對(duì)目標(biāo)框進(jìn)行是否為前景區(qū)域的排序；而第三篇為直接利用CNN網(wǎng)絡(luò)來回歸圖像上可能的目標(biāo)位置。

創(chuàng)新點(diǎn)：

本文作者想通過CNN學(xué)習(xí)輸入圖像的特征，從而實(shí)現(xiàn)對(duì)輸入網(wǎng)絡(luò)目標(biāo)框是否為真實(shí)目標(biāo)的情況進(jìn)行計(jì)算，量化每個(gè)輸入框的包含目標(biāo)的可能性值。

參考博客：https://www.cnblogs.com/zjutzz/p/8232740.html

第五篇 AttentionNet

論文題目：AttentionNet: AggregatingWeak Directions for Accurate Object Detection

提出時(shí)間：2015年ICCV

論文地址：https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yoo_AttentionNet_Aggregating_Weak_ICCV_2015_paper.pdf

主要針對(duì)的問題：

對(duì)檢測網(wǎng)絡(luò)的實(shí)現(xiàn)方案進(jìn)行思考，之前的執(zhí)行策略是，先確定輸入圖像中可能包含目標(biāo)位置的矩形框，再對(duì)每個(gè)矩形框進(jìn)行分類和回歸從而確定目標(biāo)的準(zhǔn)確位置，參考RCNN。那么能否直接利用回歸的思路從圖像的四個(gè)角點(diǎn)，逐漸得到目標(biāo)的最小外接矩形框和類別呢？

創(chuàng)新點(diǎn)：

通過從圖像的四個(gè)角點(diǎn)，逐步迭代的方式，每次計(jì)算一個(gè)縮小的方向，并縮小指定的距離來使得逐漸逼近目標(biāo)。作者還提出了針對(duì)多目標(biāo)情況的處理方式。

參考博客：https://blog.csdn.net/m0_45962052/article/details/104945913

第六篇 SPPNet

論文題目：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

提出時(shí)間：2014年

論文地址：https://link.springer.com/content/pdf/10.1007/978-3-319-10578-9_23.pdf

針對(duì)問題：

如RCNN會(huì)將輸入的目標(biāo)圖像塊處理到同一尺寸再輸入進(jìn)CNN網(wǎng)絡(luò)，在處理過程中就造成了圖像塊信息的損失。在實(shí)際的場景中，輸入網(wǎng)絡(luò)的目標(biāo)尺寸很難統(tǒng)一，而網(wǎng)絡(luò)最后的全連接層又要求輸入的特征信息為統(tǒng)一維度的向量。作者就嘗試進(jìn)行不同尺寸CNN網(wǎng)絡(luò)提取到的特征維度進(jìn)行統(tǒng)一。

創(chuàng)新點(diǎn)：

作者提出的SPPnet中，通過使用特征金字塔池化來使得最后的卷積層輸出結(jié)果可以統(tǒng)一到全連接層需要的尺寸，在訓(xùn)練的時(shí)候，池化的操作還是通過滑動(dòng)窗口完成的，池化的核寬高及步長通過當(dāng)前層的特征圖的寬高計(jì)算得到。原論文中的特征金字塔池化操作圖示如下。

參考博客：https://blog.csdn.net/weixin_43624538/article/details/87966601

第七篇 Multi Region CNN

論文題目：Object detection via a multi-region & semantic segmentation-aware CNN model

提出時(shí)間：2015年

論文地址：https://openaccess.thecvf.com/content_iccv_2015/papers/Gidaris_Object_Detection_via_ICCV_2015_paper.pdf

針對(duì)問題：

既然第三篇論文multibox算法提出了可以用CNN來實(shí)現(xiàn)輸入圖像中待檢測目標(biāo)的定位，本文作者就嘗試增加一些訓(xùn)練時(shí)的方法技巧來提高CNN網(wǎng)絡(luò)最終的定位精度。

創(chuàng)新點(diǎn)：

作者通過對(duì)輸入網(wǎng)絡(luò)的region進(jìn)行一定的處理（通過數(shù)據(jù)增強(qiáng)，使得網(wǎng)絡(luò)利用目標(biāo)周圍的上下文信息得到更精準(zhǔn)的目標(biāo)框）來增加網(wǎng)絡(luò)對(duì)目標(biāo)回歸框的精度。具體的處理方式包括：擴(kuò)大輸入目標(biāo)的標(biāo)簽包圍框、取輸入目標(biāo)的標(biāo)簽中包圍框的一部分等并對(duì)不同區(qū)域分別回歸位置，使得網(wǎng)絡(luò)對(duì)目標(biāo)的邊界更加敏感。這種操作豐富了輸入目標(biāo)的多樣性，從而提高了回歸框的精度。

參考博客：https://blog.csdn.net/alfred_torres/article/details/83022967

第八篇 Fast R-CNN

論文題目：Fast-RCNN

提出時(shí)間：2015年

論文地址：https://openaccess.thecvf.com/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf

針對(duì)問題：

RCNN中的CNN每輸入一個(gè)圖像塊就要執(zhí)行一次前向計(jì)算，這顯然是非常耗時(shí)的，那么如何優(yōu)化這部分呢？

創(chuàng)新點(diǎn)：

作者參考了SPPNet（第六篇論文），在網(wǎng)絡(luò)中實(shí)現(xiàn)了ROIpooling來使得輸入的圖像塊不用裁剪到統(tǒng)一尺寸，從而避免了輸入的信息丟失。其次是將整張圖輸入網(wǎng)絡(luò)得到特征圖，再將原圖上用Selective Search算法得到的目標(biāo)框映射到特征圖上，避免了特征的重復(fù)提取。

參考博客：https://blog.csdn.net/u014380165/article/details/72851319

第九篇 DeepProposal

論文題目：DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers

提出時(shí)間：2015年

論文地址：https://openaccess.thecvf.com/content_iccv_2015/papers/Ghodrati_DeepProposal_Hunting_Objects_ICCV_2015_paper.pdf

主要針對(duì)的問題：

本文的作者觀察到CNN可以提取到很棒的對(duì)輸入圖像進(jìn)行表征的論文，作者嘗試通過實(shí)驗(yàn)來對(duì)CNN網(wǎng)絡(luò)不同層所產(chǎn)生的特征的作用和情況進(jìn)行討論和解析。

創(chuàng)新點(diǎn)：

作者在不同的激活層上以滑動(dòng)窗口的方式生成了假設(shè)，并表明最終的卷積層可以以較高的查全率找到感興趣的對(duì)象，但是由于特征圖的粗糙性，定位性很差。相反，網(wǎng)絡(luò)的第一層可以更好地定位感興趣的對(duì)象，但召回率降低。

第十篇 Faster R-CNN

論文題目：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

提出時(shí)間：2015年NIPS

論文地址：https://proceedings.neurips.cc/paper/2015/file/14bfa6bb14875e45bba028a21ed38046-Paper.pdf

主要針對(duì)的問題：

由multibox（第三篇）和DeepBox（第四篇）等論文，我們知道，用CNN可以生成目標(biāo)待檢測框，并判定當(dāng)前框?yàn)槟繕?biāo)的概率，那能否將該模型整合到目標(biāo)檢測的模型中，從而實(shí)現(xiàn)真正輸入端為圖像，輸出為最終檢測結(jié)果的，全部依賴CNN完成的檢測系統(tǒng)呢？

創(chuàng)新點(diǎn)：

將當(dāng)前輸入圖目標(biāo)框提取整合到了檢測網(wǎng)絡(luò)中，依賴一個(gè)小的目標(biāo)框提取網(wǎng)絡(luò)RPN來替代Selective Search算法，從而實(shí)現(xiàn)真正的端到端檢測算法。

參考博客：https://zhuanlan.zhihu.com/p/31426458

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

目標(biāo)檢測算法經(jīng)典論文回顧（一）

目標(biāo)檢測算法經(jīng)典論文回顧（一）

第一篇 RCNN

第二篇 OverFeat

第三篇 MultiBox

第四篇 DeepBox

第五篇 AttentionNet

第六篇 SPPNet

第七篇 Multi Region CNN

第八篇 Fast R-CNN

第九篇 DeepProposal

第十篇 Faster R-CNN

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

目標(biāo)檢測算法經(jīng)典論文回顧（一）

第一篇 RCNN

第二篇 OverFeat

第三篇 MultiBox

第四篇 DeepBox

第五篇 AttentionNet

第六篇 SPPNet

第七篇 Multi Region CNN

第八篇 Fast R-CNN

第九篇 DeepProposal

第十篇 Faster R-CNN

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av