計算機視覺中 RNN 應(yīng)用于目標(biāo)檢測

深度學(xué)習(xí)在計算機視覺領(lǐng)域取得的巨大的發(fā)展,最近幾年CNN一直是目前主流模型所采取的架構(gòu)。最近半年RNN/LSTM應(yīng)用在識別領(lǐng)域逐漸成為一種潮流,RNN在獲取目標(biāo)的上下文中較CNN有獨特的優(yōu)勢。以下我們分析最近有關(guān)RNN做目標(biāo)識別的相關(guān)文章。

1、Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks CVPR2016論文筆記

本文的主要貢獻(xiàn)是用skip pooling和 RNNlayer。在多尺度的feature map 上做roi pooling,最后一個feature map是通過rnn得到的。
  識別精度在VOC2012上達(dá)到76.4%,原因主要是利用多尺度的feature map和rnn layer。文章中用到了很多trick:

1) rnn 用的是修改后的IRNN,速度快,精度與LSTM相似。
2)由于是在多尺度feature map上做roi pooling,每個尺度上feature map的響應(yīng)幅度不一樣,所以需要先做L2-norm,然后再將這些尺度得到roi 特征concate到一起。然后統(tǒng)一在scale到一個尺度上(scale由網(wǎng)絡(luò)學(xué)習(xí)得到)。
3)加入的lstm單元現(xiàn)用segmentation的數(shù)據(jù)集做預(yù)訓(xùn)練,讓權(quán)重預(yù)學(xué)習(xí)。(很重要,有兩個百分點提升)
4)如果把最后一層IRNN換成級聯(lián)的3*3的卷積層,精度下降0.8%,所以IRNN對于提升不是那么明顯。

思考:

1)此方法對于小尺度的物體,如bottle、plant等識別效果不好,是否可以利用最早的feature map做識別,最早的feature 尺度信息保存的較好。
2)rnn只是用來提特征用,并沒有考慮到物體的上下文信息。
3)是否可以在第一輪識別到物體后,利用attention的機制,現(xiàn)將這些物體在feature map上去除,重點識別小的物體。

2、End-to-end people detection in crowded scenes

在Lentet得到特征的基礎(chǔ)用,用LSTM做控制器,按序列輸出得到的框。細(xì)節(jié)方面需要注意的是沒有用NMS,用的hungarian loss(匈牙利算法)。本文最大的貢獻(xiàn)出了源碼,方便做detection的理解LSTM在目標(biāo)識別中的應(yīng)用。

3、CNN-RNN: A Unified Framework for Multi-label Image Classification

本文的主要目的是做圖像的多l(xiāng)abel識別。
  文中有一句話很重要:"when using the same image features to predict multiple labels, objects that are small in the images are easily get ignored or hard torecognize independently". 用同一個feature map預(yù)測多l(xiāng)abel時,往往會忽略小物體。
  所以作者利用兩個并行的網(wǎng)絡(luò),第二個網(wǎng)絡(luò)輸入時當(dāng)前輸出的label,先得到label embeding,然后通過rnn得到一向量,融合圖像的feature map得到image embeding,最終輸出當(dāng)前圖像下一個label。
思考:

1)利用Deconvolution 將feature 擴到原圖一樣大小,做小物體的目標(biāo)識別。
2)用不同尺寸的卷積核。

小思考-----為什么原來多級的級聯(lián)的卷積,最后的卷積的感受野很大了,為什么還能識別一些較小的物體,比如行人,想象一下最后一層的類別熱度圖,原因是: a 此類有較強的文理信息b 尺度還是比較大. faster RCNN最后一層卷積層只有14*14,最后也有很好的識別效果,究竟是為什么?

4、Attentive contexts for object detection

文章利用local(多尺度的cnn特征)和global(LSTM生成)來做目標(biāo)識別。用global的原因是:圖像中的其他信息有利于當(dāng)前box的識別,比如圖像中出現(xiàn)其他的汽車對當(dāng)前框識別為汽車的提升很大,但在文章中g(shù)lobal的提升不是很明顯,只有0.6%的提升。作者所用的global信息感覺很一般,并沒有真正用到lstm的作用。
  思考一下,lstm到底怎么用才能提取global信息:之前不容易識別到的椅子或者瓶子,不能用cnn最后得到的特征,應(yīng)為太稀疏了,一是瓶子之類的沒有紋理信息,而是像椅子之類的紋理太亂,與其他的物體太沖突??梢岳帽疚膌stm的思路,將隱層的輸出當(dāng)做test時候的隱層輸入,怎么將這20類的所有隱層信息集合起來是個難點。

5. Recurrent Convolutional Neural Network for Object Recognition CVPR2015 清華大學(xué) 鏈接二

每一層卷積后用RNN(類似一種cnn,只不過權(quán)重共享),在參數(shù)較少的情況下,讓網(wǎng)絡(luò)的層數(shù)更深,每層獲取的context信息更豐富,用cuda-convenet實現(xiàn),文章借鑒意義不大,從引用量上就可以看出。

6. Image caption相關(guān)論文

  • show and tell: a neural image caption generator CVPR2015
  • image captioning with deep bidirectional LSTMs

此類文章的主要思想是將圖像的cnn特征當(dāng)做傳統(tǒng)LSTM的輸入,最終生成一句句子描述,對目標(biāo)識別的借鑒意義不大.

7.combining the best of convolutional layers and recurrent layers: a hybrid network for semantic segmentation

本文的主要思想也是用了3層的lstm去提特征,最后用1*1的卷積層降維到K(類別數(shù))層的feature map,本身沒有什么創(chuàng)意,只是效果很好. 而且文中作者又設(shè)計了一個FCN+LSTM的級聯(lián)網(wǎng)絡(luò),效果做到了state-of-the-art. 借鑒的地方不多。

8. semantic object parsing with graph LSTM

本文主要思想是拋棄原來逐點做序列的思想,轉(zhuǎn)而利用超像素做為序列,而且超像素的輸入順序是根據(jù)前一步FCN得到的confidence map決定.
  Graph LSTM是用來做語義分割,是否可以借鑒用來做目標(biāo)識別.

9. pixel recurrent nerual networks

本文利用pixel rnn來做圖像的補全,將各種門的計算用cnn來實現(xiàn),加快計算速度(僅限于門的計算,cell state的更新還是傳統(tǒng)方式),最大的貢獻(xiàn)是用了多中網(wǎng)絡(luò),pixel CNN pixel RNN multiscale RNN---先生成低分辨率的圖像,然后用這些低分變率的pixel作為先驗知識最終生成一幅完整的圖。

[參考]: 綜述:計算機視覺中RNN應(yīng)用于目標(biāo)識別

(轉(zhuǎn)載請注明出處!)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容