大香蕉尹人,99精品高清,欧美伦理一区二区三区

深度學(xué)習(xí)在計算機視覺領(lǐng)域取得的巨大的發(fā)展，最近幾年CNN一直是目前主流模型所采取的架構(gòu)。最近半年RNN/LSTM應(yīng)用在識別領(lǐng)域逐漸成為一種潮流，RNN在獲取目標(biāo)的上下文中較CNN有獨特的優(yōu)勢。以下我們分析最近有關(guān)RNN做目標(biāo)識別的相關(guān)文章。

1、Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks CVPR2016（論文筆記）

本文的主要貢獻(xiàn)是用skip pooling和 RNNlayer。在多尺度的feature map 上做roi pooling，最后一個feature map是通過rnn得到的。
　　識別精度在VOC2012上達(dá)到76.4%，原因主要是利用多尺度的feature map和rnn layer。文章中用到了很多trick：

1） rnn 用的是修改后的IRNN，速度快，精度與LSTM相似。
2）由于是在多尺度feature map上做roi pooling，每個尺度上feature map的響應(yīng)幅度不一樣，所以需要先做L2-norm，然后再將這些尺度得到roi 特征concate到一起。然后統(tǒng)一在scale到一個尺度上（scale由網(wǎng)絡(luò)學(xué)習(xí)得到）。
3）加入的lstm單元現(xiàn)用segmentation的數(shù)據(jù)集做預(yù)訓(xùn)練，讓權(quán)重預(yù)學(xué)習(xí)。（很重要，有兩個百分點提升）
4）如果把最后一層IRNN換成級聯(lián)的3*3的卷積層，精度下降0.8%，所以IRNN對于提升不是那么明顯。

思考：

1）此方法對于小尺度的物體，如bottle、plant等識別效果不好，是否可以利用最早的feature map做識別，最早的feature 尺度信息保存的較好。
2）rnn只是用來提特征用，并沒有考慮到物體的上下文信息。
3）是否可以在第一輪識別到物體后，利用attention的機制，現(xiàn)將這些物體在feature map上去除，重點識別小的物體。

2、End-to-end people detection in crowded scenes

在Lentet得到特征的基礎(chǔ)用，用LSTM做控制器，按序列輸出得到的框。細(xì)節(jié)方面需要注意的是沒有用NMS，用的hungarian loss（匈牙利算法）。本文最大的貢獻(xiàn)出了源碼，方便做detection的理解LSTM在目標(biāo)識別中的應(yīng)用。

Github倉庫地址：https://github.com/Russell91/ReInspect/

3、CNN-RNN: A Unified Framework for Multi-label Image Classification

本文的主要目的是做圖像的多l(xiāng)abel識別。
　　文中有一句話很重要："when using the same image features to predict multiple labels, objects that are small in the images are easily get ignored or hard torecognize independently". 用同一個feature map預(yù)測多l(xiāng)abel時，往往會忽略小物體。
　　所以作者利用兩個并行的網(wǎng)絡(luò)，第二個網(wǎng)絡(luò)輸入時當(dāng)前輸出的label，先得到label embeding，然后通過rnn得到一向量，融合圖像的feature map得到image embeding，最終輸出當(dāng)前圖像下一個label。
思考：

1）利用Deconvolution 將feature 擴到原圖一樣大小，做小物體的目標(biāo)識別。
2）用不同尺寸的卷積核。

小思考-----為什么原來多級的級聯(lián)的卷積,最后的卷積的感受野很大了,為什么還能識別一些較小的物體,比如行人,想象一下最后一層的類別熱度圖,原因是: a 此類有較強的文理信息b 尺度還是比較大. faster RCNN最后一層卷積層只有14*14,最后也有很好的識別效果,究竟是為什么?

4、Attentive contexts for object detection

文章利用local(多尺度的cnn特征)和global(LSTM生成)來做目標(biāo)識別。用global的原因是:圖像中的其他信息有利于當(dāng)前box的識別，比如圖像中出現(xiàn)其他的汽車對當(dāng)前框識別為汽車的提升很大，但在文章中g(shù)lobal的提升不是很明顯，只有0.6%的提升。作者所用的global信息感覺很一般，并沒有真正用到lstm的作用。
　　思考一下，lstm到底怎么用才能提取global信息：之前不容易識別到的椅子或者瓶子,不能用cnn最后得到的特征，應(yīng)為太稀疏了，一是瓶子之類的沒有紋理信息，而是像椅子之類的紋理太亂,與其他的物體太沖突?？梢岳帽疚膌stm的思路，將隱層的輸出當(dāng)做test時候的隱層輸入，怎么將這20類的所有隱層信息集合起來是個難點。