ABD-Net:reID行人重試別sota(ICCV2019)

(SOTA in ICCV 2019) ABD-Net: Attentive but Diverse Person Re-Identification
<u>https://arxiv.org/pdf/1908.01114.pdf</u>
論文關鍵詞:注意力attention,正交正則化Orthogonality regularization
關于weight間correlation與正交正則化的相關知識,請參考:http://www.itdecent.cn/p/3a9660e2dfbc

個人總結(jié):本文提出了一種attention網(wǎng)絡,網(wǎng)絡同時用到了channel wise attention與spatial wise attention,但是這樣高度attention的特征會造成correlation過高,retrieve階效果不好,因此加入了正交正則化來讓attention變得diverse。最終在多個數(shù)據(jù)集包括MSMT達到了sota效果。

但是本文模型結(jié)構(gòu)可能偏復雜,計算attention步驟計算量大,且特征為兩路特征拼接而成,輸出特征維度過大(2048),可能在最終計算效率上存在缺陷。

前言
由于一些遮擋、身體不完全的情況存在,attention機制被采用進來,去使得特征主要捕捉人體的外表信息。

一個更理想的模型是要同時保證attentive和diverse:
1、attentive的目的是糾正不對齊的現(xiàn)象,減小背景的特征占比,增大前景的比重
2、diverse的目的是feature間的correlation更加diverse,使得檢索環(huán)節(jié)效率更高,特征空間表達更詳細,因為模型過分關注前景后,由于訓練樣本不均衡導致feature與網(wǎng)絡weight間高correlation會更加嚴重,進而限制了特征的表達。

Attention部分的做法

1、channel wise attention module

Attention機制的目的是,關注行人的前景特征,去除無關背景。

作為一種共識,深層CNN提取的特征是含有語義信息的,在reID任務中,我們假設人體的深層特征也是存在共通性的,比如一些channel共享相似的語義信息(比如前景人體、遮擋物、背景等),因此這部分的目的是聚集這部分語義相似的channel。

image.png

A=C x H x W代表特征圖,C是這個特征圖的通道數(shù),計算各通道間的相似性矩陣X如下

image.png

這個xij代表channel i 對channel j的影響程度,最終得到輸出的特征圖為

image.png

其中γ是一個超參數(shù),調(diào)整channel wise attention 的影響程度。

2、position attention module

雖然本文用的是position,但理解上和傳統(tǒng)說的spatial attention 應該是同個意思,只是改了個說法。這個模塊被設計來聚集語義上相近的像素。

image.png

輸入的特征圖首先放入卷積層,卷積層帶有BN操作與ReLU激活,然后計算像素相似矩陣S,最終得到輸出特征E,計算流程與channel attention module 類似。

Diversity模塊:正交正則化

正交正則化使得模型學到信息更豐富與diverse更高的feature。一些研究使用了hard orthogonality約束,使用SVD分解,去嚴格約束解在stiefel 流型(通過坐標原點的所有n維平面集合,可看做商空間),但是對高維特征進行svd分解開銷過大,目前有一些soft orthogonality的方法,能保證正則化后相乘回來的gram 矩陣的二范數(shù)幾乎不變.

*知識補充:

1、奇異矩陣:若A找不到一個矩陣B,是的AB=BA=I,那么A是奇異的,反之為非奇異矩陣;奇異矩陣的特點為行列式等于0;(singular,找不對配對的相乘為I的矩陣,所以也可以理解為單身矩陣)

2、矩陣條件數(shù):表征矩陣的奇異程度。

本文提出一種新方法,直接正則化FFT的條件數(shù)

網(wǎng)絡結(jié)構(gòu)總覽

image.png

本文增加了一層CAM和OF(特征正交正則化)在 res_conv_2 block上,正則化后的特征作為block 3的輸入,block4以后,block5的網(wǎng)絡分為了平行的兩條全局分支與注意力分支,最終兩個分支的特征concate起來就是最終feature。所有的卷積層都使用了OW(權重正交正則化)

注意力分支使用的卷積結(jié)構(gòu)與resnet50的block5完全一致,輸出特征圖進入縮小層(reduction layer)。注意力分支的特征同時進入CAM和PAM,兩個注意力分支輸出的特征

element wise加和,最終和輸入特征拼接起來。

global分支經(jīng)過block5之后,先進行一次global pooling后再進行一次reduction layer.

最終訓練用的loss為:

image.png

reduction layer:由線性層、BN層、RELU、dropout構(gòu)成,具體結(jié)構(gòu)需要參考:

<u>https://github.com/KaiyangZhou/deep-person-reid</u>

訓練細節(jié)與具體實現(xiàn):

輸入圖片resize成384X128,使用了隨機水平翻轉(zhuǎn)、隨機擦除、像素歸一化等argumentation操作。測試集僅用normalization.注意力分支的特征圖為1024x24x8,全局分支特征圖為2048x24x8,最終拼接global pooling得到的特征為2048。

Back bone 為resnet50,使用two-step方法transfer learning去finetune模型:first step.先凍結(jié)backbone 權重,只訓練reduction layer,分類器和所有attention 模塊共10個epoch,期間只用cross entropy和triplet。Second step.所有層開始訓練60個epoch,所有l(wèi)oss都運行,參數(shù)選擇βtr = 10?1 , βOF = 10?6 ,βOW = 10?3 , margin for triplet loss α = 1.2.

優(yōu)化器為adam,使用了warmup。(本文的baseline基本全部用到了之前的strong baseline)。

評測指標:mAP,RANK-1。

實驗結(jié)果:

實驗結(jié)果在三個數(shù)據(jù)集上測評market,Duke,MSMT,對比用baseline為resnet50+softmax,一共設計了9組實驗,以判別PAM,CAM, O.W. , O.F.等各trick的作用。

image.png

實驗結(jié)果如下:

1、PAM和CAM在兩個數(shù)據(jù)集上都提升了baseline,同時使用兩種attention,使得結(jié)果有了進一步提升

2、OF,OW也都能提升效果,一起使用能更進一步提升效果,因此本文提出的正交正則化是證明有效的。另外也hard svd作了對比,發(fā)現(xiàn)這種基于OW的soft svd效果反而更好。

3、組合attention和diversity,指標又有了進一步的提升,如果在Loss加入triplet,那么還能進一步提升。

特征圖可視化

image.png

可以看到CAM使得網(wǎng)絡更加關注與人體上的特征,防止過擬合到與人體無關的噪音上,但是過于集中的特征會使得特征表示上更加相關,加入了OW后發(fā)現(xiàn)特征確實變得diverse了:處理后的特征達到了更好的平衡,即關注了更多人體部分的特征,同時也很好的把人從背景分割出來。

Feature correlation

本文還對比了不同方法下channel輸出的特征的correlation matrix。特征為global pooling 前,reshape成CXN,其中N=HXW,發(fā)現(xiàn)baseline網(wǎng)絡的特征關聯(lián)最低=0.049,加入了PAM和CAM后,關聯(lián)度變高=0.368,而在加入了OW正則化后,這個關聯(lián)度確實被抑制了=0.214;(這個correlation指的是什么?)

觀察feature的embedding分布,發(fā)現(xiàn)加了attention后,特征分布變散了,加了ow后又聚了回來

image.png
最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容