論文閱讀筆記 (CVPR 2019) Gait Recognition via Disentangled Representation Learning

一.論文摘要
??步態(tài)是個體的行走方式,是最重要的生物特征識別手段之一?,F(xiàn)有的步態(tài)識別方法大多以輪廓或關(guān)節(jié)體模型為步態(tài)特征。這些方法在處理諸如服裝、攜帶和視角等混雜變量時會導(dǎo)致識別性能下降。為了解決這個問題,我們提出了一個新的自動編碼器框架,明確地從RGB圖像中分離出姿態(tài)和外觀特征,并且基于LSTM的姿態(tài)特征隨時間的融合產(chǎn)生了步態(tài)特征。此外,我們還收集了一個正面視場步態(tài)(Fvg)數(shù)據(jù)集,集中于從正面視角行走中的步態(tài)識別,這是一個具有挑戰(zhàn)性的問題,因為它包含的步態(tài)線索比其他的視角少。FVG還包括其他重要的變化,如步行速度、攜帶和衣服。通過對casia-b、usf和fvg數(shù)據(jù)集的廣泛實驗,我們的方法比從定量的角度看表現(xiàn)出卓越的性能相對于目前最好的方法,計算效率有很大的提高。
二.核心方法
  假設(shè)有三個視頻,視頻1和視頻2中的目標(biāo)對象是同一個人A,在視頻1中A穿著體恤,視頻2中A穿著長羽絨服;視頻3的目標(biāo)對象是B,穿著長羽絨服。視頻1和視頻2中的步態(tài)特征是相同的,視頻2和視頻3的步態(tài)特征不相同。這將導(dǎo)致一個問題,長羽絨服能夠輕易地主導(dǎo)行人特征提取,從而導(dǎo)致視頻2與視頻3比視頻1和視頻2更相似。
  步態(tài)識別的核心挑戰(zhàn)和目標(biāo)是提取步態(tài)特征,這些特征在目標(biāo)對象之間是有區(qū)別的,但不受不同混雜因素(如角度,行走速度和外觀)的影響。
  我們實現(xiàn)這一目標(biāo)的方法是通過特征分離將步態(tài)特征與給定的步行視頻的外觀信息分離開來。

網(wǎng)絡(luò)結(jié)構(gòu)

2.1分離外觀和姿勢特征(姿勢是靜態(tài)的步態(tài)特征)

??本文提出使用編碼器-解碼器網(wǎng)絡(luò)來分離外觀和姿勢特征。將圖像分解后再通過解碼器進(jìn)行重構(gòu)
f_a,f_g=\varepsilon(I)
???其中f_a代表外觀,f_g代表姿勢特征,I表示視頻的一幀圖像,\varepsilon表示編碼器。
\widetilde{I}=D(f_a,f_g)
???其中\widetilde{I}為重構(gòu)圖像,D為解碼器。

2.1.1交叉重構(gòu)損失

???重構(gòu)的\widetilde{I}圖像應(yīng)該接近原始輸入圖像I,但是對同一幀圖像f_af_g進(jìn)行重構(gòu)不能確保編碼器學(xué)習(xí)到準(zhǔn)確的外觀特征和姿勢特征。因此本文采用使用不同幀圖像的f_{a}^{t_1}f_{g}^{t_2}進(jìn)行重構(gòu)(仍然不能保證學(xué)習(xí)到準(zhǔn)確的對應(yīng)特征),旨在防止f_a包含了姿勢特征信息。

???使用L2距離度量交叉重構(gòu)損失,即:
L_{xrecon}=||D(f_{a}^{t_1},f_{g}^{t_2})-I_{t2}||_2^2
???如公式所示,如果f_a包含了t_1時的姿勢信息,與t_2時的一幀圖像做距離度量,損失值會較大

2.1.2步態(tài)相似度損失

???交叉重構(gòu)損失預(yù)防了外觀特征f_a被過度表示,包含了姿勢特征。然而姿態(tài)信息f_g可能包含外觀信息。

???為了使f_g盡可能的只包含姿勢特征信息,本文使用了在兩個不同條件c_1c_2c_1c_2表示不同的外觀信息,如衣服)下的具有相同目標(biāo)人的視頻,將兩個視頻中的步態(tài)信息進(jìn)行距離度量。如下式所示:
L_{gait-sim}=||\frac{1}{n_1}\sum\limits_{t=1}^{n_1}f_g^{(t,c_1)}-\frac{1}{n_2}\sum\limits_{t=1}^{n_2}f_g^{t,c_2}||_2^2
2.2通過聚合學(xué)習(xí)步態(tài)特征

???通過前文的方法,僅僅將姿勢特征和外觀特征分離,姿勢特征組合在一起才是運動的步態(tài)特征。因此,本節(jié)中,采用了LSTM結(jié)構(gòu)來學(xué)習(xí)步態(tài)特征,LSTM連接一個分類器C,對該視頻目標(biāo)人的身份進(jìn)行預(yù)測。將從視頻中提取的姿勢特征送進(jìn)該網(wǎng)絡(luò)。

???讓h^t為LSTM在t時刻的輸出:
h^t=LSTM(f_g^1,f_g^2,...,f_g^t)
???分類器C采用交叉熵作為損失函數(shù):
L_{id-single}=-log(C_k(h^n))
???其中,k表示身份標(biāo)簽。

2.2.1用平均特征識別

???由于LSTM特性,最后一個輸入f_g^t會對輸出h^t產(chǎn)生極大的影響,導(dǎo)致LSTM的輸出變化隨著時間t。因此采用了平均LSTM輸出作為分類的步態(tài)特征。如下式:
f_{gait}^t=\frac{1}{t}\sum\limits_{s=1}^{t}h^s
???分類器的損失被重寫為:
\begin{aligned} L_{id_avg} &=-log(C_k(f_{gait}^n))\\ &=-log(C_k(\frac{1}{n}\sum\limits_{s=1}^{n}h^s)) \end{aligned}
2.2.2增量身份損失

???將t=1到t=n的每個時刻的交叉熵?fù)p失加權(quán)相加:
L_{id-inc-avg}=\frac{1}{n}\sum\limits_{t=1}{n}-w_tlog(C_k(\frac{1}{t}\sum\limits_{s=1}^{t}h^s))
???整個訓(xùn)練過程的損失函數(shù)為:
L=L_{id-inc-avg}+\lambda_rL_{xrecon}+\lambda_sL_{gait-sim}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容