一.論文摘要
??步態(tài)是個體的行走方式,是最重要的生物特征識別手段之一?,F(xiàn)有的步態(tài)識別方法大多以輪廓或關(guān)節(jié)體模型為步態(tài)特征。這些方法在處理諸如服裝、攜帶和視角等混雜變量時會導(dǎo)致識別性能下降。為了解決這個問題,我們提出了一個新的自動編碼器框架,明確地從RGB圖像中分離出姿態(tài)和外觀特征,并且基于LSTM的姿態(tài)特征隨時間的融合產(chǎn)生了步態(tài)特征。此外,我們還收集了一個正面視場步態(tài)(Fvg)數(shù)據(jù)集,集中于從正面視角行走中的步態(tài)識別,這是一個具有挑戰(zhàn)性的問題,因為它包含的步態(tài)線索比其他的視角少。FVG還包括其他重要的變化,如步行速度、攜帶和衣服。通過對casia-b、usf和fvg數(shù)據(jù)集的廣泛實驗,我們的方法比從定量的角度看表現(xiàn)出卓越的性能相對于目前最好的方法,計算效率有很大的提高。
二.核心方法
假設(shè)有三個視頻,視頻1和視頻2中的目標(biāo)對象是同一個人A,在視頻1中A穿著體恤,視頻2中A穿著長羽絨服;視頻3的目標(biāo)對象是B,穿著長羽絨服。視頻1和視頻2中的步態(tài)特征是相同的,視頻2和視頻3的步態(tài)特征不相同。這將導(dǎo)致一個問題,長羽絨服能夠輕易地主導(dǎo)行人特征提取,從而導(dǎo)致視頻2與視頻3比視頻1和視頻2更相似。
步態(tài)識別的核心挑戰(zhàn)和目標(biāo)是提取步態(tài)特征,這些特征在目標(biāo)對象之間是有區(qū)別的,但不受不同混雜因素(如角度,行走速度和外觀)的影響。
我們實現(xiàn)這一目標(biāo)的方法是通過特征分離將步態(tài)特征與給定的步行視頻的外觀信息分離開來。
2.1分離外觀和姿勢特征(姿勢是靜態(tài)的步態(tài)特征)
??本文提出使用編碼器-解碼器網(wǎng)絡(luò)來分離外觀和姿勢特征。將圖像分解后再通過解碼器進(jìn)行重構(gòu)
???其中代表外觀,
代表姿勢特征,
表示視頻的一幀圖像,
表示編碼器。
???其中為重構(gòu)圖像,
為解碼器。
2.1.1交叉重構(gòu)損失
???重構(gòu)的圖像應(yīng)該接近原始輸入圖像
,但是對同一幀圖像
和
進(jìn)行重構(gòu)不能確保編碼器學(xué)習(xí)到準(zhǔn)確的外觀特征和姿勢特征。因此本文采用使用不同幀圖像的
和
進(jìn)行重構(gòu)(仍然不能保證學(xué)習(xí)到準(zhǔn)確的對應(yīng)特征),旨在防止
包含了姿勢特征信息。
???使用L2距離度量交叉重構(gòu)損失,即:
???如公式所示,如果包含了
時的姿勢信息,與
時的一幀圖像做距離度量,損失值會較大
2.1.2步態(tài)相似度損失
???交叉重構(gòu)損失預(yù)防了外觀特征被過度表示,包含了姿勢特征。然而姿態(tài)信息
可能包含外觀信息。
???為了使盡可能的只包含姿勢特征信息,本文使用了在兩個不同條件
和
(
和
表示不同的外觀信息,如衣服)下的具有相同目標(biāo)人的視頻,將兩個視頻中的步態(tài)信息進(jìn)行距離度量。如下式所示:
2.2通過聚合學(xué)習(xí)步態(tài)特征
???通過前文的方法,僅僅將姿勢特征和外觀特征分離,姿勢特征組合在一起才是運動的步態(tài)特征。因此,本節(jié)中,采用了LSTM結(jié)構(gòu)來學(xué)習(xí)步態(tài)特征,LSTM連接一個分類器,對該視頻目標(biāo)人的身份進(jìn)行預(yù)測。將從視頻中提取的姿勢特征送進(jìn)該網(wǎng)絡(luò)。
???讓為LSTM在t時刻的輸出:
???分類器采用交叉熵作為損失函數(shù):
???其中,k表示身份標(biāo)簽。
2.2.1用平均特征識別
???由于LSTM特性,最后一個輸入會對輸出
產(chǎn)生極大的影響,導(dǎo)致LSTM的輸出變化隨著時間t。因此采用了平均LSTM輸出作為分類的步態(tài)特征。如下式:
???分類器的損失被重寫為:
2.2.2增量身份損失
???將t=1到t=n的每個時刻的交叉熵?fù)p失加權(quán)相加:
???整個訓(xùn)練過程的損失函數(shù)為: