IGFormer: Interaction Graph Transformer for Skeleton-based Human Interaction Recognition 論文閱讀

論文地址:https://arxiv.org/abs/2207.12100

摘要

人機(jī)交互識(shí)別在許多應(yīng)用中都非常重要。識(shí)別交互的一個(gè)關(guān)鍵線索是交互的身體部位。在這項(xiàng)工作中,我們提出了一種新穎的交互圖變換器(IGFormer)網(wǎng)絡(luò),通過將交互身體部位建模為圖形來進(jìn)行基于骨架的交互識(shí)別。更具體地說,所提出的 IGFormer 根據(jù)交互身體部位之間的語義和距離相關(guān)性構(gòu)建交互圖,并通過基于學(xué)習(xí)圖聚合交互身體部位的信息來增強(qiáng)每個(gè)人的表示。此外,我們提出了一個(gè)語義分區(qū)模塊,將每個(gè)人體骨骼序列轉(zhuǎn)換為一個(gè) Body-Part-Time 序列,以更好地捕獲骨骼序列的空間和時(shí)間信息,用于學(xué)習(xí)圖形。在三個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,我們的模型以顯著的優(yōu)勢(shì)優(yōu)于最先進(jìn)的模型。

介紹

人機(jī)交互識(shí)別在廣泛的應(yīng)用中發(fā)揮著重要作用[1,26,36,31]。 例如,它可用于視覺監(jiān)控,以檢測(cè)“踢”和“拳”等危險(xiǎn)事件。 它還可以用于機(jī)器人控制,以實(shí)現(xiàn)人機(jī)交互。 本文解決了來自骨架序列的人類交互識(shí)別[28,15]。 與 RGB 視頻相比,骨架序列僅提供人體關(guān)節(jié)的 3D 坐標(biāo),這對(duì)于非常規(guī)和可變條件(例如不尋常的視點(diǎn)和雜亂的背景)更加穩(wěn)健。

與單人動(dòng)作識(shí)別相比,識(shí)別人類交互的另一個(gè)關(guān)鍵線索是交互人員的交互身體部位。例如,兩個(gè)人的交互手對(duì)于理解“握手”交互至關(guān)重要。通常,交互中的交互身體部位表現(xiàn)出語義相關(guān)性和對(duì)應(yīng)性。例如,在圖1(a)所示的“拍照”交互中,一個(gè)人拿著相機(jī)的手和另一個(gè)人拿著“是”的手表現(xiàn)出很強(qiáng)的相關(guān)性。類似地,在圖1(b)所示的“握手”中,兩個(gè)人的交互手彼此對(duì)應(yīng)。在這些情況下,探索交互身體部位之間的語義相關(guān)性對(duì)于交互理解至關(guān)重要。此外,對(duì)于某些交互,交互的身體部位展示了距離演變。例如,當(dāng)兩個(gè)人“握手”時(shí),兩個(gè)人的手逐漸靠近。測(cè)量交互人員身體部位之間的距離可以為語義相關(guān)性提供額外的有用信息,以更好地識(shí)別交互。

受上述觀察和Transformer在許多領(lǐng)域的成功應(yīng)用的啟發(fā)[4,5,41,37],我們提出了一種基于Transformer的新型模型,名為Interaction Graph Transformer (IGFormer),用于從骨架序列中進(jìn)行交互識(shí)別。特別是,所提出的 IGFormer 包含一個(gè)圖形交互多頭自我注意 (GI-MSA) 模塊,該模塊旨在從語義和距離級(jí)別對(duì)交互人員的關(guān)系進(jìn)行建模以識(shí)別動(dòng)作。更具體地說,GI-MSA 模塊學(xué)習(xí)基于語義的圖和基于距離的交互圖來表示交互人員的身體部位之間的相互關(guān)系。基于語義的圖由注意力機(jī)制以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí),以捕獲交互身體部位的語義相關(guān)性?;诰嚯x的圖是通過測(cè)量身體部位對(duì)之間的距離來挖掘交互身體部位之間的距離信息來構(gòu)建的。將兩個(gè)交互圖組合在一起,以一種細(xì)化的方式相互補(bǔ)充,使模型適用于對(duì)不同的交互進(jìn)行建模。
為了向 IGFormer 提供骨架序列,一個(gè)直接的解決方案是將每個(gè)骨架序列轉(zhuǎn)換為偽圖像,并將圖像劃分為一系列補(bǔ)丁,類似于 ViT [5] 的方式。然而,這可能會(huì)破壞每個(gè)身體部位骨骼關(guān)節(jié)之間的空間關(guān)系,從而阻礙對(duì)交互身體部位進(jìn)行有效建模以進(jìn)行交互識(shí)別。為了解決這個(gè)問題,我們提出了一個(gè)語義分區(qū)模塊(SPM),將每個(gè)主體的骨架序列轉(zhuǎn)換為一種新的格式,即身體-部分-時(shí)間(BPT)序列,每個(gè)序列都是一個(gè)身體部分的表示在短時(shí)間內(nèi)。 BPT 序列對(duì)身體部位的語義信息和時(shí)間動(dòng)態(tài)進(jìn)行編碼,增強(qiáng)了網(wǎng)絡(luò)對(duì)交互身體部位進(jìn)行建模以進(jìn)行交互識(shí)別的能力。

我們將本文的貢獻(xiàn)總結(jié)如下:

  • 我們引入了一個(gè)名為 IGFormer 的基于 Transformer 的模型,其中包含一個(gè)新的 GI-MSA 模塊,用于從語義和距離級(jí)別學(xué)習(xí)交互人員的關(guān)系,以進(jìn)行基于骨架的人類交互識(shí)別。
  • 我們引入了語義分區(qū)模塊 (SPM),將每個(gè)骨架序列轉(zhuǎn)換為 BPT 序列,以增強(qiáng)交互式身體部位的建模。
  • 我們對(duì)三個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn),并實(shí)現(xiàn)了最先進(jìn)的性能。


    Figure 1: 左圖拍照,右圖握手,分別顯示了語義相關(guān)性和距離相關(guān)性的作用

相關(guān)工作

Skeleton-based Action Recognition

傳統(tǒng)的基于深度學(xué)習(xí)的方法將人體骨骼建模為關(guān)節(jié)坐標(biāo)向量序列 [18,28,7,30,35,13] 或偽圖像 [14,9,10,11,6],然后將其輸入 RNN 或 CNN 以預(yù)測(cè)動(dòng)作。然而,將骨架數(shù)據(jù)表示為向量序列或 2D 網(wǎng)格并不能完全表達(dá)相關(guān)關(guān)節(jié)之間的依賴關(guān)系,因?yàn)槿梭w骨架自然地構(gòu)造為圖形。最近,基于 GCN 的方法 [12,29,23] 將人體骨骼視為一個(gè)圖,其頂點(diǎn)是關(guān)節(jié),邊是骨骼,并在人體圖上應(yīng)用圖卷積網(wǎng)絡(luò) (GCN) 來提取相關(guān)特征。這些方法比基于 RNN 和 CNN 的方法取得了更好的性能,成為基于骨架的動(dòng)作識(shí)別的主流方法。然而,這些方法將每個(gè)人視為一個(gè)獨(dú)立的實(shí)體,不能有效地捕捉到人類的互動(dòng)。在這項(xiàng)工作中,我們專注于基于骨架的人類交互識(shí)別,并提出從語義和距離兩個(gè)層面對(duì)人的交互關(guān)系進(jìn)行建模。

Human Interaction Recognition

人機(jī)交互識(shí)別[36,31,27]是動(dòng)作識(shí)別的一個(gè)子領(lǐng)域。與單人動(dòng)作識(shí)別相比,人類交互方法不僅應(yīng)該能夠?qū)γ總€(gè)個(gè)體的行為進(jìn)行建模,還應(yīng)該能夠捕捉到它們之間的交互。云等人。 [34] 評(píng)估了幾種幾何關(guān)系身體姿勢(shì)特征,包括用于交互建模的關(guān)節(jié)特征、平面特征和速度特征,并發(fā)現(xiàn)關(guān)節(jié)特征優(yōu)于其他特征,而速度特征對(duì)噪聲敏感。吉等人。 [8] 通過對(duì)屬于每個(gè)人的同一身體部位的關(guān)節(jié)進(jìn)行分組來描述每個(gè)身體部位的相互作用來構(gòu)建小姿勢(shì)。最近,佩雷斯等人。 [24] 提出了一種基于雙流 LSTM 的交互關(guān)系網(wǎng)絡(luò),稱為 LSTM-IRN,用于模擬來自同一個(gè)人的身體關(guān)節(jié)的內(nèi)部關(guān)系以及來自不同人的關(guān)節(jié)的相互關(guān)系。然而,LSTM-IRN 忽略了身體部位的距離演化,這被認(rèn)為是人類交互識(shí)別的重要先驗(yàn)知識(shí)。與上述方法不同,我們將交互人類的交互關(guān)系建模為兩個(gè)交互圖,分別從語義和距離級(jí)別構(gòu)建,以捕捉身體部位之間的語義相關(guān)性和距離演變。

Visual Transformer

Transformer 最初在 [32] 中被提出用于機(jī)器翻譯任務(wù),此后被廣泛應(yīng)用于各種自然語言處理 (NLP) 任務(wù)。受 NLP 成功應(yīng)用的啟發(fā),Transformer 已應(yīng)用于計(jì)算機(jī)視覺,并在許多視覺任務(wù)中展示了其可擴(kuò)展性和有效性。 Vision Transformer (ViT) [5] 是第一個(gè)用于圖像識(shí)別的純 Transformer 架構(gòu),與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 相比,它獲得了更好的性能和泛化能力。之后,具有精心設(shè)計(jì)和復(fù)雜架構(gòu)的基于 Transformer 的模型已應(yīng)用于各種下游視覺任務(wù),例如對(duì)象檢測(cè) [40]、語義分割 [38] 和視頻分類 [2]。在基于骨架的動(dòng)作識(shí)別中,Plizzari 等人。 [25] 提出 ST-TR 通過用自注意力算子代替圖卷積算子來模擬關(guān)節(jié)之間的依賴關(guān)系。與 ST-TR 不同,我們專注于人類交互建模,并提出了一種新穎的基于自我注意的 GI-MSA 模塊來建模交互人身體部位之間的相關(guān)性。

Interaction Graph Transformer (TO BE DONE)

識(shí)別人類互動(dòng)的一個(gè)重要線索是互動(dòng)的身體部位。 在本節(jié)中,我們介紹了一個(gè)交互圖轉(zhuǎn)換器(IG-Former),它包含一個(gè)圖交互多頭自注意力(GI-MSA)模塊,用于在語義和距離級(jí)別對(duì)基于骨架的交互的交互身體部位進(jìn)行建模 認(rèn)出。 提出的 IGFormer 還配備了語義分區(qū)模塊 (SPM),旨在保留輸入骨架序列中每個(gè)身體部位的語義和時(shí)間信息,以便更好地學(xué)習(xí)交互式身體部位。
所提出的 IGFormer 的整體架構(gòu)如圖 2 (a) 所示。 給定兩個(gè)交互對(duì)象Sm的骨骼序列,Sn RT ×J×C ,其中T和J分別表示每幀的幀數(shù)和關(guān)節(jié)數(shù),C = 3表示每個(gè)關(guān)節(jié)3D坐標(biāo)的維度 ,我們首先將兩個(gè)骨架輸入到所提出的 SPM 中,以生成兩個(gè) Body-Part-Time (BPT) 序列 Hm、Hn,然后將其輸入到交互變換器塊 (ITB) 堆棧中進(jìn)行交互建模。 最后,將一個(gè)全局平均池化和一個(gè) softmax 分類器應(yīng)用于最后一個(gè) ITB 的輸出以預(yù)測(cè)交互類別。
更具體地說,每個(gè) ITB 包含三個(gè)組件,包括兩個(gè)共享權(quán)重自編碼 (SE) 模塊、圖形交互多頭自注意力 (GI-MSA) 模塊和兩個(gè)前饋網(wǎng)絡(luò) (FFN)。 每個(gè) SE 模塊都是一個(gè)標(biāo)準(zhǔn)的單層 Transformer [5],旨在對(duì)每個(gè)單獨(dú)骨架內(nèi)的身體部位之間的交互進(jìn)行建模。 SE 的兩個(gè)輸出被饋送到 GI-MSA 以對(duì)交互的身體部位進(jìn)行建模,并為每個(gè)交互的人生成增強(qiáng)的表示。 最后,GI-MSA 的每個(gè)輸出都被饋送到層歸一化(LN),然后是 FFN。 我們?cè)?GI-MSA 和 FFN 的輸出之間添加了一個(gè)加法運(yùn)算,以提高模型的表示能力。 ITB 可以表述如下:

其中 Hme 和 Hne 表示 SE 的輸出,H^me 和 H^ne 表示 GI-MSA 模塊的輸出,H^mo 和 H^no 是 ITB 的輸出。
第一個(gè) ITB 中的兩個(gè) SE 模塊將兩個(gè)交互式主題(即 Hm 和 Hn)的 Body-Part-Time (BPT) 表示作為輸入。 下一個(gè) ITB 中 SE 的輸入是前一個(gè) ITB 的輸出。 在以下小節(jié)中,我們將詳細(xì)介紹提議的 SPM 和 GI-MSA。

Figure.2:模型整體架構(gòu)

Semantic Partition Module

與可以直接分成補(bǔ)丁序列以饋送到 Transformer [5] 的自然 2D 圖像不同,人體骨骼序列表示為一組 3D 關(guān)節(jié)。 將 3D 骨架序列轉(zhuǎn)換為 2D 偽圖像并通過視覺轉(zhuǎn)換器(如 ViT [5])可能會(huì)導(dǎo)致失去幀之間的時(shí)間依賴性以及關(guān)節(jié)之間的相關(guān)性。 為了更好地保留骨架序列的空間和時(shí)間信息,我們提出 SPM 將每個(gè)主體的骨架序列轉(zhuǎn)換為 BPT 序列。 BPT 中的每個(gè)元素都是一個(gè)身體部位在短時(shí)間內(nèi)的表示。 所提出的 SPM 的整體架構(gòu)如圖 3 所示。SPM 中有三個(gè)主要步驟,即分區(qū)、調(diào)整大小和投影,下面將對(duì)此進(jìn)行解釋。

分區(qū)。給定交互人物 Sm, Sn 的骨架序列
RT ×J×C ,我們首先將每個(gè)骨架序列劃分為 B=5 個(gè)身體部位,即左
手臂,右臂,左腿,右腿和軀干,根據(jù)人體的自然結(jié)構(gòu)。在劃分操作之后,每個(gè)主體的每個(gè)身體部位表示為 Sm,p, Sn,p RT ×Jp×C ,其中 p B 和 Jp 是
身體部位的關(guān)節(jié)數(shù) p。
調(diào)整大小。不同的身體部位可能有不同數(shù)量的關(guān)節(jié)。為了使這些身體部位適應(yīng) Transformer 的輸入,我們采用線性插值將所有身體部位的空間維度 Jp 調(diào)整為相同
尺寸 P ,即 Sm,p, Sn,p RT ×Jp×C Sm,p, Sn,p RT ×P×C ,其中 p B。
調(diào)整大小操作后,所有 B 身體部位都具有相同的尺寸。
投影。投影操作旨在將每個(gè)人調(diào)整大小的身體部位轉(zhuǎn)換為 BPT 序列以饋送到 Transformer。具體來說,我們?cè)?Sm,p 和 Sn,p 上應(yīng)用內(nèi)核大小為 P P 的 2D 卷積來生成
分別為 2D 特征圖。每個(gè)輸出特征圖的大小為 L D,
其中 L = (T + 2 padding P + 1)/stride 和 D 表示輸出通道的數(shù)量。 “填充”和“步幅”表示卷積濾波器的填充大小和步幅。然后可以將每個(gè) 2D 特征圖拆分為 L 個(gè)步驟的序列,其中每個(gè)步驟是一個(gè)維度為 D 的特征向量。投影可以表示如下:

其中 em,p,j, en,p,j RD 分別表示交互人員 m 和 n 在時(shí)間步 j 處身體部分 p 的嵌入。 j [1, , L], D 是嵌入的維度。 L 是每個(gè)身體部位的時(shí)間步數(shù)。投影后,我們將所有 B 個(gè)身體部位的嵌入逐步連接到所有 L 個(gè)時(shí)間步,以生成一個(gè)具有 M = B L 個(gè)時(shí)間步的序列。該序列稱為 BPT 序列。如圖 3 所示,BPT 序列可以看作是 L 個(gè)子序列的組合,每個(gè)子序列由 B 個(gè)身體部位的特征組成。我們表示從兩個(gè)交互人員的骨架序列生成的 BPT 序列為 Hm,Hn RM×D。向 Hm 和 Hn 添加了可學(xué)習(xí)的位置編碼 [5]形成兩個(gè)共享權(quán)重自編碼 (SE) 模塊的輸入,它們是標(biāo)準(zhǔn)的一層變壓器[5]。 SE的輸出序列表示為Hme,Hne RM×D,然后將其饋送到圖交互多頭自注意力(GI-MSA)模塊以對(duì)交互的身體部位進(jìn)行建模并生成每個(gè)交互式主題的增強(qiáng)表示。

Graph Interaction Multi-head Self-Attention

為了準(zhǔn)確識(shí)別人類交互,一個(gè)關(guān)鍵提示是交互的身體部位??紤]到交互式身體部位可能存在的語義對(duì)應(yīng)和距離特性,我們提出了一個(gè)圖形交互多頭自注意力(GI-MSA)模塊,將交互式身體部位建模為兩個(gè)交互圖,如圖所示在圖 2 (b) 中。具體來說,GI-MSA 包含一個(gè)基于語義的密集交互圖(SDIG)和一個(gè)基于距離的稀疏交互圖(DSIG)。 SDIG 是通過以數(shù)據(jù)驅(qū)動(dòng)的方式探索交互身體部位的語義相關(guān)性來學(xué)習(xí)的,而 DSIG 是基于先驗(yàn)知識(shí)構(gòu)建的,即交互人的物理上接近的身體部位通常是交互身體部位,應(yīng)該是連接的。使用 SDIG 和 DSIG,所提出的 GI-MSA 從語義和距離空間對(duì)人類的交互關(guān)系進(jìn)行建模,以捕獲關(guān)鍵的交互信息。最后,通過聚合來自其他人的交互特征來增強(qiáng)每個(gè)人的表示。

  • 基于語義的密集交互圖為了捕捉人的交互身體部位之間的語義相關(guān)性(例如,一個(gè)人拿著相機(jī)的手和另一個(gè)人在“拍照”動(dòng)作中“是”的手 ),我們?yōu)槊總€(gè)交互的人構(gòu)建了一個(gè)基于語義的密集交互圖(SDIG)。
Figure.3:語義模塊架構(gòu)
  • 基于距離的稀疏交互圖除了從語義層面對(duì)交互關(guān)系進(jìn)行建模外,我們還計(jì)算了交互人員身體部位之間的距離相關(guān)性。 DSIG 是一個(gè)預(yù)定義的圖,可以在數(shù)據(jù)預(yù)處理階段構(gòu)建。 DSIG 的想法是利用身體部位之間的距離來構(gòu)建一個(gè)包含交互人員身體部位之間的連接信息的鄰接矩陣。 更具體地說,如果交互人的兩個(gè)身體部位之間的距離較小,則這兩個(gè)身體部位是相連的。

  • 基于交互的特征生成給定基于語義和距離的交互圖,我們將圖的交互信息與交互人的個(gè)體特征聚合,以生成增強(qiáng)的表示,以更好地識(shí)別交互,如圖 2 (b) 所示 .

實(shí)驗(yàn)

數(shù)據(jù)集

實(shí)現(xiàn)細(xì)節(jié)

消融實(shí)驗(yàn)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容