Temporal Relational Reasoning in Videos(視頻中的時序推理)

本文的原作者為MIT的Bolei Zhou等人原文地址
譯文:lowkeybin

摘要

時序推理是智能物種的基本能力,即隨著時間的推移將目標或?qū)嶓w有意義的轉(zhuǎn)換聯(lián)系起來的能力。在本文中,我們將介紹一種有效且能解釋的網(wǎng)絡(luò)模型--時序網(wǎng)絡(luò)(the Temporal Relation Network(TRN)),該模型能學習并推斷視頻中多尺度上幀的時序依賴問題。我們在最近三個基本需要依賴時序推理的數(shù)據(jù)集Something-Something、Jester和Charades上作行為識別來評估TRN網(wǎng)絡(luò)。我們的結(jié)果表面,提出的TRN網(wǎng)絡(luò)使卷積神經(jīng)網(wǎng)絡(luò)具有了出色的發(fā)現(xiàn)視頻中時序關(guān)系的能力。僅通過對視頻幀稀疏采樣,配備了TRN的網(wǎng)絡(luò)在Something-Something數(shù)據(jù)集上能準確的預(yù)測人類與目標的交互并在Jester數(shù)據(jù)集上識別不同的人體姿態(tài)有著相當競爭力的表現(xiàn)。配備TRN的網(wǎng)絡(luò)在Charades數(shù)據(jù)集上識別常規(guī)行為也優(yōu)于雙流網(wǎng)絡(luò)和3D卷積網(wǎng)絡(luò)。進一步分析表明,模型在視頻中學習到了直觀且可解釋的通用的視覺感知知識。

1.簡介

推理隨時間推移實體之間的關(guān)系的能力對于智能決策至關(guān)重要。時序推理使智能物種能夠根據(jù)相對于過去的現(xiàn)在的情況來分析并推斷出接下來接下來可能發(fā)生的事。比如(圖1),給定一個時間的兩個觀察結(jié)果,人們能容易的識別出視覺世界中的兩個狀態(tài)之間的時序關(guān)系并推斷出一個視頻中兩幀之間發(fā)什么了什么。
時序推理對行為識別至關(guān)重要,形成了一個時間步驟的組成部分。一個單一的行為可以包括多種時序關(guān)系包括長時間尺度和短時間尺度關(guān)系。例如短跑這個行為,包含在起跑架上蹲著、在跑道上奔馳和在終點線撞線這樣的長時間尺度關(guān)系,也包含手腳周期性揮舞的這種短時間尺度關(guān)系。
視頻中的行為識別是計算機視覺的核心主題之一。然而,由于適當?shù)臅r間尺度[1]上描述的行為的模糊性,它仍然很難。很多視頻數(shù)據(jù)集,比如UCF101[2]、Sport1M[3]和THUMOS[4],這些數(shù)據(jù)集中包含很多不需要對長期時間關(guān)系的推理也能被識別的行為:靜止幀和光流法足以識別這些帶有標簽的行為。實際上,經(jīng)典的雙流卷積神經(jīng)網(wǎng)絡(luò)[5]和最近被提出的I3D網(wǎng)絡(luò)[6]都是基于幀和光流法的,它們在這些數(shù)據(jù)集上的行為識別性能都很好。


圖1:兩次觀察之間發(fā)生了什么? 人類可以很容易地推斷出這些觀察之間的時序關(guān)系和變換,但對于神經(jīng)網(wǎng)絡(luò)來說這項任務(wù)仍然很困難。

然而,卷積神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)和觀測結(jié)果都有限或者說根本的結(jié)構(gòu)是以變換和時間關(guān)系為特征而不是以某個實體[7,8]的出現(xiàn)為特征的情況下會表現(xiàn)很差。卷積神經(jīng)網(wǎng)絡(luò)推理時序關(guān)系且預(yù)測觀測結(jié)果發(fā)生了什么變化仍然是巨大的挑戰(zhàn)。圖1所示的這些例子。隨著時間的推移,網(wǎng)絡(luò)需要發(fā)掘通用的視覺感知知識,這超過了使用靜態(tài)幀方法和流光法在目標的外觀中所能發(fā)掘的。
在這項工作中,我們提出了一個簡單且可解釋的網(wǎng)絡(luò)模型--時序網(wǎng)絡(luò)(Temporal Relation Network(TRN)),它支持神經(jīng)網(wǎng)絡(luò)中的時序推理。該模型的靈感來自于[7]中提出的關(guān)系網(wǎng)絡(luò),但是TRN不是對空間進行建模,TRN的目標是描述視頻中觀測結(jié)果的時序關(guān)系。因此,TRN能學習和發(fā)發(fā)掘多時間尺度上的可能的時序關(guān)系。TRN是一個通用且可擴展的模型,它可以與現(xiàn)有的任何CNN架構(gòu)一起以即插即用的方式使用。我們應(yīng)用TRN裝配的網(wǎng)絡(luò)在最近的三個數(shù)據(jù)集上(Something-Something[9]、Jester[10]和Charades[11])來識別不同類型的行為,例如人與物體的交互和手勢,但這些都是基于時序推理。裝配TRN的網(wǎng)絡(luò)對即使是離散的RGB幀也有很具有競爭力的預(yù)測結(jié)果,帶來了超過基線的顯著改進。因此,TRN為卷積神經(jīng)網(wǎng)絡(luò)提供的實用解決方案解決了實用時序推理的行為識別任務(wù)。

1.1相關(guān)工作

用于行為識別的卷積神經(jīng)網(wǎng)絡(luò)

視頻行為識別是計算機視覺的一個核心問題,隨著對圖像識別任務(wù)有著最優(yōu)異性能的深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的崛起,很多工作針對行為識別已經(jīng)設(shè)計了有效的深度卷積神經(jīng)網(wǎng)絡(luò)[3,5,6,14,15,16]。例如,在Sport1M數(shù)據(jù)集[3]上探索了在時間維度上融合RGB幀的各種方法。提出了兩個流的CNN,其中一個靜態(tài)圖像流和另一個光流被提出來融合物體外觀和短期運動信息[5]。3D卷積神經(jīng)網(wǎng)絡(luò)[15]實用3D卷積核從稠密的RGB幀序列中提取特征。時間段網(wǎng)絡(luò)在不同時間段上采樣幀和光流以提取行為識別特征[16]。CNN+LSTM的模型實用CNN網(wǎng)絡(luò)來提取幀的特征并實用LSTM網(wǎng)絡(luò)來整合隨時間推移的特征,也用于識別視頻中的活動[14]。最近,I3D網(wǎng)絡(luò)[6]在兩個流的CNN網(wǎng)絡(luò)并在稠密的RGB和光流序列上采用3D卷積,它在Kinetics數(shù)據(jù)集上有最優(yōu)異的性能[17]。現(xiàn)有CNN網(wǎng)絡(luò)用于行為識別存在幾個重要的問題:1)依賴與光流的預(yù)先提取降低了識別系統(tǒng)的效率;2)鑒于連續(xù)幀中的冗余,密集幀的序列使用3D卷積在計算上使昂貴的;3)因為輸入網(wǎng)絡(luò)的序列幀通常限制為20到30幀之間,所以網(wǎng)絡(luò)很難在這些幀中學習到長期的時序關(guān)系。為了解決這些問題,提出的時序網(wǎng)絡(luò)稀疏的對幀進行采樣,然后學習它們的因果關(guān)系,這比密集采樣并對其進行卷積更有效。我們表明配備TRN的網(wǎng)絡(luò)可以在多個時間尺度上有效的捕捉時序關(guān)系,并且對視頻幀進行稀疏采樣的方法由于密集采樣的方法。

行為識別中的時序信息

對于許多現(xiàn)存視頻數(shù)據(jù)集的行為識別來說(如UCF01[2],Sport1M[3],THUMOS[4]和Kinetics[17]),靜態(tài)幀的外觀和短時間動作(如光流)是識別動作最重要的信息。因此,諸如雙流網(wǎng)絡(luò)[5]和I3D網(wǎng)絡(luò)[6]的活動識別網(wǎng)絡(luò)被定制以捕獲密集幀的這些短期動態(tài)。因此,現(xiàn)有網(wǎng)絡(luò)不需要建立時間關(guān)系推理能力。另一方面,最近通過眾包收集了各種視頻數(shù)據(jù)集,這些數(shù)據(jù)集側(cè)重于順序活動識別:Something-Something數(shù)據(jù)集[9]被收集用于通用人 - 對象交互。它有視頻課程,如“將東西放入某物”,“推送某物”,甚至“假裝打開某物而不實際打開它”。 Jester數(shù)據(jù)集[10]是另一個最近用于手勢識別的視頻數(shù)據(jù)集。視頻由眾包工作者錄制,執(zhí)行27種手勢,如“向上翻閱”,“向左滑動”和“逆時針轉(zhuǎn)動手”。 Charades數(shù)據(jù)集也是一個高級人類活動數(shù)據(jù)集,通過要求群眾工作人員執(zhí)行一系列家庭活動然后記錄自己來收集視頻[11]。為了識別這三個數(shù)據(jù)集中的復(fù)雜活動,將時間關(guān)系推理整合到網(wǎng)絡(luò)中至關(guān)重要。此外,許多以前的作品使用詞袋,運動原子或動作語法模擬視頻的時間結(jié)構(gòu),以進行動作識別和檢測[18,19,20,21,22]。我們不是手動設(shè)計時間結(jié)構(gòu),而是使用更通用的結(jié)構(gòu)來學習端到端訓(xùn)練中的時間關(guān)系。關(guān)于在視頻中建立因果關(guān)系的一項相關(guān)工作是[23]。 [23]使用雙流暹羅網(wǎng)絡(luò)來學習兩幀之間的變換矩陣,然后使用強力搜索來推斷動作類別。因此計算成本很高。我們的TRN更有效地集成了培訓(xùn)和測試中的多幀信息。

關(guān)系推理和直覺物理

關(guān)系推理與直覺物理。最近,關(guān)系推理模塊已被提出用于具有超人性能的視覺問答[7]。我們的工作受到這項工作的啟發(fā),但我們專注于對視頻中的多尺度時間關(guān)系進行建模。在機器人自我監(jiān)督學習領(lǐng)域,已經(jīng)提出了許多模型來學習幀之間的直觀物理學。給定初始狀態(tài)和目標狀態(tài),使用具有強化學習的逆動力學模型來推斷對象狀態(tài)之間的轉(zhuǎn)換[24]。物理相互作用和觀察也用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)[25]。時間對比網(wǎng)絡(luò)用于從第三人視頻觀察中自我監(jiān)督模仿對象操作[26]。我們的工作旨在通過監(jiān)督學習環(huán)境學習視頻中的各種時間關(guān)系。所提出的TRN可以擴展到用于機器人對象操縱的自我監(jiān)督學習。

2.時序關(guān)系網(wǎng)絡(luò)

在本節(jié)中,我們將介紹時態(tài)關(guān)系網(wǎng)絡(luò)的框架。 它很簡單,可以很容易地插入到任何現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中,以實現(xiàn)時間關(guān)系推理。 在后面的實驗中,我們展示了配備TRN的網(wǎng)絡(luò)發(fā)現(xiàn)可解釋的視覺常識知識,以識別視頻中的活動。


圖2:時間關(guān)系網(wǎng)絡(luò)的圖示。 對視頻的代表幀(如上所示)進行采樣并輸入不同的幀關(guān)系模塊。 包括更高的幀關(guān)系,但這里僅示出了2幀,3幀和4幀關(guān)系的子集。

2.1定義時序關(guān)系

受視覺問答[7]的關(guān)系推理模型的啟發(fā),我們將下面的復(fù)合函數(shù)定義為成對的時序關(guān)系:


其中,輸入為視頻V中被選取的有序視頻幀記作V={f1,f2,f3,...,fn},其中fi代表視頻中的第i幀的表示,比如說某個標準CNN的輸出。函數(shù)h和g融合了不同有序幀的特征。這里我們簡單地使用分別具有參數(shù)φ和θ的多層感知機(MLP)。為了高效的計算,我們沒有添加所有組合對,而是統(tǒng)一對幀i和j進行采樣并對每對進行排序。
我們進一步將2幀時間關(guān)系的復(fù)合函數(shù)擴展到更高的幀關(guān)系,例如下面的3幀關(guān)系函數(shù):



其中幀數(shù)總和超過已經(jīng)統(tǒng)一采樣和排序的幀i,j,k的集合。

2.2多尺度時序關(guān)系

為了捕捉多時間尺度上的時序關(guān)系,我們使用下面的復(fù)合函數(shù)來累計不同尺度上的幀關(guān)系:


每個關(guān)系項Td捕獲d個有序幀之間的時序關(guān)系。每個Td都有自己獨立的函數(shù)h和g。請注意,對于每個Td的任何給定d幀樣本,所有時序關(guān)系函數(shù)都是端到端的可區(qū)分的,因此它們都可以與用于提取每個視頻幀特征的CNN一起訓(xùn)練。整個網(wǎng)絡(luò)框架如圖2所示。

2.3有效的訓(xùn)練和測試

當我們訓(xùn)練一個多尺度時序網(wǎng)絡(luò)時,我們可以通過為視頻的每個Td項選擇不同的d幀來對總和進行采樣。然而,我們使用了一種能顯著減小計算量的采樣方案。首先,我們從視頻的N個片段中均勻的采樣一組N幀,VN?V,并使用VN來計算TN(V)。然后,對于每個d<N,我們選擇d幀的k個隨機下采樣Vkd?VN。這些被用于計算每個Td(V)的d幀關(guān)系。這允許僅在N幀上運行CNN的同時對KN個時序關(guān)系進行采樣,且所有部分時端到端一起訓(xùn)練的。
在測試時,我們可以將配備TRN的網(wǎng)絡(luò)與隊列相結(jié)合,以非常有效地處理流視頻。隊列用于緩存從視頻采樣的等長幀的提取的CNN特征,然后將這些特征進一步組合成不同的關(guān)系元組,其進一步相加以預(yù)測活動。 CNN特征僅從關(guān)鍵幀中提取一次然后排隊,因此配備TRN的網(wǎng)絡(luò)能夠在桌面上實時運行以處理來自網(wǎng)絡(luò)攝像頭的流式視頻。

3.實驗

我們在各種行為識別任務(wù)上評估配備TRN的網(wǎng)絡(luò)。對于識別依賴于時間關(guān)系推理的行為,配備TRN的網(wǎng)絡(luò)大幅度的優(yōu)于沒有配備TRN的基準網(wǎng)絡(luò)。我們在用于人類交互識別的Something-Something數(shù)據(jù)集[9]和用于手勢識別的Jester數(shù)據(jù)集上獲得了極具競爭力的結(jié)果[10]。配備TRN的網(wǎng)絡(luò)還在Charades數(shù)據(jù)集[11]中獲得了活動分類的競爭結(jié)果,優(yōu)于僅使用稀疏采樣的RGB幀的Flow + RGB集合模型[27,11]。
三個數(shù)據(jù)集的統(tǒng)計:Something-Something數(shù)據(jù)集(Something-V1 [9]和Something-V2 [28]的統(tǒng)計數(shù)據(jù),其中Something-V2是2018年7月初數(shù)據(jù)集的第二個版本)[9,28],Jester數(shù)據(jù)集[10]和Charades數(shù)據(jù)集[11]在表1中列出。所有三個數(shù)據(jù)集都是來自網(wǎng)絡(luò)標注(crowd-sourced)的,其中通過要求來自網(wǎng)絡(luò)標注(crowd-sourced)的工作者記錄自己執(zhí)行指示行為來收集視頻。與UCF101和Kinetics中的Youtube-type視頻不同,來自網(wǎng)絡(luò)標注視頻(crowd-sourced)中的每個行為通常都有明確的開始和結(jié)束,強調(diào)時間關(guān)系推理的重要性。


表1:用于評估TRNs的數(shù)據(jù)集的統(tǒng)計。

3.1網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練

用于提取圖像特征的網(wǎng)絡(luò)在視覺識別任務(wù)中起著重要作用[29]。來自ResNet [30]等更深層網(wǎng)絡(luò)的功能通常表現(xiàn)更好。我們的目標是評估TRN模塊在視頻中進行時間關(guān)系推理的有效性。因此,我們在所有實驗中將基礎(chǔ)網(wǎng)絡(luò)架構(gòu)固定為相同,并比較CNN模型在有和沒有被提出的的TRN模塊的情況下的性能。
我們采用了在[31]中使用的ImageNet上預(yù)先進行的批量標準化(BN-Inception)的初始化,因為它在準確性和效率之間取得了平衡。我們遵循部分BN的訓(xùn)練策略(凍結(jié)除第一個之外的所有批量標準化層)和在[16]中使用的全局池之后的退出。對于所有三個數(shù)據(jù)集上的訓(xùn)練模型,我們保持MultiScale TRN模塊的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練超參數(shù)相同。我們在實驗中將k = 3設(shè)置為每個關(guān)系模塊中累積關(guān)系三元組的數(shù)量。 gφ只是一個雙層MLP,每層256個單位,而hφ是一個單層MLP,單位數(shù)與類號相匹配。給定幀的CNN特征是來自BN-Inception的全局平均合并層(在最終分類層之前)的激活。鑒于BN-Inception作為基礎(chǔ)CNN,在單個Nvidia Titan Xp GPU上的100個訓(xùn)練時期內(nèi),訓(xùn)練可以在不到24小時內(nèi)完成。在多尺度TRN中,我們包括從2幀TRN到8幀TRN的所有TRN模塊(因此在方程式3中N = 8),因為包括更高幀的TRN帶來了少量的改進并降低了效率。

3.2Something-Something數(shù)據(jù)集上的結(jié)果

Something-Something是最近用于人 - 對象交互識別的視頻數(shù)據(jù)集。有174個類,一些模糊的活動類別具有挑戰(zhàn)性,例如“把某個東西撕成兩半”與“把某個東西撕一點”,“將某些內(nèi)容顛倒過來”與“假裝顛倒過來”。我們可以看到,對象的時間關(guān)系和變換而不是對象的外觀表征了數(shù)據(jù)集中的活動。
表2a中列出了Something-V1和Something-V2數(shù)據(jù)集的驗證集和測試集的結(jié)果?;€是在從每個視頻中隨機選擇的單幀上訓(xùn)練的基礎(chǔ)網(wǎng)絡(luò)。具有TRN的網(wǎng)絡(luò)大幅超越單幀基線。我們通過簡單地對來自任何給定視頻的兩個流的預(yù)測概率進行平均來構(gòu)建雙流TRN。 雙流TRN進一步將Something-v1和Something-v2的驗證集的準確度分別提高到42.01%和55.52%。注意,我們發(fā)現(xiàn)TSN中使用的對幀進行平均池化的光流[16]獲得了比提出的時間關(guān)系池化更好的得分,因此我們在光流量流上使用8幀TSN,得到31.63%和46.41%分別在Something-V1和Something-V2的驗證集上。我們在測試集上進一步提交MultiScale TRN和2流TRN預(yù)測,結(jié)果如表2.a所示。
我們將TRN與TSN [16]進行比較,以驗證時間順序的重要性。 TSN不是連接時間幀的特征,而是簡單地平均深度特征,以便模型僅捕獲特征中的模式的共現(xiàn)而不是時間排序。我們保持所有訓(xùn)練條件相同,并改變兩個模型使用的幀數(shù)。如表2b所示,我們的模型大大超過了TSN。該結(jié)果顯示了幀順序?qū)r間關(guān)系推理的重要性。我們還看到該關(guān)系中包含的其他框架為TRN帶來了進一步的顯著改進。


表2:(a)Something-V1數(shù)據(jù)集(Top1的準確率)和Something-V2數(shù)據(jù)集(top1和top5的準確率)的驗證集和測試集的結(jié)果。(b)在Something-V1的驗證集上比較TRN和TSN幀數(shù)變化帶來的準確率的變化。隨著幀數(shù)的增加TRN顯著的優(yōu)于TSN,表明了時序序列的重要性。

3.3Jester和Charades數(shù)據(jù)集上的結(jié)果

我們進一步評估Jester數(shù)據(jù)集上配備TRN的網(wǎng)絡(luò),Jester是一個用于手勢識別的具有27個類的視頻數(shù)據(jù)集。表3a中列出了Jester數(shù)據(jù)集驗證集的結(jié)果。 表3b中列出了測試集的結(jié)果以及與頂部方法的比較。 MultiScale TRN再次實現(xiàn)了競爭性能,Top1精度接近95%。


表3:Jester數(shù)據(jù)集的上驗證集(a)的結(jié)果和測試集(b)的結(jié)果

我們在最近的Charades數(shù)據(jù)集上評估MultiScale TRN以進行日常行為識別。結(jié)果列于表4.我們的方法優(yōu)于各種方法,如雙流網(wǎng)絡(luò)和C3D [11],以及最近的異步時域(TempField)方法[27]。
三個數(shù)據(jù)集上的多尺度TRN的定性預(yù)測結(jié)果如圖3所示。圖3中的示例表明,TRN模型是因為有為了成功預(yù)測所必須的整體時序序列幀,才有正確的識別動作的能力。例如,逆時針轉(zhuǎn)動類別在反向顯示時將采用不同的類別標簽。此外,成功預(yù)測個體假裝執(zhí)行動作的類別(例如,“假裝將東西放入某物”,如第二行所示)表明網(wǎng)絡(luò)可以捕捉多個尺度的時間關(guān)系,其中短段中包含的幾個較低級別的動作傳達了關(guān)于整個活動類的關(guān)鍵語義信息。
這一出色的表現(xiàn)證明了TRN對時間關(guān)系推理的有效性及其在不同數(shù)據(jù)集中的強大泛化能力。


表4:Carades數(shù)據(jù)集上的行為分類結(jié)果

圖3:預(yù)測樣例在:a)Something-Something, b) Jester, and c) Charades。對于從Something-Something和Jester繪制的每個示例,前兩個預(yù)測用綠色文本表示正確的預(yù)測,紅色表示不正確的預(yù)測。 前2個預(yù)測顯示在Charades幀上方。

3.4TRN中的可解釋的視覺通用感知知識

與先前的視頻分類網(wǎng)絡(luò)(如C3D [15]和I3D [6])相比,所提出的TRN的一個獨特屬性是TRN具有更多可解釋的結(jié)構(gòu)。 在本節(jié)中,我們將通過解決這些時間推理任務(wù)來更深入地分析TRN所學習的視覺通用知識。 我們探討以下四個部分:

視頻代表幀通過TRN投票來識別一個行為

直覺上,一個人類觀察者能通過選取一小組視頻代表幀來捕捉一個行為的本質(zhì)。那么對于被訓(xùn)練用于識別行為的模型是否也適用呢?為了獲得每個TRN的代表幀序列,我們首先從視頻計算等距幀的特征,然后隨機組合它們以生成不同的幀關(guān)系元組并將它們傳遞到TRN中。最后我們用不同TRN的響應(yīng)對關(guān)系元組進行排名。圖4顯示了由不同TRN投票產(chǎn)生的頂級代表幀來識別同一視頻中的一個行為。我們可以看到TRN學習了表征行為的時序關(guān)系。對于相對簡單的操作,單幀足以在正確的操作中建立一定程度的置信度,但在存在轉(zhuǎn)換時容易出錯。 2幀TRN選取最能描述變換的兩幀。同時,對于更加困難的活動類別,例如“假裝戳東西”,兩幀不足以讓人類觀察者區(qū)分。類似地,網(wǎng)絡(luò)需要TRN中的附加幀以正確識別行為。
因此,代表幀的進展及其相應(yīng)的類別預(yù)測告訴我們時間關(guān)系如何幫助模型推理更復(fù)雜的行為。一個特別的例子是圖4中的最后一個視頻:單個框架給出的動作上下文 - 一個靠近書的手 - 足以將頂部預(yù)測縮小到一個定性合理的動作,展開一些東西。類似的兩幀關(guān)系略微增加了初始預(yù)測的概率,盡管這兩個幀對于甚至人類觀察者來說都不足以做出正確的預(yù)測?,F(xiàn)在,三個相關(guān)關(guān)系開始突出顯示Something-Somethings假裝類別的模式特征:初始幀非常類似于某個動作,但后面的幀與該動作的完成不一致,就像它從未發(fā)生過一樣。這種關(guān)系有助于模型將其預(yù)測調(diào)整到正確的類。最后,個人手在4幀關(guān)系的第三幀中的向上運動進一步增加了場景的預(yù)期和觀察到的最終狀態(tài)之間的不一致;類似于動作的動作似乎發(fā)生而對對象沒有影響,因此,鞏固了對正確的類預(yù)測的信心。


由單幀基線網(wǎng)絡(luò),2幀TRN,3幀TRN和4幀TRN確定的頂級代表幀。 TRN在僅僅只給定一小部分幀的情況下學習捕捉活動的本質(zhì)。視頻來自Something-Something數(shù)據(jù)集的驗證集
視頻的時間對齊

觀察到TRN識別的代表幀在一個動作類別的不同實例之間是一致的,這表明TRN非常適合于需要時間上將視頻彼此對齊的任務(wù)。在這里,我們希望通過建立幀序列之間的對應(yīng)關(guān)系來同步多個視頻中的動作。給定相同動作的幾個視頻實例,我們首先為每個視頻選擇最具代表性的幀,并使用它們的幀索引作為“地標”,時間錨點。然后,我們改變兩個連續(xù)錨點之間的視頻片段的幀速率,使得所有單個視頻同時到達錨點。圖5顯示了對齊視頻的樣本。我們可以看到時間關(guān)系捕獲了動作的不同階段。時間對齊也是我們的TRN模型的獨家應(yīng)用,這是以前的視頻網(wǎng)絡(luò)3D卷積網(wǎng)絡(luò)或雙流網(wǎng)絡(luò)無法完成的。


圖5:在來自(a)Something-Something和(b)Jester數(shù)據(jù)集視頻的時間對齊使用最具代表性的幀作為時間錨點。對于每一個動作,有四個不同的視頻使用5個時間錨點來進行對齊。
行為識別中時間順序的重要性

為了驗證幀的時間順序?qū)τ谛袨樽R別的重要性,我們進行了一個實驗,以便在訓(xùn)練TRN時按時間順序和隨機順序比較場景和輸入幀,如圖6a所示。為了訓(xùn)練混洗的TRN,我們隨機地改變關(guān)系模塊中的幀。 在Something-Something數(shù)據(jù)集的顯著差異顯示了時間順序在行為識別中的重要性。更有趣的是,我們在UCF101數(shù)據(jù)集[2]上重復(fù)相同的實驗,并觀察到有序幀和混洗幀之間沒有區(qū)別。這表明UCF101中Youtube類型視頻的活動識別不一定需要時間推理能力,因為沒有那么多偶然關(guān)系與已經(jīng)在進行的活動相關(guān)聯(lián)。
為了進一步研究時間排序如何影響TRN中的活動識別,我們檢查并繪制了顯示在Something-Something數(shù)據(jù)集中繪制的有序和混洗輸入之間類別準確度差異最大的類別,如圖6b所示。一般而言,具有強烈“方向性和大型單向運動的行為,例如”向下移動“,似乎從保留正確的時間順序中獲益最多。這一觀察結(jié)果與連續(xù)運動的破壞和改變視頻幀的潛在后果的觀點一致,可能會使人類觀察者感到困惑,因為這會違背我們直觀的物理概念。
有趣的是,如果在某些情況下完全受到懲罰,那么對于相對靜態(tài)動作的混亂幀的懲罰就不那么嚴重了,其中幾個類別略微受益于改組輸入,正如“推不能滾動到傾斜表面的東西”所觀察到的那樣留在原處。這里,簡單地學習幀的重合而不是時間變換可能足以使模型區(qū)分相似的活動并進行正確的預(yù)測。特別是在具有挑戰(zhàn)性的模糊情況下,例如“假裝扔?xùn)|西”,其中釋放點部分或完全模糊不清,破壞強烈的“運動感”可能會使模型預(yù)測偏離可能的替代方案,“拋出某些東西”,經(jīng)常但是由有序模型錯誤地選擇,從而導(dǎo)致該動作的準確性的奇怪差異。


圖6:(a)分別在Something-Something和UCF101數(shù)據(jù)集上使用有序幀和混洗幀獲得的準確度。在Something-Something數(shù)據(jù)集上,時間順序?qū)τ谧R別行為至關(guān)重要。但是,識別UCF101中的活動并不一定需要時間關(guān)系推理。 (b)前5個行動類別,它們分別在有序和改組幀作為輸入時分別表現(xiàn)出最大增益和最小增益(負)。具有定向運動的動作似乎受到混洗輸入的影響最大。

TSN和TRN之間的區(qū)別在于使用不同的幀特征池化策略,其中使用時間關(guān)系(TR)池化的TRN強調(diào)捕獲幀的時間依賴性,而TSN僅使用平均池化來忽略時間順序。我們詳細評估了兩個池化策略,如表5所示。使用平均池化和TR池化的性能差異實際上反映了視頻數(shù)據(jù)集中時間順序的重要性。測試數(shù)據(jù)集按視頻源分類,前三個是Youtube視頻,另外三個是來自AMT的網(wǎng)絡(luò)標注視頻?;A(chǔ)CNN是BNInception。兩種模型都使用8幀。有趣的是,具有平均池化和TR池化的模型在Youtube視頻上實現(xiàn)了類似的準確性,因此識別Youtube視頻不需要太多的時間順序推理,這可能是由于隨機剪裁的Youtube視頻中的活動通常沒有明確的行動開始或結(jié)束。另一方面,網(wǎng)絡(luò)標注視頻只有一個具有明顯開始和結(jié)束的行為,因此時間關(guān)系池化帶來了顯著的改善。


表5:兩個池化策略的模型在六個視頻數(shù)據(jù)集的準確率。

圖7:使用來自單幀基線,2幀TRN和5幀TRN的深度特征的15個類的視頻樣本的t-SNE圖。更高的幀TRN可以更好地區(qū)分Something-Something數(shù)據(jù)集中的活動。
行為相似性的t-SNE可視化

圖7顯示了用于嵌入來自單幀基線,3幀TRN和5幀TRN的高級特征對驗證集中15個最頻繁行為視頻的t-SNE可視化。 我們可以看到,2幀和5幀TRN的特征可以更好地區(qū)分活動類別。 我們還觀察了可視化圖中類別之間的相似性。 例如,“將某些東西分成兩部分”非常類似于“稍微撕掉一些東西”,類別“折疊某物”,“展開某物”,“拿著東西”,“拿東西超過某物”聚集在一起。


表6:使用多尺度TRN對Something-Something和Jester數(shù)據(jù)集進行提前行為識別。 只有前25%和50%的幀被提供給TRN來預(yù)測活動。 基線是在單幀上訓(xùn)練的模型。
提前行為識別

在行為發(fā)生或完全發(fā)生之前盡早識別行為或甚至預(yù)測和預(yù)測行為是行為識別中具有挑戰(zhàn)性但未被探索的問題。在這里,我們評估我們的TRN模型在提前識別行為時,僅給出每個驗證視頻中的前25%和50%的幀。結(jié)果顯示在表6中。為了比較,我們還包括單幀基線,其被訓(xùn)練在來自視頻的隨機采樣的單個幀上。我們看到TRN可以使用學習到的時序關(guān)系來預(yù)測行為。隨著接收到更多有序幀,性能會提高。圖8顯示了僅使用視頻的前25%和50%幀預(yù)測活動的一些示例。對這些例子的定性評估表明,盡管給予即使對于人類觀察者來說也具有高度不確定性的任務(wù),僅對初始幀進行的模型預(yù)測確實可以作為非常合理的預(yù)測。


圖8:僅給出前25%幀時的提前行為識別。每個視頻的前25%(由左列中顯示的第一幀表示)用于生成前3個預(yù)期預(yù)測和中間列中列出的相應(yīng)概率。行為真實的標簽以藍色箭頭突出顯示,該箭頭指向右側(cè)視頻的最后一幀。

4.總結(jié)

我們提出了一個簡單且可解釋的網(wǎng)絡(luò)模型(名叫時序關(guān)系網(wǎng)絡(luò)(TRN))能對視頻使用神經(jīng)網(wǎng)絡(luò)進行時序關(guān)系推理。我們使用最近幾個數(shù)據(jù)集來評估提出的TRN并公布了僅使用離散幀的完整結(jié)果。最后,我們展示了TRN模型發(fā)現(xiàn)的視頻中的通用視覺感知知識。

參考文獻

  1. Sigurdsson, G.A., Russakovsky, O., Gupta, A.: What actions are needed for un- derstanding human actions in videos? arXiv preprint arXiv:1708.02696 (2017)
  2. Soomro, K., Zamir, A.R., Shah, M.: Ucf101: A dataset of 101 human actions classes from videos in the wild. Proc. CVPR (2012)
  3. Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., Fei-Fei, L.: Large- scale video classification with convolutional neural networks. In: Proc. CVPR. (2014)
  4. Gorban, A., Idrees, H., Jiang, Y., Zamir, A.R., Laptev, I., Shah, M., Sukthankar, R.: Thumos challenge: Action recognition with a large number of classes. In: CVPR workshop. (2015)
  5. Simonyan, K., Zisserman, A.: Two-stream convolutional networks for action recog- nition in videos. In: In Advances in Neural Information Processing Systems. (2014) 568–576
  6. Carreira, J., Zisserman, A.: Quo vadis, action recognition? a new model and the kinetics dataset. arXiv preprint arXiv:1705.07750 (2017)
  7. Santoro, A., Raposo, D., Barrett, D.G., Malinowski, M., Pascanu, R., Battaglia, P., Lillicrap, T.: A simple neural network module for relational reasoning. arXiv preprint arXiv:1706.01427 (2017)
  8. Lake, B.M., Ullman, T.D., Tenenbaum, J.B., Gershman, S.J.: Building machines that learn and think like people. Behavioral and Brain Sciences (2016) 1–101
  9. Goyal, R., Kahou, S., Michalski, V., Materzy′nska, J., Westphal, S., Kim, H., Haenel, V., Fruend, I., Yianilos, P., Mueller-Freitag, M., et al.: The” something something” video database for learning and evaluating visual common sense. Proc. ICCV (2017)
  10. : Twentybn jester dataset: a hand gesture dataset. https://www.twentybn.com/datasets/jester (2017)
  11. Sigurdsson, G.A., Varol, G., Wang, X., Farhadi, A., Laptev, I., Gupta, A.: Hol- lywood in homes: Crowdsourcing data collection for activity understanding. In: European Conference on Computer Vision, Springer (2016) 510–526
  12. Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep con- volutional neural networks. In: Advances in neural information processing systems. (2012) 1097–1105
  13. Zhou, B., Lapedriza, A., Xiao, J., Torralba, A., Oliva, A.: Learning deep features for scene recognition using places database. In: Advances in neural information processing systems. (2014) 487–495
  14. Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., Darrell, T.: Long-term recurrent convolutional networks for visual recognition and description. In: Proceedings of the IEEE conference on computer vision and pattern recognition. (2015) 2625–2634
  15. Tran, D., Bourdev, L., Fergus, R., Torresani, L., Paluri, M.: Learning spatiotem- poral features with 3d convolutional networks. In: Proc. CVPR. (2015)
  16. Wang, L., Xiong, Y., Wang, Z., Qiao, Y., Lin, D., Tang, X., Van Gool, L.: Temporal segment networks: Towards good practices for deep action recognition. In: Proc. ECCV. (2016)
  17. Kay, W., Carreira, J., Simonyan, K., Zhang, B., Hillier, C., Vijayanarasimhan, S., Viola, F., Green, T., Back, T., Natsev, P., et al.: The kinetics human action video dataset. arXiv preprint arXiv:1705.06950 (2017)
  18. Gaidon, A., Harchaoui, Z., Schmid, C.: Temporal localization of actions with actoms. IEEE transactions on pattern analysis and machine intelligence 35(11) (2013) 2782–2795
  19. Pirsiavash, H., Ramanan, D.: Parsing videos of actions with segmental grammars. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recog- nition. (2014) 612–619
  20. Wang, H., Schmid, C.: Action recognition with improved trajectories. In: Proc. ICCV. (2013) 3551–3558
  21. Gaidon, A., Harchaoui, Z., Schmid, C.: Activity representation with motion hier- archies. International journal of computer vision 107(3) (2014) 219–238
  22. Wang, L., Qiao, Y., Tang, X.: Mofap: A multi-level representation for action recognition. International Journal of Computer Vision 119(3) (2016) 254–271
  23. Wang, X., Farhadi, A., Gupta, A.: Actions? transformations. In: Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. (2016) 2658–2667
  24. Agrawal, P., Nair, A.V., Abbeel, P., Malik, J., Levine, S.: Learning to poke by pok- ing: Experiential learning of intuitive physics. In: Advances in Neural Information Processing Systems. (2016) 5074–5082
  25. Pinto, L., Gandhi, D., Han, Y., Park, Y.L., Gupta, A.: The curious robot: Learn- ing visual representations via physical interactions. In: European Conference on Computer Vision, Springer (2016) 3–18
  26. Sermanet, P., Lynch, C., Hsu, J., Levine, S.: Time-contrastive networks: Self- supervised learning from multi-view observation. arXiv preprint arXiv:1704.06888 (2017)
  27. Sigurdsson, G.A., Divvala, S., Farhadi, A., Gupta, A.: Asynchronous temporal fields for action recognition. (2017)
  28. Mahdisoltani, F., Berger, G., Gharbieh, W., Fleet, D., Memisevic, R.: Fine-grained video classification and captioning. arXiv preprint arXiv:1804.09235 (2018)
  29. Sharif Razavian, A., Azizpour, H., Sullivan, J., Carlsson, S.: Cnn features off- the-shelf: an astounding baseline for recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition workshops. (2014)
  30. He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition. (2016) 770–778
  31. Ioffe, S., Szegedy, C.: Batch normalization: Accelerating deep network training by reducing internal covariate shift. In: International Conference on Machine Learn- ing. (2015) 448–456
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容