這篇paper做的任務(wù)是video-text retrieval任務(wù),也就是給定文本檢索視頻或給定視頻檢索文本。為了應(yīng)對復(fù)雜的語言和視頻內(nèi)容,本文提出了層級化的graph reasoning(HGR),分別從事件(event),action(行為)以及實體(entity)三個層次對視頻和語言建模,構(gòu)建成graph中的node;關(guān)于視頻和語言的對齊也是分別計算三個層次的score,最后給出綜合預(yù)測。

上圖是HGR的網(wǎng)絡(luò)結(jié)構(gòu),對語言來說,event特征就是整句話所有token的attention加權(quán),action和entity分別為表示行為和實體的token特征,entity和action之間連邊,action再和entity連邊,邊的含義即是action和entity的關(guān)系;在graph上推理的時候,作者還提出了兩種邊權(quán),分別是contextual和role,contextual邊權(quán)就是node特征計算attention得到的,role則是節(jié)點間的語義關(guān)系得到,如patient,location等,每種語義關(guān)系都學(xué)習(xí)一個變換矩陣。
對視頻來說,節(jié)點獲取相對簡單一些,event也是所有幀特征的加權(quán)平均,action和entity則是每一幀都運用action或entity變換矩陣提取其行為或?qū)嶓w特征。最終在每個層級的視頻-文本特征間計算匹配score,最后取平均。
個人感覺這種層級化的想法比較自然直接,但是文章在提取視頻的action和entity節(jié)點特征時稍微有些奇怪,特別是action特征,明顯是時序性更強的,那么應(yīng)該是基于多幀特征融合提取,但是文章為了省事直接在每一幀上用一個變換矩陣提取,到底能否提取到相應(yīng)特征還是存疑的。