Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

這篇paper做的任務(wù)是video-text retrieval任務(wù),也就是給定文本檢索視頻或給定視頻檢索文本。為了應(yīng)對復(fù)雜的語言和視頻內(nèi)容,本文提出了層級化的graph reasoning(HGR),分別從事件(event),action(行為)以及實體(entity)三個層次對視頻和語言建模,構(gòu)建成graph中的node;關(guān)于視頻和語言的對齊也是分別計算三個層次的score,最后給出綜合預(yù)測。


上圖是HGR的網(wǎng)絡(luò)結(jié)構(gòu),對語言來說,event特征就是整句話所有token的attention加權(quán),action和entity分別為表示行為和實體的token特征,entity和action之間連邊,action再和entity連邊,邊的含義即是action和entity的關(guān)系;在graph上推理的時候,作者還提出了兩種邊權(quán),分別是contextual和role,contextual邊權(quán)就是node特征計算attention得到的,role則是節(jié)點間的語義關(guān)系得到,如patient,location等,每種語義關(guān)系都學(xué)習(xí)一個變換矩陣。

對視頻來說,節(jié)點獲取相對簡單一些,event也是所有幀特征的加權(quán)平均,action和entity則是每一幀都運用action或entity變換矩陣提取其行為或?qū)嶓w特征。最終在每個層級的視頻-文本特征間計算匹配score,最后取平均。

個人感覺這種層級化的想法比較自然直接,但是文章在提取視頻的action和entity節(jié)點特征時稍微有些奇怪,特別是action特征,明顯是時序性更強的,那么應(yīng)該是基于多幀特征融合提取,但是文章為了省事直接在每一幀上用一個變換矩陣提取,到底能否提取到相應(yīng)特征還是存疑的。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容