国产综合人妻中文字幕,缴情夜色在线观看免费,中国美女26sex

這篇paper做的任務(wù)是video-text retrieval任務(wù)，也就是給定文本檢索視頻或給定視頻檢索文本。為了應(yīng)對復(fù)雜的語言和視頻內(nèi)容，本文提出了層級化的graph reasoning（HGR），分別從事件（event），action（行為）以及實體（entity）三個層次對視頻和語言建模，構(gòu)建成graph中的node；關(guān)于視頻和語言的對齊也是分別計算三個層次的score，最后給出綜合預(yù)測。

上圖是HGR的網(wǎng)絡(luò)結(jié)構(gòu)，對語言來說，event特征就是整句話所有token的attention加權(quán)，action和entity分別為表示行為和實體的token特征，entity和action之間連邊，action再和entity連邊，邊的含義即是action和entity的關(guān)系；在graph上推理的時候，作者還提出了兩種邊權(quán)，分別是contextual和role，contextual邊權(quán)就是node特征計算attention得到的，role則是節(jié)點間的語義關(guān)系得到，如patient，location等，每種語義關(guān)系都學(xué)習(xí)一個變換矩陣。

對視頻來說，節(jié)點獲取相對簡單一些，event也是所有幀特征的加權(quán)平均，action和entity則是每一幀都運用action或entity變換矩陣提取其行為或?qū)嶓w特征。最終在每個層級的視頻-文本特征間計算匹配score，最后取平均。

個人感覺這種層級化的想法比較自然直接，但是文章在提取視頻的action和entity節(jié)點特征時稍微有些奇怪，特別是action特征，明顯是時序性更強的，那么應(yīng)該是基于多幀特征融合提取，但是文章為了省事直接在每一幀上用一個變換矩陣提取，到底能否提取到相應(yīng)特征還是存疑的。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av