GNN文獻(xiàn)

Learning Human-Object Interactions by Graph Parsing Neural Networks????(ECCV 2018)

本文研究了圖像和視頻中人-物交互(HOI)的檢測(cè)和識(shí)別問題。本文介紹了圖解析神經(jīng)網(wǎng)絡(luò)(GPNN),它是一種端到端可微的結(jié)構(gòu)知識(shí)集成框架。對(duì)于給定的場(chǎng)景,GPNN推斷一個(gè)解析圖,該解析圖包括i)由鄰接矩陣表示的HOI圖結(jié)構(gòu),以及ii)節(jié)點(diǎn)標(biāo)簽。在消息傳遞推理框架中,GPNN迭代計(jì)算鄰接矩陣和節(jié)點(diǎn)標(biāo)簽。我們?cè)趫D像和視頻的三個(gè)HOI檢測(cè)基準(zhǔn)上廣泛評(píng)估了我們的模型:HICO-DET、V-COCO和CAD-120數(shù)據(jù)集。我們的方法明顯優(yōu)于目前最先進(jìn)的方法,驗(yàn)證了GPNN對(duì)大型數(shù)據(jù)集的可伸縮性以及對(duì)時(shí)空設(shè)置的適用性。

https://github.com/SiyuanQi/gpnn

176★



Learning Conditioned Graph Structures for Interpretable Visual Question Answering????(NIPS2018)

視覺問答是一個(gè)具有挑戰(zhàn)性的問題,需要結(jié)合計(jì)算機(jī)視覺和自然語(yǔ)言處理的概念。大多數(shù)現(xiàn)有的方法使用兩個(gè)流策略,計(jì)算圖像和問題特征,因此使用多種技術(shù)合并。然而,很少有人依賴于更高層次的圖像表示,它可以捕捉語(yǔ)義和空間關(guān)系。本文提出了一種基于圖的可視化問答方法。我們的方法結(jié)合了一個(gè)圖形學(xué)習(xí)模塊,該模塊學(xué)習(xí)輸入圖像的特定于問題的圖形表示,以及最近的圖形卷積概念,旨在學(xué)習(xí)捕獲特定于問題的交互的圖像表示。我們?cè)赩QA v2數(shù)據(jù)集上測(cè)試了我們的方法,使用了一個(gè)簡(jiǎn)單的基線架構(gòu),該架構(gòu)由所提出的圖形學(xué)習(xí)模塊增強(qiáng)。結(jié)果表明,該方法具有良好的解釋性,準(zhǔn)確率為66.18%。

https://github.com/aimbrain/vqa-project

106★



Structural-RNN: Deep Learning on Spatio-Temporal Graphs????(CVPR2016)

深層遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)雖然對(duì)序列的建模能力很強(qiáng),但缺乏直觀的高層時(shí)空結(jié)構(gòu)。盡管計(jì)算機(jī)視覺中的許多問題本質(zhì)上都有一個(gè)潛在的高層結(jié)構(gòu),可以從中受益。時(shí)空?qǐng)D是一種流行的工具,可以在真實(shí)世界問題的表達(dá)中強(qiáng)加如此高層次的直覺。本文提出了一種將高階時(shí)空?qǐng)D的能力與遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)序列學(xué)習(xí)成功率相結(jié)合的方法。我們發(fā)展了一種可伸縮的方法,將任意時(shí)空?qǐng)D投射成一個(gè)豐富的RNN混合體,它是前饋的、完全可微的、可聯(lián)合訓(xùn)練的。該方法具有通用性和原則性,可以通過一組定義良好的步驟來變換任意時(shí)空?qǐng)D。對(duì)所提出的方法在從人體運(yùn)動(dòng)建模到對(duì)象交互等一系列不同問題上的評(píng)估表明,該方法比最新技術(shù)有了很大的改進(jìn)。我們期望這種方法能夠通過高層次的時(shí)空?qǐng)D和遞歸神經(jīng)網(wǎng)絡(luò)賦予新的問題描述方法。

https://github.com/asheshjain399/RNNexp

202★


Understanding Kin Relationships in a Photo????(TMM2012)

由于最近在網(wǎng)絡(luò)上,特別是在社交媒體上,此類數(shù)據(jù)激增,迫切需要自動(dòng)組織和管理人們的圖像。除了在過去十年中被廣泛研究的人臉檢測(cè)和人臉識(shí)別之外,也許與以人為中心的圖像相關(guān)的最有趣的方面是圖像中人與人之間的關(guān)系。在這項(xiàng)工作中,我們著重于解決后一個(gè)問題,特別是親屬關(guān)系。為此,我們構(gòu)建了兩個(gè)數(shù)據(jù)庫(kù):第一個(gè)數(shù)據(jù)庫(kù)名為UB KinFace Ver2.0,它包含了孩子、他們的年輕父母和老父母的圖像,第二個(gè)數(shù)據(jù)庫(kù)名為FamilyFace。其次,我們發(fā)展了一個(gè)基于轉(zhuǎn)移子空間學(xué)習(xí)的演算法,以減少兒童與老年父母臉部影像在外觀分布上的顯著差異。此外,通過研究相關(guān)元數(shù)據(jù)的語(yǔ)義相關(guān)性,我們提出了一種預(yù)測(cè)圖像中最可能嵌入的親屬關(guān)系的算法。此外,在兩個(gè)數(shù)據(jù)庫(kù)的基線研究中使用了人類受試者。實(shí)驗(yàn)結(jié)果表明,該算法能夠有效地標(biāo)注圖像中人與人之間的親屬關(guān)系,語(yǔ)義上下文可以進(jìn)一步提高算法的準(zhǔn)確性。



Out of the Box: Reasoning with Graph Convolution?Nets for Factual Visual Question Answering????(NIPS2018)

準(zhǔn)確地回答關(guān)于給定圖像的問題需要結(jié)合觀察和一般知識(shí)。雖然這對(duì)人類來說是毫不費(fèi)力的,但用一般知識(shí)進(jìn)行推理仍然是一個(gè)算法挑戰(zhàn)。為了推進(jìn)這方面的研究,最近提出了一個(gè)新穎的“基于事實(shí)的”視覺問答(FVQA)任務(wù),并通過一個(gè)關(guān)系將兩個(gè)實(shí)體(即兩個(gè)可能的答案)鏈接起來。在給定問題-圖像對(duì)的情況下,深度網(wǎng)絡(luò)技術(shù)被用來連續(xù)地減少大量的事實(shí),直到最后剩余事實(shí)的兩個(gè)實(shí)體中的一個(gè)被預(yù)測(cè)為答案為止。我們觀察到,一次考慮一個(gè)事實(shí)形成局部決策的連續(xù)過程是次優(yōu)的。相反,我們開發(fā)了一個(gè)實(shí)體圖,并使用圖卷積網(wǎng)絡(luò)通過聯(lián)合考慮所有實(shí)體來“推理”正確答案。我們?cè)诰哂刑魬?zhàn)性的FVQA數(shù)據(jù)集上顯示,與目前的技術(shù)水平相比,這將導(dǎo)致精度提高約7%。


Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action?Recognition????(AAAI2018)

人體骨骼的動(dòng)力學(xué)特性為人類行為識(shí)別提供了重要的信息。傳統(tǒng)的骨骼建模方法通常依賴于手工制作的零件或遍歷規(guī)則,從而導(dǎo)致有限的表達(dá)能力和推廣困難。在這項(xiàng)工作中,我們提出了一種新的動(dòng)態(tài)骨架模型,稱為時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(ST-GCN),它超越了以往方法的局限性,通過從數(shù)據(jù)中自動(dòng)學(xué)習(xí)時(shí)空模式。該公式不僅具有較強(qiáng)的表達(dá)能力,而且具有較強(qiáng)的泛化能力。在動(dòng)力學(xué)和NTU-RGBD兩個(gè)大型數(shù)據(jù)集上,它比主流方法有了實(shí)質(zhì)性的改進(jìn)。

https://github.com/open-mmlab/mmskeleton

1.5k★



Symbolic Graph Reasoning Meets Convolutions????(NIPS2018)

除了局部卷積網(wǎng)絡(luò)之外,我們還探討如何利用各種外部人類知識(shí)賦予網(wǎng)絡(luò)語(yǔ)義全局推理的能力。我們提出了一個(gè)新的符號(hào)圖推理(SGR)層,它不使用單獨(dú)的圖形模型(如CRF)或約束來建模更廣泛的依賴關(guān)系,而是在一組符號(hào)節(jié)點(diǎn)上執(zhí)行推理,這些節(jié)點(diǎn)的輸出顯式地表示先驗(yàn)知識(shí)圖中每個(gè)語(yǔ)義的不同屬性。為了配合局部卷積,每個(gè)SGR由三個(gè)模塊組成:a)一個(gè)原始的局部到語(yǔ)義投票模塊,其中所有符號(hào)節(jié)點(diǎn)的特征由局部表示投票生成;b)一個(gè)圖形推理模塊在知識(shí)圖上傳播信息以實(shí)現(xiàn)全局語(yǔ)義一致性;c)雙語(yǔ)義到局部映射模塊學(xué)習(xí)進(jìn)化符號(hào)節(jié)點(diǎn)與局部表示的新關(guān)聯(lián),從而增強(qiáng)局部特征。SGR層可以注入到任何卷積層之間,并用不同的先驗(yàn)圖實(shí)例化。大量實(shí)驗(yàn)表明,在三個(gè)語(yǔ)義分割任務(wù)和一個(gè)圖像分類任務(wù)中,加入SGR可以顯著地改善普通ConvNets。進(jìn)一步的分析表明,SGR層在給定一個(gè)通用知識(shí)圖的情況下,學(xué)習(xí)不同標(biāo)記集的域/數(shù)據(jù)集的共享符號(hào)表示,顯示了其優(yōu)越的泛化能力。

https://github.com/julianschoep/SGRLayer

(不見得是官方開源)

5★


Graph-Structured Representations for Visual Question Answering?????(CVPR2017)

提出了一種基于場(chǎng)景內(nèi)容和問題結(jié)構(gòu)化表示的可視化問答系統(tǒng)(VQA)。VQA的一個(gè)關(guān)鍵挑戰(zhàn)是需要在可視域和文本域上進(jìn)行聯(lián)合推理。主要的基于CNN/LSTM的VQA方法受到整體矢量表示的限制,這種表示很大程度上忽略了場(chǎng)景和問題中的結(jié)構(gòu)。美國(guó)有線電視新聞網(wǎng)的特征向量不能有效地捕捉多個(gè)對(duì)象實(shí)例的簡(jiǎn)單情況,LSTM將問題處理成一系列的單詞,這不能反映語(yǔ)言結(jié)構(gòu)的真實(shí)復(fù)雜性。相反,我們建議在場(chǎng)景對(duì)象和疑問詞上構(gòu)建圖形,并且我們描述了一個(gè)利用這些表示中的結(jié)構(gòu)的深層神經(jīng)網(wǎng)絡(luò)。我們表明,這種方法比最先進(jìn)的方法有了顯著的改進(jìn),在“抽象場(chǎng)景”多項(xiàng)選擇基準(zhǔn)上,準(zhǔn)確率從71.2%提高到74.4%,在更具挑戰(zhàn)性的“平衡”場(chǎng)景中,準(zhǔn)確率從34.7%提高到39.1%,即具有細(xì)粒度差異的圖像對(duì)和對(duì)同一問題的相反是/否答案


The More You Know: Using Knowledge Graphs for Image Classification????(cvpr2017)

使人類區(qū)別于現(xiàn)代基于學(xué)習(xí)的計(jì)算機(jī)視覺算法的一個(gè)特點(diǎn)是,能夠獲取關(guān)于世界的知識(shí),并利用這些知識(shí)對(duì)視覺世界進(jìn)行推理。人類可以通過學(xué)習(xí)物體的特征和它們之間的關(guān)系來學(xué)習(xí)各種各樣的視覺概念,通常很少有例子。本文研究了以知識(shí)圖的形式使用結(jié)構(gòu)化先驗(yàn)知識(shí),并證明了使用該知識(shí)可以提高圖像分類的性能。我們?cè)谧罱P(guān)于圖的端到端學(xué)習(xí)的工作的基礎(chǔ)上,引入圖搜索神經(jīng)網(wǎng)絡(luò)作為一種有效地將大型知識(shí)圖合并到視覺分類管道中的方法。實(shí)驗(yàn)表明,該方法在多標(biāo)簽分類中優(yōu)于標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)基線。


Relation Networks for Object Detection?????(CVPR2018)

盡管多年來人們普遍認(rèn)為,建模對(duì)象之間的關(guān)系將有助于對(duì)象識(shí)別,但還沒有證據(jù)表明這一想法在深度學(xué)習(xí)時(shí)代起作用。所有最先進(jìn)的對(duì)象檢測(cè)系統(tǒng)仍然依賴于單獨(dú)識(shí)別對(duì)象實(shí)例,而不需要在學(xué)習(xí)過程中利用它們之間的關(guān)系。本文提出了一個(gè)對(duì)象關(guān)系模塊。它通過對(duì)象的外觀特征和幾何體之間的交互作用同時(shí)處理一組對(duì)象,從而允許對(duì)它們之間的關(guān)系進(jìn)行建模。它是輕巧和到位。它不需要額外的監(jiān)督,并且很容易嵌入到現(xiàn)有的網(wǎng)絡(luò)中。在現(xiàn)代的目標(biāo)檢測(cè)流水線中,該方法對(duì)提高目標(biāo)識(shí)別率和消除重復(fù)步驟具有很好的效果。驗(yàn)證了CNN檢測(cè)中對(duì)象關(guān)系建模的有效性。它產(chǎn)生了第一個(gè)完全端到端的目標(biāo)檢測(cè)器。

https://github.com/msracver/Relation-Networks-for-Object-Detection

858★



Dynamic Graph CNN for Learning on Point Clouds

點(diǎn)云提供了適合于計(jì)算機(jī)圖形學(xué)中無(wú)數(shù)應(yīng)用的靈活的幾何表示;它們還包括大多數(shù)3D數(shù)據(jù)采集設(shè)備的原始輸出。雖然手工設(shè)計(jì)的點(diǎn)云特征在圖形和視覺領(lǐng)域早已被提出,但是最近卷積神經(jīng)網(wǎng)絡(luò)(CNNs)在圖像分析方面取得的巨大成功表明,將CNN的洞察力應(yīng)用于點(diǎn)云世界是有價(jià)值的。點(diǎn)云本身缺乏拓?fù)湫畔ⅲ虼嗽O(shè)計(jì)一個(gè)拓?fù)浠謴?fù)模型可以豐富點(diǎn)云的表示能力。為此,我們提出了一個(gè)新的神經(jīng)網(wǎng)絡(luò)模塊EdgeConv,它適用于基于CNN的點(diǎn)云高級(jí)任務(wù),包括分類和分割。EdgeConv作用于在網(wǎng)絡(luò)的每一層中動(dòng)態(tài)計(jì)算的圖。它是可微分的,并且可以插入到現(xiàn)有的體系結(jié)構(gòu)中。與現(xiàn)有的外部空間中的模塊或獨(dú)立地處理每個(gè)點(diǎn)相比,EdgeConv具有一些吸引人的特性:它包含局部鄰域信息;它可以被堆疊應(yīng)用于學(xué)習(xí)全局形狀屬性;在多層系統(tǒng)中,特征空間中的相似性在原始嵌入中捕獲潛在的長(zhǎng)距離語(yǔ)義特征。我們?cè)诎∕odelNet40、ShapeNetPart和S3DIS在內(nèi)的標(biāo)準(zhǔn)基準(zhǔn)上展示了模型的性能

https://github.com/GrumpyZhou/pytorch-dgcnn

(不見得是官方開源)


3D Graph Neural Networks for RGBD Semantic Segmentation

RGBD語(yǔ)義分割需要對(duì)二維外觀和三維幾何信息進(jìn)行聯(lián)合推理。本文提出了一種在三維點(diǎn)云上建立k近鄰圖的三維圖形神經(jīng)網(wǎng)絡(luò)(3DGNN)。圖中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于一組點(diǎn),并與一個(gè)隱藏的表示向量相關(guān)聯(lián),該隱藏的表示向量由一元CNN從2D圖像中提取的外觀特征初始化。每個(gè)節(jié)點(diǎn)依賴于遞歸函數(shù),根據(jù)當(dāng)前狀態(tài)和來自其鄰居的傳入消息動(dòng)態(tài)更新其隱藏表示。該傳播模型在一定的時(shí)間步長(zhǎng)內(nèi)展開,最終的每節(jié)點(diǎn)表示用于預(yù)測(cè)每個(gè)像素的語(yǔ)義類。我們使用時(shí)間反向傳播來訓(xùn)練模型。在NYUD2和SUN-RGBD數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了我們的方法的有效性。

https://github.com/yanx27/3DGNN_pytorch

(不見得是官方開源)


Iterative Visual Reasoning Beyond Convolutions????(CVPR 2018)

提出了一種新的迭代視覺推理框架。我們的框架超越了現(xiàn)有的識(shí)別系統(tǒng),這些系統(tǒng)缺乏超越卷積堆棧的推理能力。該框架由兩個(gè)核心模塊組成:一個(gè)使用空間存儲(chǔ)器[4]存儲(chǔ)先前信念并進(jìn)行并行更新的本地模塊;一個(gè)全局圖推理模塊。我們的圖形模塊有三個(gè)組件:a)一個(gè)知識(shí)圖,其中我們將類表示為節(jié)點(diǎn),并構(gòu)建邊以編碼它們之間不同類型的語(yǔ)義關(guān)系;b)當(dāng)前圖像的區(qū)域圖,其中圖像中的區(qū)域是節(jié)點(diǎn),并且這些區(qū)域之間的空間關(guān)系是邊;c)一個(gè)分配圖,分配區(qū)域到類。本地模塊和全局模塊都以迭代方式展開預(yù)測(cè),并相互交叉饋送以優(yōu)化估計(jì)。最后的預(yù)測(cè)是將兩個(gè)模塊中的最佳模塊與注意機(jī)制相結(jié)合。與普通的ConvNets相比,我們表現(xiàn)出了強(qiáng)大的性能,例如,通過每類平均精度測(cè)量,在ADE[55]上實(shí)現(xiàn)了8.4%的絕對(duì)改進(jìn)。分析還表明,該框架對(duì)缺失的推理區(qū)域具有很強(qiáng)的適應(yīng)性。

https://github.com/endernewton/iter-reason

253




PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation?(CVPR 2017)

點(diǎn)云是一種重要的幾何數(shù)據(jù)結(jié)構(gòu)。由于其不規(guī)則的格式,大多數(shù)研究人員將這些數(shù)據(jù)轉(zhuǎn)換成規(guī)則的三維體素網(wǎng)格或圖像集合。然而,這會(huì)使數(shù)據(jù)變得不必要的龐大并導(dǎo)致問題。本文設(shè)計(jì)了一種新型的直接消耗點(diǎn)云的神經(jīng)網(wǎng)絡(luò),它很好地尊重了輸入點(diǎn)的排列不變性。我們的網(wǎng)絡(luò)名為PointNet,它為從對(duì)象分類、部件分割到場(chǎng)景語(yǔ)義分析等應(yīng)用程序提供了一個(gè)統(tǒng)一的體系結(jié)構(gòu)。雖然簡(jiǎn)單,但PointNet是高效的。從經(jīng)驗(yàn)上看,它的表現(xiàn)不遜于甚至超過了最先進(jìn)的水平。理論上,我們提供分析,以了解網(wǎng)絡(luò)所學(xué)到的知識(shí)以及為什么網(wǎng)絡(luò)在輸入擾動(dòng)和破壞方面是健壯的。

https://github.com/charlesq34/pointnet



Dynamic Edge-Conditioned Filters in Convolutional Neural Networks on Graphs

許多問題可以表述為對(duì)圖結(jié)構(gòu)數(shù)據(jù)的預(yù)測(cè)。在這項(xiàng)工作中,我們將卷積算子從規(guī)則網(wǎng)格推廣到任意圖,同時(shí)避免了譜域,這使得我們可以處理不同大小和連通性的圖。為了超越簡(jiǎn)單的擴(kuò)散,過濾權(quán)重是基于頂點(diǎn)鄰域中的特定邊標(biāo)簽的。在選擇適當(dāng)?shù)拇只椒ǖ幕A(chǔ)上,我們探索了構(gòu)造用于圖分類的深層神經(jīng)網(wǎng)絡(luò)。特別是,我們?cè)邳c(diǎn)云分類中展示了我們的公式的通用性,在點(diǎn)云分類中,我們?cè)O(shè)置了最新的技術(shù)狀態(tài),在圖分類數(shù)據(jù)集上,我們優(yōu)于其他深度學(xué)習(xí)方法。源代碼位于

https://github.com/mys007/ecc.

145


Situation Recognition with Graph Neural Networks

我們解決了在圖像中識(shí)別情況的問題。給定一個(gè)圖像,任務(wù)是預(yù)測(cè)最顯著的動(dòng)詞(動(dòng)作),并填充其語(yǔ)義角色,如誰(shuí)在執(zhí)行動(dòng)作,動(dòng)作的來源和目標(biāo)是什么等。不同的動(dòng)詞有不同的角色(如攻擊有武器),每個(gè)角色可以承擔(dān)許多可能的值(名詞)。我們提出了一個(gè)基于圖神經(jīng)網(wǎng)絡(luò)的模型,該模型允許我們使用定義在圖上的神經(jīng)網(wǎng)絡(luò)來有效地捕獲角色之間的聯(lián)合依賴關(guān)系。用不同的圖形表示器進(jìn)行的實(shí)驗(yàn)表明,我們?cè)诮巧g傳播信息的方法明顯優(yōu)于現(xiàn)有的工作,以及多個(gè)基線。我們得到了大約3-5%的改善,比以前的工作預(yù)測(cè)的全面情況。我們還對(duì)我們的模型和動(dòng)詞中不同角色的影響進(jìn)行了深入的定性分析。


I Know the Relationships: Zero-Shot Action Recognition via Two-Stream Graph?Convolutional Networks and Knowledge Graphs????(AAAI2019)

近年來,隨著動(dòng)作類別的不斷增加,通過自動(dòng)挖掘視頻中的基本概念(如動(dòng)作、屬性),實(shí)現(xiàn)了零拍動(dòng)作識(shí)別(ZSAR)。然而,大多數(shù)現(xiàn)有的方法僅利用這些概念的視覺線索,而忽略外部知識(shí)信息來建模它們之間的顯式關(guān)系。事實(shí)上,人類有非凡的能力將從熟悉的類中學(xué)習(xí)到的知識(shí)轉(zhuǎn)移到識(shí)別不熟悉的類中。為了縮小現(xiàn)有方法和人類之間的知識(shí)差距,我們提出了一種基于結(jié)構(gòu)化知識(shí)圖的端到端ZSAR框架,它可以聯(lián)合建模動(dòng)作屬性、動(dòng)作動(dòng)作和屬性屬性之間的關(guān)系。為了有效地利用知識(shí)圖,我們?cè)O(shè)計(jì)了一個(gè)由分類器分支和實(shí)例分支組成的雙流圖卷積網(wǎng)絡(luò)(TS-GCN)。具體來說,分類器分支將所有概念的語(yǔ)義嵌入向量作為輸入,然后生成動(dòng)作類別的分類器。實(shí)例分支將每個(gè)視頻實(shí)例的屬性嵌入和分?jǐn)?shù)映射到屬性特征空間。最后,根據(jù)每個(gè)視頻的屬性特征對(duì)生成的分類器進(jìn)行評(píng)價(jià),并采用分類損失來優(yōu)化整個(gè)網(wǎng)絡(luò)。此外,還利用自我注意模塊對(duì)視頻的時(shí)間信息進(jìn)行建模。在奧林匹克運(yùn)動(dòng)、HMDB51和UCF101三個(gè)現(xiàn)實(shí)動(dòng)作基準(zhǔn)上的大量實(shí)驗(yàn)結(jié)果表明,我們提出的框架具有良好的性能。

https://github.com/junyuGao/Zero-Shot-Action-Recognition-with-Two-Stream-GCN

66


Conversation Modeling on Reddit using a Graph-Structured LSTM

本文提出了一種新的基于圖結(jié)構(gòu)雙向LSTM的社交媒體討論建模方法,該方法同時(shí)表示了層次會(huì)話結(jié)構(gòu)和時(shí)間會(huì)話結(jié)構(gòu)。在對(duì)Reddit討論中的評(píng)論流行度進(jìn)行預(yù)測(cè)的實(shí)驗(yàn)中,對(duì)于不同的輸入特征集,該模型的性能優(yōu)于獨(dú)立于節(jié)點(diǎn)的體系結(jié)構(gòu)。分析表明,在整個(gè)討論過程中,該模型有助于提高早期和后期的檢測(cè)能力。此外,在雙向樹狀態(tài)更新中使用語(yǔ)言提示有助于識(shí)別有爭(zhēng)議的注釋。


Learning Graphical State Transitions ????(ICLR 2017)

圖結(jié)構(gòu)數(shù)據(jù)在建模多個(gè)實(shí)體之間的關(guān)系時(shí)非常重要,可以用來表示世界的狀態(tài)和許多數(shù)據(jù)結(jié)構(gòu)。Li等人。(2016)描述一個(gè)稱為門控圖序列神經(jīng)網(wǎng)絡(luò)(GGS-NN)的模型,該模型從圖結(jié)構(gòu)輸入生成序列。本文介紹了門控圖變換神經(jīng)網(wǎng)絡(luò)(GGT-NN),它是GGS神經(jīng)網(wǎng)絡(luò)的一個(gè)擴(kuò)展,使用圖結(jié)構(gòu)數(shù)據(jù)作為中間表示。該模型可以學(xué)習(xí)基于文本輸入以復(fù)雜的方式構(gòu)造和修改圖形,還可以使用圖形生成各種輸出。例如,該模型成功地解決了幾乎所有的bAbI任務(wù)(Weston等人,2016),還發(fā)現(xiàn)了控制簡(jiǎn)單細(xì)胞自動(dòng)機(jī)和圖靈機(jī)器族的圖形公式的規(guī)則。

https://github.com/hexahedria/gated-graph-transformer-network

148


Jointly Multiple Events Extraction via Attention-based Graph?Information Aggregation????(EMNLP)

事件抽取在自然語(yǔ)言處理中具有實(shí)用價(jià)值。在現(xiàn)實(shí)世界中,在同一句子中存在多個(gè)事件是一個(gè)普遍現(xiàn)象,提取它們比提取單個(gè)事件更困難。以往通過順序建模方法對(duì)事件之間的關(guān)聯(lián)進(jìn)行建模的工作,在捕獲非常長(zhǎng)的依賴關(guān)系方面效率很低。本文提出了一種新的聯(lián)合多事件抽?。↗MEE)框架,通過引入句法捷徑弧來增強(qiáng)信息流和基于注意的圖卷積網(wǎng)絡(luò)來對(duì)圖信息進(jìn)行建模,從而聯(lián)合抽取多個(gè)事件觸發(fā)器和參數(shù)。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,本文提出的框架具有較強(qiáng)的競(jìng)爭(zhēng)力。

https://github.com/lx865712528/EMNLP2018-JMEE

91


Deep Reasoning with Knowledge Graph for Social Relationship Understanding?????(IJCAI 2018)

社交關(guān)系(如朋友、夫婦等)構(gòu)成了我們?nèi)粘I钪猩缃痪W(wǎng)絡(luò)的基礎(chǔ)。自動(dòng)解釋這種關(guān)系對(duì)于智能系統(tǒng)深入理解人類行為和在社會(huì)層面更好地與人互動(dòng)具有巨大潛力。人類對(duì)群體內(nèi)的社會(huì)關(guān)系的解釋不僅是基于人本身,而且這種社會(huì)關(guān)系與人周圍的語(yǔ)境信息之間的相互作用也起著重要的作用。然而,這些額外的線索在很大程度上被先前的研究所忽略。我們發(fā)現(xiàn)這兩個(gè)因素之間的相互作用可以通過一個(gè)具有適當(dāng)信息傳播和注意的新的結(jié)構(gòu)化知識(shí)圖來有效地建模。通過一個(gè)端到端可訓(xùn)練的圖形推理模型(GRM),學(xué)習(xí)一種傳播機(jī)制,通過圖形傳播節(jié)點(diǎn)信息,探索感興趣的人與被關(guān)注的人之間的交互作用,并將這種結(jié)構(gòu)化的知識(shí)有效地集成到深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,以促進(jìn)對(duì)社會(huì)關(guān)系的理解上下文對(duì)象。同時(shí),引入圖形注意機(jī)制,對(duì)判別對(duì)象進(jìn)行顯式推理,促進(jìn)識(shí)別。在公共基準(zhǔn)上的廣泛實(shí)驗(yàn)證明了我們的方法優(yōu)于現(xiàn)有的領(lǐng)先競(jìng)爭(zhēng)者。

https://github.com/HCPLab-SYSU/SR.

24


Graph CNNs with Motif and Variable Temporal Block for Skeleton-based Action?Recognition

人體骨骼中關(guān)節(jié)的層次結(jié)構(gòu)和不同的語(yǔ)義角色為動(dòng)作識(shí)別提供了重要信息。傳統(tǒng)的骨架結(jié)構(gòu)建模的圖形卷積方法只考慮每個(gè)關(guān)節(jié)的物理連接鄰域,以及同一類型的關(guān)節(jié),無(wú)法獲取高階信息。在這項(xiàng)工作中,我們提出了一個(gè)新的基于motif圖卷積的模型來編碼分層的空間結(jié)構(gòu),以及一個(gè)可變的時(shí)間密集塊來利用不同范圍的人類骨骼序列的局部時(shí)間信息。此外,在注意機(jī)制中,我們使用非局部塊來捕獲時(shí)域的全局依賴性。我們的模型在兩個(gè)大型數(shù)據(jù)集上實(shí)現(xiàn)了對(duì)現(xiàn)有方法的改進(jìn)。


Multi-Label Image Recognition with Graph Convolutional Networks???(CVPR 2019)

多標(biāo)簽圖像識(shí)別的任務(wù)是預(yù)測(cè)圖像中存在的一組目標(biāo)標(biāo)簽。由于對(duì)象通常同時(shí)出現(xiàn)在圖像中,因此需要對(duì)標(biāo)簽相關(guān)性進(jìn)行建模,以提高識(shí)別性能。為了捕獲和挖掘這種重要的依賴關(guān)系,我們提出了一種基于圖卷積網(wǎng)絡(luò)(GCN)的多標(biāo)簽分類模型。該模型在對(duì)象標(biāo)簽上建立有向圖,每個(gè)節(jié)點(diǎn)(標(biāo)簽)由標(biāo)簽的字嵌入來表示,并學(xué)習(xí)GCN將該標(biāo)簽圖映射到一組相互依賴的對(duì)象分類器中。這些分類器應(yīng)用于由另一個(gè)子網(wǎng)提取的圖像描述符,使得整個(gè)網(wǎng)絡(luò)能夠端到端地訓(xùn)練。此外,我們還提出了一種新的重加權(quán)方案來建立一個(gè)有效的標(biāo)簽相關(guān)矩陣來指導(dǎo)GCN中節(jié)點(diǎn)間的信息傳播。兩個(gè)多標(biāo)簽圖像識(shí)別數(shù)據(jù)集的實(shí)驗(yàn)表明,我們的方法明顯優(yōu)于其他現(xiàn)有的最先進(jìn)的方法。此外,可視化分析表明,該模型所學(xué)習(xí)的分類器保持了有意義的語(yǔ)義拓?fù)洹?/p>

https://github.com/Megvii-Nanjing/ML_GCN

555


Spatial-aware Graph Relation Network for Large-scale Object Detection

如何在不需要任何外部知識(shí)的情況下正確編碼檢測(cè)系統(tǒng)中的高階對(duì)象關(guān)系?如何利用共現(xiàn)和對(duì)象位置之間的信息進(jìn)行更好的推理?這些問題是目前大規(guī)模目標(biāo)檢測(cè)系統(tǒng)面臨的關(guān)鍵挑戰(zhàn),該系統(tǒng)旨在識(shí)別成千上萬(wàn)個(gè)復(fù)雜空間和語(yǔ)義關(guān)系的目標(biāo)。提取可能影響目標(biāo)識(shí)別的關(guān)鍵關(guān)系至關(guān)重要,因?yàn)樵诿鎸?duì)大量的長(zhǎng)尾數(shù)據(jù)分布和大量令人困惑的類別時(shí),分別處理每個(gè)區(qū)域會(huì)導(dǎo)致性能大幅下降。最近的研究試圖通過構(gòu)造圖來編碼關(guān)系,例如使用類之間的手工語(yǔ)言知識(shí)或隱式學(xué)習(xí)區(qū)域之間的完全連接圖。然而,由于語(yǔ)言和視覺語(yǔ)境之間的語(yǔ)義差異,手工語(yǔ)言知識(shí)不能針對(duì)每幅圖像進(jìn)行個(gè)性化,而完全連接的圖形由于包含了來自無(wú)關(guān)對(duì)象和背景的冗余和分心的關(guān)系/邊而效率低下且噪聲大。在這項(xiàng)工作中,我們引入了一個(gè)空間感知圖關(guān)系網(wǎng)絡(luò)(SGRN)來自適應(yīng)地發(fā)現(xiàn)和合并關(guān)鍵的語(yǔ)義和空間關(guān)系,以便對(duì)每個(gè)對(duì)象進(jìn)行推理。我們的方法考慮了相對(duì)位置布局和相互作用,可以很容易地注入到任何檢測(cè)管道中以提高性能。具體來說,我們的SGRN集成了一個(gè)圖形學(xué)習(xí)模塊來學(xué)習(xí)一個(gè)可互操作的稀疏圖形結(jié)構(gòu)來編碼相關(guān)的上下文區(qū)域,以及一個(gè)具有可學(xué)習(xí)的空間高斯核的空間圖形推理模塊來執(zhí)行具有空間感知的圖形推理。大量的實(shí)驗(yàn)驗(yàn)證了該方法的有效性,例如在VG(3000個(gè)類)上提高了32%,在ADE上提高了28%。



GCAN: Graph Convolutional Adversarial Network for Unsupervised Domain?Adaptation

為了將源域和目標(biāo)域連接起來進(jìn)行域自適應(yīng),有三種重要的信息類型:數(shù)據(jù)結(jié)構(gòu)、域標(biāo)簽和類標(biāo)簽。大多數(shù)現(xiàn)有的域自適應(yīng)方法只利用一種或兩種類型的上述信息,不能使它們互補(bǔ)和增強(qiáng)。與現(xiàn)有的方法不同,在統(tǒng)一的深度模型中,通過聯(lián)合建模數(shù)據(jù)結(jié)構(gòu)、域標(biāo)簽和類標(biāo)簽,提出了一種無(wú)監(jiān)督域自適應(yīng)的端到端圖卷積對(duì)抗網(wǎng)絡(luò)(GCAN)。所提出的GCAN模型具有許多優(yōu)點(diǎn)。首先,據(jù)我們所知,這是第一個(gè)在無(wú)監(jiān)督域自適應(yīng)的深度模型中聯(lián)合建模這三種信息的工作。其次,該模型設(shè)計(jì)了三種有效的對(duì)齊機(jī)制,包括結(jié)構(gòu)感知對(duì)齊、域?qū)R和類質(zhì)心對(duì)齊,它們可以有效地學(xué)習(xí)域不變量和語(yǔ)義表示,以減少域適應(yīng)的域差異。在五個(gè)標(biāo)準(zhǔn)測(cè)試點(diǎn)上的大量實(shí)驗(yàn)結(jié)果表明,該算法對(duì)無(wú)監(jiān)督域自適應(yīng)方法的狀態(tài)具有良好的性能。



Mind Your Neighbours: Image Annotation with?Metadata Neighbourhood Graph Co-Attention Networks

作為我們?nèi)粘I畹囊曈X反映,圖像經(jīng)常在社交網(wǎng)絡(luò)上共享,這就產(chǎn)生了豐富的“元數(shù)據(jù)”,記錄用戶與圖像的交互。由于內(nèi)容的多樣性和風(fēng)格的復(fù)雜性,有些圖像在忽略上下文的情況下很難識(shí)別。具有類似元數(shù)據(jù)的圖像(如“相關(guān)主題和文本描述”、“用戶的共同朋友”和“附近位置”)構(gòu)成每個(gè)圖像的鄰域,可用于輔助注釋。本文提出了一個(gè)元數(shù)據(jù)鄰域圖協(xié)同注意網(wǎng)絡(luò)(MangoNet),用于建立目標(biāo)圖像與其鄰域之間的相關(guān)性模型。為了準(zhǔn)確地從鄰域中獲取視覺線索,引入了一種聯(lián)合注意機(jī)制,將目標(biāo)圖像及其鄰域嵌入為圖節(jié)點(diǎn),而圖邊緣則捕獲節(jié)點(diǎn)對(duì)的相關(guān)性。通過對(duì)鄰域圖的推理,得到有助于目標(biāo)圖像標(biāo)注的圖表示。在三個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,我們提出的模型取得了最好的性能。



Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Deep ConvNets在單標(biāo)簽圖像分類(如ImageNet)方面表現(xiàn)出了很好的性能,但是有必要超越單標(biāo)簽分類任務(wù),因?yàn)槿粘I钪械膱D片本質(zhì)上是多標(biāo)簽的。多標(biāo)簽分類比單標(biāo)簽分類更困難,因?yàn)檩斎雸D像和輸出標(biāo)簽空間都更復(fù)雜。此外,收集干凈的多標(biāo)簽注釋比單標(biāo)簽注釋更難擴(kuò)展。為了降低標(biāo)注成本,我們建議訓(xùn)練一個(gè)帶有部分標(biāo)簽的模型,即每個(gè)圖像只有一些標(biāo)簽是已知的。我們首先對(duì)不同的標(biāo)記策略進(jìn)行了經(jīng)驗(yàn)比較,以顯示在多標(biāo)記數(shù)據(jù)集上使用部分標(biāo)記的潛力。然后,為了學(xué)習(xí)部分標(biāo)簽,我們引入了一個(gè)新的分類損失,利用每個(gè)例子中已知標(biāo)簽的比例。我們的方法允許使用與使用所有注釋學(xué)習(xí)時(shí)相同的訓(xùn)練設(shè)置。我們進(jìn)一步探討了幾種基于課程學(xué)習(xí)的策略來預(yù)測(cè)缺失的標(biāo)簽。在MS-COCO、NUS-WIDE和Open三個(gè)大規(guī)模多標(biāo)簽數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)


Learning to Cluster Faces on an Affinity Graph????(CVPR2019)

近年來,面部識(shí)別仍在繼續(xù),其表現(xiàn)達(dá)到了極高的水平??紤]到這一點(diǎn),下一個(gè)層次需要大量的數(shù)據(jù),這將涉及禁止注釋的費(fèi)用。Hence,exploring unlabeled data becomes an appealing alternative.最近的作品表明,聚類不加標(biāo)記的面孔是一種前瞻性的方法,常常帶領(lǐng)人們?nèi)〉蔑@著的成績(jī)。Yet,how to effectively cluster,especially on a large-scale(一個(gè)關(guān)鍵的挑戰(zhàn)是群集模式復(fù)雜變異中的一個(gè)關(guān)鍵因素,這使得傳統(tǒng)群集方法難以滿足精確性的需要。This work explores a novel approach,namely,learning to cluster instead of relying on hand-crafted criteria.具體地說,我們提供了一個(gè)基于圖形卷積網(wǎng)絡(luò)的框架,該框架結(jié)合了一個(gè)檢測(cè)和一個(gè)分割模塊到Pinpoint Face Clusters。實(shí)驗(yàn)表明,我們的方法的產(chǎn)量顯著提高了面積的精度,作為一個(gè)結(jié)果,同時(shí)引導(dǎo)了面部識(shí)別中的進(jìn)一步性能增益

https://github.com/yl-1993/learn-to-cluster

225


Auto-Encoding Scene Graphs for Image Captioning

我們提出了一種場(chǎng)景圖自動(dòng)編碼器(SGAE),它將語(yǔ)言歸納偏差融入到編碼器的圖像字幕框架中,以獲得更像人類的字幕。直覺上,我們?nèi)祟愒谡Z(yǔ)篇中使用歸納偏誤來構(gòu)成搭配和語(yǔ)境推理。例如,當(dāng)我們看到“騎自行車的人”的關(guān)系時(shí),很自然地用“騎”來代替“騎”來推斷“騎自行車的人”甚至“路”也不明顯。因此,利用這樣的偏差作為語(yǔ)言先驗(yàn),有望幫助傳統(tǒng)的編解碼模型不太可能過度適應(yīng)數(shù)據(jù)集的偏差,并專注于推理。具體來說,我們使用場(chǎng)景圖-一個(gè)有向圖(G),其中一個(gè)對(duì)象節(jié)點(diǎn)由形容詞節(jié)點(diǎn)和關(guān)系節(jié)點(diǎn)連接-來表示圖像(I)和句子(S)的復(fù)雜結(jié)構(gòu)布局。在文本域中,我們使用SGAE學(xué)習(xí)字典(D),該字典有助于在S→G→D→S管道中重建句子,其中D優(yōu)先編碼所需的語(yǔ)言;在視覺語(yǔ)言域中,我們使用共享D引導(dǎo)I→G→D→S管道中的編碼器-解碼器。由于場(chǎng)景圖表示和共享字典,歸納偏差原則上是跨域傳遞的。我們驗(yàn)證了SGAE在挑戰(zhàn)性的MS-COCO圖像字幕基準(zhǔn)上的有效性,例如,我們基于SGAE的單一模型在Karpathy分割上實(shí)現(xiàn)了art 127.8 CIDEr-D的新狀態(tài),在官方服務(wù)器上實(shí)現(xiàn)了競(jìng)爭(zhēng)性的125.5 CIDEr-D(c40),甚至與其他集成模型相比也是如此。


Graph Convolutional Label Noise Cleaner:?Train a Plug-and-play Action Classifier for Anomaly Detection????(CVPR 2019)

弱標(biāo)簽下的視頻異常檢測(cè)是一個(gè)典型的多實(shí)例學(xué)習(xí)問題。本文提出了一種新的視角,即噪聲標(biāo)簽下的有監(jiān)督學(xué)習(xí)任務(wù)。在這種觀點(diǎn)下,只要清除標(biāo)簽噪聲,我們可以直接應(yīng)用完全監(jiān)督的行動(dòng)分類器,以弱監(jiān)督異常檢測(cè),并最大限度地利用這些發(fā)達(dá)的分類器。為此,我們?cè)O(shè)計(jì)了一個(gè)圖卷積網(wǎng)絡(luò)來校正噪聲標(biāo)簽。基于特征相似度和時(shí)間一致性,我們的網(wǎng)絡(luò)將監(jiān)控信號(hào)從高置信度片段傳播到低置信度片段。通過這種方式,網(wǎng)絡(luò)能夠?yàn)閯?dòng)作分類器提供干凈的監(jiān)督。在測(cè)試階段,我們只需要從動(dòng)作分類器獲得片段式的預(yù)測(cè),而不需要任何額外的后處理。在3個(gè)不同尺度的數(shù)據(jù)集上用2種動(dòng)作分類器進(jìn)行了大量實(shí)驗(yàn),證明了該方法的有效性。值得注意的是,我們獲得了UCF犯罪82.12%的框架級(jí)AUC分?jǐn)?shù)。

https://github.com/jx-zhong-for-academic-purpose/GCN-Anomaly-Detection

91


Learning Actor Relation Graphs for Group Activity Recognition?????(CVPR 2019)

多人場(chǎng)景中,角色之間的關(guān)系建模對(duì)于識(shí)別群體活動(dòng)具有重要意義。本文旨在利用深度模型有效地學(xué)習(xí)行為體之間的判別關(guān)系。為此,我們提出建立一個(gè)靈活高效的演員關(guān)系圖(ARG),以同時(shí)捕捉演員之間的外觀和位置關(guān)系。借助于圖形卷積網(wǎng)絡(luò),ARG中的連接可以從群體活動(dòng)視頻中自動(dòng)學(xué)習(xí)到端到端的連接,并且可以用標(biāo)準(zhǔn)的矩陣運(yùn)算有效地進(jìn)行ARG的推理。此外,在實(shí)際應(yīng)用中,我們提出了兩個(gè)變量來稀疏ARG,以便在視頻中進(jìn)行更有效的建模:空間局部ARG和時(shí)間隨機(jī)ARG。我們對(duì)兩個(gè)標(biāo)準(zhǔn)的群體活動(dòng)識(shí)別數(shù)據(jù)集:排球數(shù)據(jù)集和集體活動(dòng)數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn),在這兩個(gè)數(shù)據(jù)集上都取得了最新的性能。我們還將學(xué)習(xí)到的參與者圖和關(guān)系特征可視化,證明了所提出的ARG能夠捕獲用于群體活動(dòng)識(shí)別的判別關(guān)系信息。

https://github.com/wjchaoGit/Group-Activity-Recognition

83


ABC: A Big CAD Model Dataset For Geometric Deep Learning

我們介紹了ABC數(shù)據(jù)集,這是一個(gè)收集了100萬(wàn)個(gè)計(jì)算機(jī)輔助設(shè)計(jì)(CAD)模型的集合,用于幾何深度學(xué)習(xí)方法和應(yīng)用的研究。每個(gè)模型都是一組顯式參數(shù)化的曲線和曲面,為微分量、面片分割、幾何特征檢測(cè)和形狀重建提供了基本信息。通過對(duì)曲面和曲線的參數(shù)化描述進(jìn)行采樣,可以生成不同格式和分辨率的數(shù)據(jù),從而可以對(duì)各種幾何學(xué)習(xí)算法進(jìn)行公平比較。作為我們的數(shù)據(jù)集的用例,我們執(zhí)行一個(gè)大規(guī)模的基準(zhǔn)估計(jì)表面法線,比較現(xiàn)有的數(shù)據(jù)驅(qū)動(dòng)的方法,并評(píng)估其性能的地面真理和傳統(tǒng)的正常估計(jì)方法。

https://deep-geometry.github.io/abc-dataset


Neighbourhood Watch: Referring Expression Comprehension via?Language-guided Graph Attention Networks

引用表達(dá)式理解的任務(wù)是將對(duì)象實(shí)例定位在由自然語(yǔ)言中的引用表達(dá)式描述的圖像中。作為一種語(yǔ)言到視覺的匹配任務(wù),該問題的關(guān)鍵是學(xué)習(xí)一種能夠適應(yīng)所用表達(dá)式的區(qū)分性對(duì)象特征。為了避免歧義,表達(dá)式通常不僅傾向于描述參照物本身的屬性,而且還傾向于描述其與鄰域的關(guān)系。為了捕獲和利用這些重要信息,我們提出了一種基于圖的、語(yǔ)言引導(dǎo)的注意機(jī)制。由節(jié)點(diǎn)注意組件和邊緣注意組件組成,所提出的圖形注意機(jī)制明確地表示對(duì)象間的關(guān)系,并且具有靈活性和功率的屬性不可能與競(jìng)爭(zhēng)的方法相結(jié)合。此外,所提出的圖形注意機(jī)制可以使理解決策可視化和可解釋。在三個(gè)參考表達(dá)理解數(shù)據(jù)集上的實(shí)驗(yàn)表明了該方法的優(yōu)越性。



Graph-Based Global Reasoning Networks

區(qū)域間關(guān)系的全局建模和推理對(duì)于圖像和視頻上的許多計(jì)算機(jī)視覺任務(wù)都是有益的。卷積神經(jīng)網(wǎng)絡(luò)(CNNs)擅長(zhǎng)于通過卷積運(yùn)算來建模局部關(guān)系,但它們通常在捕獲遠(yuǎn)處區(qū)域之間的全局關(guān)系方面效率低下,并且需要疊加多個(gè)卷積層。在這項(xiàng)工作中,我們提出了一種新的全局推理方法,其中一組特征在坐標(biāo)空間上全局聚合,然后投影到一個(gè)交互空間中,在交互空間中可以有效地計(jì)算關(guān)系推理。經(jīng)過推理,關(guān)系感知特征被分配回原始坐標(biāo)空間,用于下游任務(wù)。進(jìn)一步給出了該方法的一個(gè)高效實(shí)例,并介紹了通過加權(quán)全局池和加權(quán)廣播實(shí)現(xiàn)坐標(biāo)交互空間映射的全局推理單元(GloRe單元),以及通過圖卷積在交互空間中的一個(gè)小圖上進(jìn)行關(guān)系推理。所提出的GLOR單元是輕量級(jí)的,端到端可訓(xùn)練的,并且可以很容易地插入到現(xiàn)有CNN中用于各種任務(wù)。大量的實(shí)驗(yàn)表明,我們的GloRe單元能夠在圖像分類、語(yǔ)義分割和視頻動(dòng)作識(shí)別任務(wù)中,持續(xù)地提高2D和3D cnn的最新骨干結(jié)構(gòu)的性能,包括ResNet[15,16]、ResNeXt[33]、SE Net[18]和DPN[9]。

https://github.com/kiyohiro8/GraphBasedGlobalReasoning

(非官方)


Linkage Based Face Clustering via Graph Convolution Network

本文提出了一種精確、可擴(kuò)展的人臉聚類方法。我們的目標(biāo)是根據(jù)一組人臉的潛在身份對(duì)其進(jìn)行分組。我們把這個(gè)任務(wù)作為一個(gè)鏈接預(yù)測(cè)問題:如果兩個(gè)人臉具有相同的身份,則存在一個(gè)鏈接。其核心思想是在一個(gè)實(shí)例(面)周圍的特征空間中發(fā)現(xiàn)局部上下文,其中包含了該實(shí)例與其鄰域之間的鏈接關(guān)系的豐富信息。通過在每個(gè)實(shí)例周圍構(gòu)造子圖作為描述局部上下文的輸入數(shù)據(jù),利用圖卷積網(wǎng)絡(luò)(GCN)進(jìn)行推理,推斷子圖中成對(duì)關(guān)聯(lián)的可能性。實(shí)驗(yàn)表明,與傳統(tǒng)方法相比,該方法對(duì)復(fù)雜的人臉分布具有更強(qiáng)的魯棒性,在標(biāo)準(zhǔn)人臉聚類基準(zhǔn)上的結(jié)果與現(xiàn)有方法具有良好的可比性,并且可以擴(kuò)展到大型數(shù)據(jù)集。此外,我們還證明了所提出的方法不需要像先前那樣的聚類數(shù)目,并且能夠感知噪聲和異常值,并且可以擴(kuò)展到多視圖版本以獲得更精確的聚類精度。一

?https://github.com/Zhongdao/gcn_clustering/.



Fast Interactive Object Annotation with Curve-GCN????(CVPR 2019)

通過跟蹤對(duì)象的邊界來手動(dòng)標(biāo)記對(duì)象是一個(gè)費(fèi)力的過程。在[7,2]中,作者提出了polygornn,它使用CNN-RNN架構(gòu)以遞歸的方式生成多邊形注釋,允許通過循環(huán)中的人類進(jìn)行交互式校正。我們提出了一個(gè)新的框架,通過使用圖卷積網(wǎng)絡(luò)(GCN)同時(shí)預(yù)測(cè)所有頂點(diǎn),來減輕polygonn的序列性質(zhì)。我們的模型是從頭到腳訓(xùn)練的。它支持通過多邊形或樣條線進(jìn)行對(duì)象注釋,從而提高了基于直線和曲線對(duì)象的標(biāo)記效率。我們表明,曲線GCN優(yōu)于所有現(xiàn)有的方法在自動(dòng)模式,包括強(qiáng)大的PSP DeDIPAB〔8, 23〕,并且在交互模式下比多邊形RNN++更有效。我們的模型在自動(dòng)模式下運(yùn)行29.3ms,在交互模式下運(yùn)行2.6ms,比Polygon RNN快10倍和100倍++

https://github.com/fidler-lab/curve-gcn

591


Semantic Graph Convolutional Networks for 3D Human Pose Regression????(CVPR 2019)

本文研究了回歸圖卷積網(wǎng)絡(luò)的學(xué)習(xí)問題。目前GCNs的結(jié)構(gòu)局限于卷積濾波器的小接收?qǐng)龊兔總€(gè)節(jié)點(diǎn)的共享變換矩陣。為了解決這些局限性,我們提出了語(yǔ)義圖卷積網(wǎng)絡(luò)(SemGCN),一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于處理具有圖結(jié)構(gòu)數(shù)據(jù)的回歸任務(wù)。SemGCN學(xué)習(xí)捕獲語(yǔ)義信息,如局部和全局節(jié)點(diǎn)關(guān)系,這些信息在圖中沒有明確表示。這些語(yǔ)義關(guān)系可以通過端到端的訓(xùn)練從基本事實(shí)中學(xué)習(xí),而無(wú)需額外的監(jiān)督或手工規(guī)則。我們進(jìn)一步研究了SemGCN在三維人體姿態(tài)回歸中的應(yīng)用。我們的公式是直觀和充分的,因?yàn)槎S和三維人體姿勢(shì)都可以表示為一個(gè)結(jié)構(gòu)化的圖形編碼關(guān)節(jié)之間的關(guān)系在人體骨架。我們進(jìn)行了全面的研究來驗(yàn)證我們的方法。結(jié)果表明,在減少90%參數(shù)的情況下,SemGCN的性能優(yōu)于現(xiàn)有技術(shù)。

https://github.com/garyzhao/SemGCN

113


MAN: Moment Alignment Network for Natural Language Moment Retrieval via?Iterative Graph Adjustment?????(CVPR)

這項(xiàng)研究致力于在長(zhǎng)而未經(jīng)修剪的視頻流中檢索自然語(yǔ)言時(shí)刻。這個(gè)問題并不簡(jiǎn)單,特別是當(dāng)一個(gè)視頻包含多個(gè)感興趣的時(shí)刻,并且該語(yǔ)言描述了復(fù)雜的時(shí)間依賴關(guān)系時(shí),這種情況經(jīng)常發(fā)生在真實(shí)的場(chǎng)景中。我們確定了兩個(gè)關(guān)鍵的挑戰(zhàn):語(yǔ)義失調(diào)和結(jié)構(gòu)失調(diào)。然而,現(xiàn)有的方法分別對(duì)待不同的時(shí)刻,并沒有明確地建模復(fù)雜的矩時(shí)態(tài)關(guān)系。本文提出了一種將候選矩編碼和時(shí)序結(jié)構(gòu)推理相結(jié)合的單鏡頭前向網(wǎng)絡(luò)(MAN)框架。人類自然地在不同的時(shí)間位置和尺度上分配與語(yǔ)言語(yǔ)義一致的候選矩表示。最重要的是,我們提出將時(shí)間關(guān)系顯式地建模為一個(gè)結(jié)構(gòu)化圖,并設(shè)計(jì)一個(gè)迭代圖調(diào)整網(wǎng)絡(luò),以端到端的方式共同學(xué)習(xí)最佳結(jié)構(gòu)。我們?cè)趦蓚€(gè)具有挑戰(zhàn)性的公共基準(zhǔn)DiDeMo和Charades STA上評(píng)估了所提出的方法,在這兩個(gè)基準(zhǔn)上,我們的人的表現(xiàn)大大超過了最先進(jìn)的水平。

https://github.com/dazhang-cv/MAN

9(還沒開源完)


Occlusion-Net: 2D/3D Occluded Keypoint Localization Using Graph Networks

我們提出了Occlusion-Net1框架,它可以在很大程度上以自監(jiān)督的方式預(yù)測(cè)對(duì)象被遮擋關(guān)鍵點(diǎn)的二維和三維位置。我們使用現(xiàn)成的檢測(cè)器作為輸入(例如MaskRCNN[16]),該檢測(cè)器僅在可見的關(guān)鍵點(diǎn)注釋上進(jìn)行訓(xùn)練。這是這項(xiàng)工作中唯一的監(jiān)督。然后,圖編碼器網(wǎng)絡(luò)顯式地對(duì)不可見邊進(jìn)行分類,圖解碼器網(wǎng)絡(luò)從初始檢測(cè)器校正被遮擋的關(guān)鍵點(diǎn)位置。這項(xiàng)工作的中心是一個(gè)三焦點(diǎn)張量損失,它為對(duì)象的其他視圖中可見的閉塞關(guān)鍵點(diǎn)位置提供間接的自我監(jiān)督。然后將二維關(guān)鍵點(diǎn)傳遞到三維圖形網(wǎng)絡(luò)中,該網(wǎng)絡(luò)使用自監(jiān)督重投影損失估計(jì)三維形狀和相機(jī)姿態(tài)。在測(cè)試時(shí),遮擋網(wǎng)絡(luò)在一組不同的遮擋設(shè)置下成功地在單個(gè)視圖中定位關(guān)鍵點(diǎn)。我們驗(yàn)證了我們的方法對(duì)合成CAD數(shù)據(jù)以及一個(gè)大型圖像集捕獲車輛在許多繁忙的城市交叉口。有趣的是,我們將人類對(duì)不可見關(guān)鍵點(diǎn)的標(biāo)記的準(zhǔn)確性與三焦點(diǎn)張量的預(yù)測(cè)進(jìn)行了比較

http://www.cs.cmu.edu/~ILIM/projects/IM/CarFusion/cvpr2018/index.html



Learning Context Graph for Person Search

深卷積神經(jīng)網(wǎng)絡(luò)在人的再識(shí)別方面取得了很大的進(jìn)展。然而,以往的方法大多集中在學(xué)習(xí)個(gè)體的外觀特征嵌入,在不同的光照、較大的姿態(tài)變化和遮擋情況下,模型很難處理。在這項(xiàng)工作中,我們進(jìn)一步考慮使用上下文信息進(jìn)行人員搜索。對(duì)于探測(cè)圖庫(kù)對(duì),我們首先提出了一個(gè)上下文實(shí)例擴(kuò)展模塊,該模塊使用相對(duì)注意模塊來搜索和過濾場(chǎng)景中有用的上下文信息。我們還構(gòu)建了一個(gè)圖學(xué)習(xí)框架,有效地利用上下文對(duì)更新目標(biāo)相似度。這兩個(gè)模塊建立在聯(lián)合檢測(cè)和實(shí)例特征學(xué)習(xí)框架的基礎(chǔ)上,提高了學(xué)習(xí)特征的區(qū)分性。該框架在兩個(gè)廣泛使用的個(gè)人搜索數(shù)據(jù)集上實(shí)現(xiàn)了最新的性能。

https://github.com/sjtuzq/person_search_gcn

99


Graphonomy: Universal Human Parsing via Graph Transfer Learning????(CVPR2019)

先前高度優(yōu)化的人工解析模型往往適合特定領(lǐng)域中的每個(gè)數(shù)據(jù)集,或者具有不同的標(biāo)簽粒度,如果不進(jìn)行大量的重新訓(xùn)練,很難適應(yīng)其他人工解析任務(wù)。本文旨在通過統(tǒng)一來自不同領(lǐng)域或不同粒度級(jí)別的標(biāo)簽注釋,學(xué)習(xí)一個(gè)能夠滿足各種人類解析需求的通用人類解析模型。這就帶來了許多基本的學(xué)習(xí)挑戰(zhàn),例如在不同的標(biāo)簽粒度之間發(fā)現(xiàn)潛在的語(yǔ)義結(jié)構(gòu),跨不同的圖像域執(zhí)行適當(dāng)?shù)霓D(zhuǎn)移學(xué)習(xí),以及識(shí)別和利用相關(guān)任務(wù)中的標(biāo)簽冗余。為了解決這些問題,我們提出了一種新的通用的人類句法分析代理Graphonomy,它在傳統(tǒng)的句法分析網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合了層次圖轉(zhuǎn)移學(xué)習(xí),對(duì)底層的標(biāo)簽語(yǔ)義結(jié)構(gòu)進(jìn)行編碼并傳播相關(guān)的語(yǔ)義信息。特別地,圖學(xué)首先通過圖內(nèi)推理在一個(gè)數(shù)據(jù)集中的標(biāo)簽之間學(xué)習(xí)和傳播緊湊的高級(jí)圖表示,然后通過圖間傳輸在多個(gè)數(shù)據(jù)集中傳輸語(yǔ)義信息。分析和編碼不同數(shù)據(jù)集之間的各種圖形傳輸依賴關(guān)系(如相似性、語(yǔ)言知識(shí)),以增強(qiáng)圖形傳輸能力。通過對(duì)每個(gè)特定任務(wù)提取通用語(yǔ)義圖表示,可以在一個(gè)系統(tǒng)中預(yù)測(cè)所有層次的解析標(biāo)簽,而不會(huì)增加復(fù)雜性。實(shí)驗(yàn)結(jié)果表明,Graphonomy在三個(gè)人類分析基準(zhǔn)上都能有效地達(dá)到最新的結(jié)果,并且具有良好的通用人類分析性能。

https://github.com/Gaoyiminggithub/Graphonomy

98



Neural Task Graphs: Generalizing to Unseen Tasks?from a Single Video Demonstration

我們的目標(biāo)是生成一個(gè)策略,以便在給定域中僅給出任務(wù)的一個(gè)視頻演示的情況下完成一個(gè)不可見的任務(wù)。我們假設(shè),要成功地從單個(gè)視頻演示推廣到看不見的復(fù)雜任務(wù),必須將任務(wù)的組合結(jié)構(gòu)顯式地合并到模型中。為此,我們提出了神經(jīng)任務(wù)圖(NTG)網(wǎng)絡(luò),它使用共軛任務(wù)圖作為中間表示,將視頻演示和導(dǎo)出的策略模塊化。實(shí)驗(yàn)表明,NTG在兩個(gè)復(fù)雜任務(wù)上實(shí)現(xiàn)了任務(wù)間的泛化:bulletpysics中的塊疊加和AI2-THOR中的對(duì)象收集。NTG通過可視化輸入提高了數(shù)據(jù)效率,并且在不需要密集的分層監(jiān)控的情況下實(shí)現(xiàn)了強(qiáng)泛化。我們進(jìn)一步表明,當(dāng)應(yīng)用于實(shí)際數(shù)據(jù)時(shí),類似的性能趨勢(shì)仍然有效。結(jié)果表明,NTG可以有效地預(yù)測(cè)JIGSAWS手術(shù)數(shù)據(jù)集上的任務(wù)結(jié)構(gòu),并將其推廣到不可見的任務(wù)。


Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action?Recognition

(CVPR2019)

在基于骨架的動(dòng)作識(shí)別中,將人體骨架建模為時(shí)空?qǐng)D形的圖形卷積網(wǎng)絡(luò)(GCNs)取得了顯著的性能。然而,在現(xiàn)有的基于GCN的方法中,圖形的拓?fù)浔皇謩?dòng)設(shè)置,并且它被固定在所有層和輸入樣本上。這對(duì)于層次GCN和動(dòng)作識(shí)別任務(wù)中的不同樣本可能不是最優(yōu)的。此外,骨架數(shù)據(jù)的二階信息(骨骼的長(zhǎng)度和方向),在現(xiàn)有的方法中很少被研究,這對(duì)于動(dòng)作識(shí)別來說更具信息性和判別性。在這項(xiàng)工作中,我們提出了一個(gè)新的兩流自適應(yīng)圖卷積網(wǎng)絡(luò)(2s-AGCN)用于基于骨架的動(dòng)作識(shí)別。在我們的模型中,圖的拓?fù)淇梢杂葿P算法以端到端的方式統(tǒng)一地或單獨(dú)地學(xué)習(xí)。該數(shù)據(jù)驅(qū)動(dòng)方法增加了圖形構(gòu)造模型的靈活性,并帶來了更多的通用性,以適應(yīng)各種數(shù)據(jù)樣本。此外,本文還提出了一種同時(shí)對(duì)一階和二階信息建模的雙流框架,顯著提高了識(shí)別精度。在NTU-RGBD和KineticsKeleton兩個(gè)大型數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,我們的模型的性能超過了最新水平,具有顯著的優(yōu)勢(shì)。

https://github.com/lshiwjx/2s-AGCN

154


Graph Convolutional Tracking

近年來,暹羅網(wǎng)絡(luò)的跟蹤取得了良好的效果。然而,現(xiàn)有的暹羅方法大多沒有充分利用時(shí)空背景下的目標(biāo)外觀造型。事實(shí)上,時(shí)空信息可以提供多種特征來增強(qiáng)目標(biāo)的表現(xiàn)力,而上下文信息對(duì)于目標(biāo)定位的在線自適應(yīng)具有重要意義。為了綜合利用歷史目標(biāo)樣本的時(shí)空結(jié)構(gòu),充分利用背景信息,本文提出了一種用于高性能視覺跟蹤的圖卷積跟蹤方法。具體地說,GCT將兩種類型的圖卷積網(wǎng)絡(luò)(GCNs)合并到一個(gè)用于目標(biāo)外觀建模的暹羅框架中。在這里,我們采用時(shí)空GCN對(duì)歷史目標(biāo)樣本的結(jié)構(gòu)化表示進(jìn)行建模。此外,文中還設(shè)計(jì)了一個(gè)上下文GCN,利用當(dāng)前幀的上下文來學(xué)習(xí)目標(biāo)定位的自適應(yīng)特征。對(duì)4個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試的廣泛結(jié)果表明,我們的GCT方法在每秒運(yùn)行約50幀的情況下,相對(duì)于最先進(jìn)的跟蹤器表現(xiàn)良好。



Actional-Structural Graph Convolutional Networks for?Skeleton-based Action Recognition

利用骨骼數(shù)據(jù)進(jìn)行動(dòng)作識(shí)別是近年來計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。以往的研究大多基于固定骨架圖,只捕捉關(guān)節(jié)之間的局部物理依賴關(guān)系,可能會(huì)遺漏隱含的關(guān)節(jié)相關(guān)性。為了捕獲更豐富的依賴項(xiàng),我們引入了一種編碼器-解碼器結(jié)構(gòu),稱為A-link推理模塊,直接從動(dòng)作中捕獲動(dòng)作特定的潛在依賴項(xiàng),即動(dòng)作鏈接。我們還擴(kuò)展現(xiàn)有的骨架圖來表示更高階的依賴關(guān)系,即結(jié)構(gòu)鏈接。將這兩類鏈路組合成一個(gè)廣義骨架圖,進(jìn)一步提出了動(dòng)作結(jié)構(gòu)圖卷積網(wǎng)絡(luò)(AS-GCN),該網(wǎng)絡(luò)將動(dòng)作結(jié)構(gòu)圖卷積和時(shí)間卷積作為基本的構(gòu)造塊,學(xué)習(xí)動(dòng)作識(shí)別的時(shí)空特征。在識(shí)別頭的同時(shí)增加了一個(gè)未來姿勢(shì)預(yù)測(cè)頭,通過自我監(jiān)督幫助捕捉更詳細(xì)的動(dòng)作模式。我們使用兩個(gè)骨架數(shù)據(jù)集NTURGB+D和動(dòng)力學(xué)來驗(yàn)證AS-GCN在動(dòng)作識(shí)別中的有效性。與最新方法相比,所提出的AS-GCN取得了一致的大改進(jìn)。作為一種副產(chǎn)品,As-GCN在未來的位姿預(yù)測(cè)中也顯示出了良好的效果。我們的代碼在

https://github.com/limaosen0/AS-GCN

103


Context-Aware Visual Compatibility Prediction

我們?nèi)绾未_定兩件或兩件以上的服裝是否兼容或具有視覺吸引力?部分原因在于對(duì)視覺美學(xué)的理解,并受到社會(huì)態(tài)度、時(shí)間和地點(diǎn)所形成的個(gè)人偏好的影響。在這項(xiàng)工作中,我們提出了一種方法,根據(jù)兩個(gè)項(xiàng)目的視覺特征以及它們的上下文來預(yù)測(cè)它們之間的兼容性。我們將上下文定義為已知與這些項(xiàng)中的每一項(xiàng)兼容的產(chǎn)品。我們的模型與其他度量學(xué)習(xí)方法形成對(duì)比,這些方法僅依賴于項(xiàng)特征之間的成對(duì)比較。我們使用圖形神經(jīng)網(wǎng)絡(luò)來解決兼容性預(yù)測(cè)問題,該網(wǎng)絡(luò)學(xué)習(xí)根據(jù)上下文生成產(chǎn)品嵌入。我們提出了兩個(gè)預(yù)測(cè)任務(wù)(填補(bǔ)空白和服裝兼容性)在兩個(gè)時(shí)尚數(shù)據(jù)集Pulvoor和Saturn Gen上的結(jié)果,以及在Amazon DataSet的一個(gè)子集上;當(dāng)使用上下文信息時(shí),我們實(shí)現(xiàn)了最先進(jìn)的結(jié)果,并且顯示了隨著更多上下文的使用,測(cè)試性能如何提高。

https://github.com/gcucurull/visual-compatibility

22



Graph Attention Convolution for Point Cloud Semantic Segmentation

標(biāo)準(zhǔn)卷積由于其特征的各向同性,在點(diǎn)云的語(yǔ)義分割中受到固有的限制。它忽略了目標(biāo)的結(jié)構(gòu),導(dǎo)致分割結(jié)果中的目標(biāo)輪廓差,虛假區(qū)域小。本文提出了一種新的圖形注意卷積(GAC),它的核心可以動(dòng)態(tài)地雕刻成特定的形狀以適應(yīng)對(duì)象的結(jié)構(gòu)。具體地說,通過給不同的相鄰點(diǎn)分配適當(dāng)?shù)淖⒁鈾?quán)值,GAC被設(shè)計(jì)成根據(jù)動(dòng)態(tài)學(xué)習(xí)的特征有選擇地關(guān)注其中最相關(guān)的部分。卷積核的形狀由注意權(quán)的學(xué)習(xí)分布決定。GAC雖然簡(jiǎn)單,但可以捕獲點(diǎn)云的結(jié)構(gòu)化特征進(jìn)行細(xì)粒度分割,避免對(duì)象間的特征污染。在理論上,我們對(duì)GAC的表現(xiàn)能力進(jìn)行了深入的分析,以展示它如何了解點(diǎn)云的特征。在實(shí)驗(yàn)上,我們對(duì)提出的GAC在挑戰(zhàn)性的室內(nèi)和室外數(shù)據(jù)集上進(jìn)行了評(píng)估,并在兩種情況下都取得了最新的結(jié)果。


An Attention Enhanced Graph Convolutional LSTM Network for?Skeleton-Based Action Recognition

基于骨骼的動(dòng)作識(shí)別是一項(xiàng)重要的任務(wù),它要求從給定的骨骼序列中充分了解人體動(dòng)作的運(yùn)動(dòng)特征。最近的研究表明,探索骨骼序列的時(shí)空特征對(duì)這項(xiàng)任務(wù)至關(guān)重要。然而,如何有效地提取具有區(qū)分性的時(shí)空特征仍然是一個(gè)具有挑戰(zhàn)性的問題。本文提出了一種新的基于骨架數(shù)據(jù)的注意增強(qiáng)圖卷積LSTM網(wǎng)絡(luò)(AGC-LSTM)。提出的AGC-LSTM不僅可以捕捉空間形態(tài)和時(shí)間動(dòng)力學(xué)中的判別特征,而且可以探索時(shí)空域之間的共生關(guān)系。我們還提出了一種時(shí)態(tài)層次結(jié)構(gòu)來增加頂層AGC-LSTM層的時(shí)態(tài)接受域,提高了高層語(yǔ)義表示的學(xué)習(xí)能力,顯著降低了計(jì)算開銷。此外,為了選擇有區(qū)別的空間信息,采用注意機(jī)制來增強(qiáng)每個(gè)AGC-LSTM層中關(guān)鍵節(jié)點(diǎn)的信息。給出了兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果:NTU-RGB+D數(shù)據(jù)集和西北UCLA數(shù)據(jù)集。比較結(jié)果表明了該方法的有效性,并且在兩個(gè)數(shù)據(jù)集上都優(yōu)于最新的方法。


Skeleton-Based Action Recognition with Directed Graph Neural Networks

骨架數(shù)據(jù)能夠很好地適應(yīng)動(dòng)態(tài)環(huán)境和復(fù)雜背景,因此在動(dòng)作識(shí)別中得到了廣泛的應(yīng)用。在現(xiàn)有的方法中,骨骼數(shù)據(jù)中的關(guān)節(jié)和骨骼信息都被證明對(duì)動(dòng)作識(shí)別任務(wù)有很大幫助。然而,如何將這兩種類型的數(shù)據(jù)結(jié)合起來,以便更好地利用關(guān)節(jié)和骨骼之間的關(guān)系,仍然是一個(gè)有待解決的問題。在這項(xiàng)工作中,我們根據(jù)人體關(guān)節(jié)和骨骼之間的運(yùn)動(dòng)相關(guān)性,將骨骼數(shù)據(jù)表示為有向無(wú)環(huán)圖(DAG)。設(shè)計(jì)了一種新的有向圖神經(jīng)網(wǎng)絡(luò),用于提取關(guān)節(jié)、骨骼及其相互關(guān)系的信息,并根據(jù)提取的特征進(jìn)行預(yù)測(cè)。另外,為了更好地適應(yīng)動(dòng)作識(shí)別任務(wù),在訓(xùn)練過程的基礎(chǔ)上,對(duì)圖的拓?fù)浣Y(jié)構(gòu)進(jìn)行了自適應(yīng),使其得到了顯著的改進(jìn)。在雙流框架下,利用骨架序列的運(yùn)動(dòng)信息,結(jié)合空間信息,進(jìn)一步提高性能。我們的最終模型在兩個(gè)大型數(shù)據(jù)集NTU-RGBD和骨骼動(dòng)力學(xué)上進(jìn)行了測(cè)試,在這兩個(gè)數(shù)據(jù)集上都超過了最新的性能。

https://github.com/kenziyuliu/DGNN-PyTorch

(非官方)

70



Deep Compositional Question Answering with Neural Module Networks

視覺問答在本質(zhì)上是一種構(gòu)圖性的問題,比如狗在哪里?分享子結(jié)構(gòu)的問題,比如狗是什么顏色的?那貓呢?本文試圖同時(shí)挖掘深層網(wǎng)絡(luò)的表征能力和問題的構(gòu)成語(yǔ)言結(jié)構(gòu)。我們描述了一個(gè)構(gòu)造和學(xué)習(xí)神經(jīng)模塊網(wǎng)絡(luò)的過程,它將聯(lián)合訓(xùn)練的神經(jīng)模塊集合組成深層網(wǎng)絡(luò)進(jìn)行問答。我們的方法將問題分解為它們的語(yǔ)言子結(jié)構(gòu),并使用這些結(jié)構(gòu)動(dòng)態(tài)地實(shí)例化模塊化網(wǎng)絡(luò)(具有可重用的組件,用于識(shí)別狗、分類顏色等)。由此產(chǎn)生的復(fù)合網(wǎng)絡(luò)是聯(lián)合訓(xùn)練的。我們對(duì)兩個(gè)具有挑戰(zhàn)性的可視化問答數(shù)據(jù)集進(jìn)行了評(píng)估,在VQA自然圖像數(shù)據(jù)集和一個(gè)新的抽象形狀復(fù)雜問題數(shù)據(jù)集上都取得了最新的結(jié)果。



GEOMetrics: Exploiting Geometric Structure for Graph-Encoded Objects

網(wǎng)格模型是一種很有前途的三維物體結(jié)構(gòu)編碼方法。當(dāng)前的網(wǎng)格重建系統(tǒng)通過一系列的圖卷積來預(yù)測(cè)一個(gè)預(yù)定圖的均勻分布的頂點(diǎn)位置,這會(huì)導(dǎo)致性能或分辨率的降低。在本文中,我們認(rèn)為幾何對(duì)象的圖形表示允許額外的結(jié)構(gòu),這應(yīng)該用于增強(qiáng)重建。因此,我們通過引入(1)保留頂點(diǎn)信息的圖卷積更新;(2)允許細(xì)節(jié)出現(xiàn)的自適應(yīng)分裂啟發(fā)式;以及(3)在由頂點(diǎn)定義的局部曲面上同時(shí)操作的訓(xùn)練目標(biāo),提出了一個(gè)適當(dāng)?shù)乩脠D形編碼對(duì)象的幾何結(jié)構(gòu)優(yōu)點(diǎn)的系統(tǒng)以及由網(wǎng)格定義的全局結(jié)構(gòu)。我們提出的方法是基于ShapeNet數(shù)據(jù)集的三維物體重建任務(wù)進(jìn)行評(píng)估的,在該任務(wù)中,我們?cè)谝曈X和數(shù)值上展示了最先進(jìn)的性能,同時(shí)通過生成自適應(yīng)網(wǎng)格具有更小的空間要求

https://github.com/EdwardSmith1884/GEOMetrics

76


Graph Convolutional Gaussian Processes

我們提出了一種新的貝葉斯非參數(shù)方法來學(xué)習(xí)非歐氏域上的平移不變關(guān)系。所得到的圖卷積高斯過程可以應(yīng)用于機(jī)器學(xué)習(xí)中的問題,對(duì)于這些問題,輸入觀測(cè)值是一般圖上具有區(qū)域的函數(shù)。與卷積神經(jīng)網(wǎng)絡(luò)一樣,這些模型的結(jié)構(gòu)允許高維輸入,同時(shí)保持可表達(dá)性。我們提出的圖形卷積高斯過程的圖像和三角網(wǎng)格的應(yīng)用,展示了它們的通用性和有效性,與現(xiàn)有的方法相比,盡管是相對(duì)簡(jiǎn)單的模型。



LatentGNN: Learning Efficient Non-local Relations for Visual Recognition

在特征表示中捕獲長(zhǎng)距離依賴關(guān)系對(duì)于許多視覺識(shí)別任務(wù)至關(guān)重要。盡管最近深卷積網(wǎng)絡(luò)取得了一些成功,但是在視覺特征之間建立非局部上下文關(guān)系模型仍然是一個(gè)挑戰(zhàn)。一種很有前途的策略是利用全連通圖神經(jīng)網(wǎng)絡(luò)(GNN)對(duì)特征上下文進(jìn)行建模,該網(wǎng)絡(luò)利用估計(jì)的非局部上下文表示對(duì)傳統(tǒng)卷積特征進(jìn)行擴(kuò)展。然而,大多數(shù)基于GNN的方法都需要計(jì)算一個(gè)稠密的圖親和矩陣,因此很難擴(kuò)展到處理復(fù)雜的現(xiàn)實(shí)世界的視覺問題。在這項(xiàng)工作中,我們提出了一種有效的,但靈活的非局部關(guān)系表示基于一類新的圖形神經(jīng)網(wǎng)絡(luò)。我們的關(guān)鍵思想是引入一個(gè)潛在的空間來減少圖的復(fù)雜度,這使得我們可以使用圖的親和度矩陣的低秩表示,并在計(jì)算中實(shí)現(xiàn)線性復(fù)雜度。對(duì)三種主要的視覺識(shí)別任務(wù)進(jìn)行了大量的實(shí)驗(yàn)評(píng)估,結(jié)果表明,該方法在保持較低計(jì)算成本的同時(shí),在較大的幅度上優(yōu)于已有的方法。為了便于將來的研究,可以使用以下代碼:https://github.com/latentgnn/LatentGNN-V1-PyTorch

42


-----------------------------------------------------------------------------------------------------------------------------------


AttKGCN: Attribute Knowledge Graph Convolutional Network for Person Re-identification

人圖像的鑒別特征表示是人的再鑒別(re ID)任務(wù)的重要組成部分。近年來,屬性被證明有助于指導(dǎo)學(xué)習(xí)更具區(qū)分性的Re-ID特征表示。由于屬性通常在人的圖像中同時(shí)出現(xiàn),因此需要對(duì)屬性依賴性進(jìn)行建模,以改進(jìn)屬性預(yù)測(cè),從而得到Re-ID結(jié)果。本文提出了一種新的屬性知識(shí)圖(AttKG)對(duì)這些屬性依賴關(guān)系進(jìn)行建模,并提出了一種新的屬性知識(shí)圖卷積網(wǎng)絡(luò)(AttKGCN)來解決Re ID問題。AttKGCN將屬性預(yù)測(cè)和Re-ID學(xué)習(xí)集成在一個(gè)統(tǒng)一的端到端框架中,可以分別提高它們的性能。AttKGCN首先構(gòu)建一個(gè)有向?qū)傩訩G,它的節(jié)點(diǎn)表示屬性,邊編碼不同屬性的共現(xiàn)關(guān)系。然后,AttKGCN學(xué)習(xí)一組相互依賴的屬性分類器,這些分類器與人的視覺描述符相結(jié)合,用于屬性預(yù)測(cè)。最后,AttKGCN將屬性描述和深度視覺表示結(jié)合起來,構(gòu)造了一個(gè)更具區(qū)分性的特征表示。在多個(gè)基準(zhǔn)數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了AttKGCN在屬性預(yù)測(cè)和Re-ID任務(wù)上的有效性。


Learning Cross-modal Context Graph for Visual Grounding

視覺接地是許多視覺語(yǔ)言任務(wù)中普遍存在的一個(gè)構(gòu)建塊,但由于接地實(shí)體的視覺和語(yǔ)言特征的巨大變化、強(qiáng)烈的語(yǔ)境效應(yīng)以及由此產(chǎn)生的語(yǔ)義模糊性,視覺接地仍然具有挑戰(zhàn)性。以往的研究主要集中在學(xué)習(xí)具有有限語(yǔ)境信息的單個(gè)短語(yǔ)的表達(dá)。針對(duì)其局限性,本文提出了一種語(yǔ)言引導(dǎo)圖表示方法,以捕捉接地實(shí)體的全局上下文及其關(guān)系,并針對(duì)多短語(yǔ)視覺接地任務(wù)提出了一種跨模式圖匹配策略。特別地,我們引入了一個(gè)模塊化的圖神經(jīng)網(wǎng)絡(luò),通過消息傳播分別計(jì)算短語(yǔ)和對(duì)象建議的上下文感知表示,然后使用基于圖的匹配模塊生成接地短語(yǔ)的全局一致定位。我們以兩階段策略共同訓(xùn)練整個(gè)圖形神經(jīng)網(wǎng)絡(luò),并在Flickr30K實(shí)體基準(zhǔn)上對(duì)其進(jìn)行評(píng)估。大量實(shí)驗(yàn)表明,我們的方法在很大程度上優(yōu)于現(xiàn)有技術(shù),證明了我們的基礎(chǔ)框架的有效性。代碼位于

https://github.com/youngfly11/LCMCG-PyTorch

(AAAI2020)


Heterogeneous Graph Learning for Visual Commonsense Reasoning

視覺常識(shí)推理任務(wù)旨在引導(dǎo)研究領(lǐng)域解決認(rèn)知層面的推理,具有預(yù)測(cè)正確答案的能力,同時(shí)提供令人信服的推理路徑,從而產(chǎn)生三個(gè)子任務(wù),即Q->A,QA->R和Q->AR。這對(duì)視覺和語(yǔ)言領(lǐng)域之間的語(yǔ)義對(duì)齊以及知識(shí)推理產(chǎn)生有說服力的推理路徑提出了巨大挑戰(zhàn)。現(xiàn)有的工作要么求助于強(qiáng)大的端到端網(wǎng)絡(luò),要么不能產(chǎn)生可解釋的推理路徑,要么僅僅探索視覺對(duì)象(同構(gòu)圖)的內(nèi)部關(guān)系,而忽略了視覺概念和語(yǔ)言詞之間的跨域語(yǔ)義對(duì)齊。本文提出了一種新的異構(gòu)圖學(xué)習(xí)(HGL)框架,將圖內(nèi)推理和圖間推理無(wú)縫地結(jié)合起來,以架起視覺和語(yǔ)言領(lǐng)域的橋梁。我們的HGL由一個(gè)原始的異類圖回答模塊(VAHG)和一個(gè)雙重的異類圖回答模塊(QAHG)組成,用于交互式地優(yōu)化語(yǔ)義一致性的推理路徑。此外,我們的HGL集成了一個(gè)上下文投票模塊,以利用遠(yuǎn)程可視上下文進(jìn)行更好的全局推理。在大規(guī)模的視覺常識(shí)推理基準(zhǔn)上的實(shí)驗(yàn)表明,我們提出的模塊在三個(gè)任務(wù)上都表現(xiàn)出了優(yōu)越的性能(在Q->A上提高了5%的準(zhǔn)確性,在QA->R上提高了3.5%,在Q->AR上提高了5.8%)

?https://github.com/yuweijiang/HGL-pytorch



Fully-Automatic Semantic Segmentation for Food Intake Tracking in Long-Term Care Homes


Word-level Deep Sign Language Recognition from Video: A New Large-scale Dataset and Methods Comparison

基于視覺的手語(yǔ)識(shí)別旨在幫助聽障人士與他人進(jìn)行交流。然而,大多數(shù)現(xiàn)有手語(yǔ)數(shù)據(jù)集僅限于少量的單詞。由于詞匯量有限,從這些數(shù)據(jù)集中學(xué)習(xí)到的模型無(wú)法在實(shí)踐中應(yīng)用。本文介紹了一種新的大規(guī)模字級(jí)美國(guó)手語(yǔ)(WLASL)視頻數(shù)據(jù)集,由100多個(gè)簽名者完成,包含2000多個(gè)字。該數(shù)據(jù)集將向研究界公開。據(jù)我們所知,它是迄今為止最大的公共ASL數(shù)據(jù)集,有助于字級(jí)符號(hào)識(shí)別的研究。

基于這個(gè)新的大規(guī)模數(shù)據(jù)集,我們可以嘗試幾種用于字級(jí)符號(hào)識(shí)別的深度學(xué)習(xí)方法,并評(píng)估它們?cè)诖笠?guī)模場(chǎng)景中的性能。具體來說,我們實(shí)現(xiàn)并比較了兩種不同的模型,即(i)基于整體視覺外觀的方法和(ii)基于二維人體姿勢(shì)的方法。這兩個(gè)模型都是有價(jià)值的基線,將有利于社區(qū)進(jìn)行方法基準(zhǔn)測(cè)試。此外,我們還提出了一種新的基于姿態(tài)的時(shí)間圖卷積網(wǎng)絡(luò)(pose-TGCN),它可以同時(shí)對(duì)人體姿態(tài)軌跡的空間和時(shí)間依賴性進(jìn)行建模,進(jìn)一步提高了基于姿態(tài)的方法的性能。我們的結(jié)果表明,基于姿勢(shì)和基于外觀的模型在2000個(gè)單詞/gloss上達(dá)到了66%的可比性能,顯示了我們數(shù)據(jù)集的有效性和挑戰(zhàn)性。我們將使大規(guī)模的數(shù)據(jù)集,以及我們的基線深度模型,免費(fèi)提供在線。



Facial Expression Restoration Based on Improved Graph Convolutional Networks

當(dāng)人臉圖像分辨率較低或部分遮擋時(shí),野外表情分析具有挑戰(zhàn)性。針對(duì)不同表情下不同人臉局部區(qū)域之間的相關(guān)性,提出了一種基于生成性對(duì)抗網(wǎng)絡(luò)的人臉表情恢復(fù)方法,該方法將改進(jìn)的圖形卷積網(wǎng)絡(luò)(IGCN)和區(qū)域關(guān)系建模塊(RRMB)相結(jié)合。與傳統(tǒng)的以矢量為輸入特征的圖卷積網(wǎng)絡(luò)不同,IGCN可以使用面片的張量作為輸入。最好保留面片的結(jié)構(gòu)信息。提出的RRMB旨在解決面部生成任務(wù),包括修復(fù)和面部動(dòng)作單元檢測(cè)的超分辨率,旨在恢復(fù)面部表情作為基本真實(shí)。在BP4D和DISFA基準(zhǔn)上進(jìn)行的大量實(shí)驗(yàn)通過定量和定性評(píng)估證明了我們提出的方法的有效性



Human Action Recognition with Multi-Laplacian Graph Convolutional Networks

卷積神經(jīng)網(wǎng)絡(luò)在不同的模式識(shí)別問題上取得了巨大的成功。這些學(xué)習(xí)模型基本上是為了處理圖像等矢量數(shù)據(jù)而設(shè)計(jì)的,但它們對(duì)非矢量和半結(jié)構(gòu)化數(shù)據(jù)(即具有可變大小的圖形、拓?fù)浣Y(jié)構(gòu)等)的擴(kuò)展仍然是一個(gè)重大挑戰(zhàn),盡管目前正在出現(xiàn)一些有趣的解決方案。

本文介紹了一種新的譜多重拉普拉斯圖卷積網(wǎng)絡(luò)MLGCN。這種方法的主要貢獻(xiàn)在于一種新的設(shè)計(jì)原則,它將圖拉普拉斯學(xué)習(xí)為其他基本拉普拉斯的凸組合,每個(gè)拉普拉斯都專用于輸入圖的特定拓?fù)?。我們還引入了一種新的圖上池算子,它分兩步進(jìn)行:上下文相關(guān)的節(jié)點(diǎn)擴(kuò)展,然后是全局平均池;這兩步過程的優(yōu)點(diǎn)在于它能夠在實(shí)現(xiàn)置換不變性的同時(shí)保持節(jié)點(diǎn)的區(qū)分能力。在SBU和UCF-101數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了該方法對(duì)具有挑戰(zhàn)性的動(dòng)作識(shí)別任務(wù)的有效性。

https://www.groundai.com/project/human-action-recognition-with-multi-laplacian-graph-convolutional-networks/1



Using Image Priors to Improve Scene Understanding

語(yǔ)義分割算法能夠在多個(gè)攝像機(jī)視點(diǎn)上對(duì)物體進(jìn)行強(qiáng)有力的分割,對(duì)于保證導(dǎo)航和自主駕駛等新興應(yīng)用的安全性至關(guān)重要?,F(xiàn)有的算法單獨(dú)處理每個(gè)圖像,但自主車輛經(jīng)常重訪相同的位置或保持信息從眼前的過去。我們提出了一種簡(jiǎn)單而有效的方法來利用這些圖像先驗(yàn)知識(shí)來改進(jìn)序列驅(qū)動(dòng)數(shù)據(jù)集中圖像的語(yǔ)義分割。我們研究了幾種融合這些時(shí)間場(chǎng)景先驗(yàn)信息的方法,并介紹了一種能夠?qū)W習(xí)如何傳輸這些信息的先驗(yàn)融合網(wǎng)絡(luò)。對(duì)于動(dòng)態(tài)類,先驗(yàn)融合模型比非先驗(yàn)基線的精度從69.1%提高到73.3%,對(duì)于靜態(tài)類,從88.2%提高到89.1%。與FCN-8等模型相比,我們的方法在參數(shù)減少5倍的情況下達(dá)到了同樣的精度。我們使用了簡(jiǎn)單的編解碼骨干網(wǎng),但是這種通用的先驗(yàn)融合方法可以應(yīng)用到更復(fù)雜的語(yǔ)義分割骨干網(wǎng)中。我們還討論了如何利用場(chǎng)景圖中場(chǎng)景的結(jié)構(gòu)化表示作為先驗(yàn)知識(shí)來進(jìn)一步提高場(chǎng)景理解能力。


wMAN: Weakly-supervised Moment Alignment Network for Text-based Video Segment Retrieval

給定一個(gè)視頻和一個(gè)句子,弱監(jiān)督視頻矩檢索的目標(biāo)是在訓(xùn)練過程中定位由句子描述的視頻片段,而不需要獲取時(shí)間注釋。相反,一個(gè)模型必須學(xué)習(xí)如何識(shí)別只有視頻句子對(duì)時(shí)的正確片段(即時(shí)刻)。因此,一個(gè)內(nèi)在的挑戰(zhàn)是自動(dòng)推斷視覺和語(yǔ)言表達(dá)之間的潛在對(duì)應(yīng)關(guān)系。為了便于這種對(duì)齊,我們提出了弱監(jiān)督矩對(duì)齊網(wǎng)絡(luò)(wMAN),它利用多層次的共同注意機(jī)制來學(xué)習(xí)更豐富的多模態(tài)表示。上述機(jī)制由一個(gè)逐幀交互模塊和一個(gè)新的詞條件視覺圖(WCVG)組成。我們的方法還結(jié)合了位置編碼的一個(gè)新應(yīng)用,通常用于變壓器,通過迭代消息傳遞來學(xué)習(xí)視覺語(yǔ)義表示,這些表示包含了它們?cè)跁r(shí)間序列中相對(duì)位置的上下文信息。在DiDeMo和Charades-STA數(shù)據(jù)集上的綜合實(shí)驗(yàn)證明了我們所學(xué)習(xí)的表示方法的有效性:我們的組合wMAN模型不僅在很大程度上優(yōu)于最新的弱監(jiān)督方法,而且在某些度量上也優(yōu)于強(qiáng)監(jiān)督的最新方法。


Visual Semantic Reasoning for Image-Text Matching

圖像文本匹配一直是連接視覺和語(yǔ)言領(lǐng)域的研究熱點(diǎn)。它仍然具有挑戰(zhàn)性,因?yàn)楫?dāng)前的圖像表示通常缺乏相應(yīng)文本標(biāo)題中的全局語(yǔ)義概念。為了解決這個(gè)問題,我們提出了一個(gè)簡(jiǎn)單的、可解釋的推理模型來生成捕獲關(guān)鍵對(duì)象和場(chǎng)景語(yǔ)義概念的可視化表示。具體來說,我們首先建立圖像區(qū)域之間的連接,然后使用圖卷積網(wǎng)絡(luò)進(jìn)行推理,以生成具有語(yǔ)義關(guān)系的特征。然后,我們提出使用門和記憶機(jī)制對(duì)這些關(guān)系增強(qiáng)的特征進(jìn)行全局語(yǔ)義推理,選擇判別信息,并逐步生成整個(gè)場(chǎng)景的表示。實(shí)驗(yàn)證明,該方法在MS-COCO和Flickr30K數(shù)據(jù)集上實(shí)現(xiàn)了一種新的圖像文本匹配技術(shù)。它在圖像檢索和標(biāo)題檢索方面的性能分別比目前的最佳方法高出6.8%和4.8%(使用1K測(cè)試集調(diào)用@1)。在Flickr30K上,我們的模型將圖像檢索相對(duì)提高了12.6%,標(biāo)題檢索相對(duì)提高了5.8%(Recall@1)。我們的代碼可以在https://github.com/KunpengLi1994/VSRN上找到。

https://github.com/KunpengLi1994/VSRN

80



Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning


Fashion Retrieval via Graph Reasoning Networks on a Similarity Pyramid


Action Recognition in Untrimmed Videos with Composite Self-Attention Two-Stream Framework

摘要:隨著深度學(xué)習(xí)算法的迅速發(fā)展,視頻中的動(dòng)作識(shí)別取得了許多重要的研究成果。動(dòng)作識(shí)別中的一個(gè)問題零拍動(dòng)作識(shí)別(ZSAR)最近引起了人們的廣泛關(guān)注,它在沒有任何正面例子的情況下對(duì)新的類別進(jìn)行分類。動(dòng)作識(shí)別的另一個(gè)困難是未經(jīng)處理的數(shù)據(jù)可能會(huì)嚴(yán)重影響模型的性能。我們提出了一個(gè)帶有預(yù)訓(xùn)練模型的復(fù)合雙流框架。我們提出的框架包括一個(gè)分類器分支和一個(gè)復(fù)合特征分支。在兩個(gè)分支中分別采用圖網(wǎng)絡(luò)模型,有效地提高了框架的特征提取和推理能力。在復(fù)合特征分支中,構(gòu)建了一個(gè)三通道的自關(guān)注模型,對(duì)視頻中的每一幀進(jìn)行加權(quán),并對(duì)關(guān)鍵幀給予更多的關(guān)注。每個(gè)自注意模型信道輸出一組注意權(quán)重以聚焦于視頻的特定方面,并且一組注意權(quán)重對(duì)應(yīng)于一維向量。



Sentence Specified Dynamic Video Thumbnail Generation

隨著互聯(lián)網(wǎng)上視頻的巨大增長(zhǎng),提供視頻內(nèi)容預(yù)覽的視頻縮略圖對(duì)于影響用戶的在線搜索體驗(yàn)越來越重要。傳統(tǒng)的視頻縮略圖僅根據(jù)視頻的視覺特性生成一次,然后按要求顯示。因此,這樣的視頻縮略圖,如果不考慮用戶的搜索意圖,就不能提供用戶關(guān)心的視頻內(nèi)容的有意義的快照。本文定義了一個(gè)獨(dú)特的新任務(wù),即句子指定的動(dòng)態(tài)視頻縮略圖生成,生成的縮略圖不僅提供了原始視頻內(nèi)容的簡(jiǎn)明預(yù)覽,而且與用戶的搜索意圖動(dòng)態(tài)相關(guān),語(yǔ)義對(duì)應(yīng)于用戶的查詢語(yǔ)句。為了解決這一難題,我們提出了一種新的圖形卷積視頻縮略圖指針(GTP)。具體地說,GTP利用句子指定的視頻圖卷積網(wǎng)絡(luò)來建模句子-視頻語(yǔ)義交互和與句子信息相結(jié)合的內(nèi)部視頻關(guān)系,在此基礎(chǔ)上,引入時(shí)間條件指針網(wǎng)絡(luò),依次生成句子指定的視頻縮略圖。此外,我們基于ActivityNet標(biāo)題為新任務(wù)添加了一個(gè)新的數(shù)據(jù)集,該數(shù)據(jù)集由10000多個(gè)視頻句子對(duì)組成,每個(gè)視頻句子對(duì)附有一個(gè)指定的視頻縮略圖。我們證明我們提出的GTP方法在所建立的數(shù)據(jù)集上優(yōu)于幾種基線方法,因此我們相信隨著新數(shù)據(jù)集的發(fā)布,我們的初步結(jié)果將啟發(fā)對(duì)句子指定的動(dòng)態(tài)視頻縮略圖生成的進(jìn)一步研究。

https://github.com/yytzsy/GTP



Pixel2Mesh++: Multi-View 3D Mesh Generation via Deformation

研究了由已知攝像機(jī)姿態(tài)的彩色圖像進(jìn)行三維網(wǎng)格表示時(shí)的形狀生成問題。雖然許多以前的作品學(xué)習(xí)直接從先驗(yàn)知識(shí)中產(chǎn)生幻覺,但我們通過利用圖形卷積網(wǎng)絡(luò)的交叉視圖信息來進(jìn)一步提高形狀質(zhì)量。我們的模型沒有建立從圖像到三維形狀的直接映射函數(shù),而是學(xué)習(xí)預(yù)測(cè)一系列的變形以迭代地改進(jìn)粗糙形狀。在傳統(tǒng)的多視圖幾何方法的啟發(fā)下,我們的網(wǎng)絡(luò)在初始網(wǎng)格頂點(diǎn)附近區(qū)域進(jìn)行采樣,并利用從多個(gè)輸入圖像中建立的感知特征統(tǒng)計(jì)來確定最佳變形。大量的實(shí)驗(yàn)表明,我們的模型產(chǎn)生了準(zhǔn)確的三維形狀,不僅從視覺上看,從輸入的角度,似乎是合理的,而且很好地對(duì)齊任意的觀點(diǎn)。借助于物理驅(qū)動(dòng)的體系結(jié)構(gòu),我們的模型還表現(xiàn)出跨不同語(yǔ)義類別的泛化能力、輸入圖像的數(shù)量和網(wǎng)格初始化的質(zhì)量。


StructureNet: Hierarchical Graph Networks for 3D Shape Generation

生成新穎、多樣和真實(shí)的三維形狀以及相關(guān)的零件語(yǔ)義和結(jié)構(gòu)的能力對(duì)于許多需要高質(zhì)量三維資產(chǎn)或大量真實(shí)訓(xùn)練數(shù)據(jù)的應(yīng)用來說至關(guān)重要。實(shí)現(xiàn)這一目標(biāo)的一個(gè)關(guān)鍵挑戰(zhàn)是如何適應(yīng)不同的形狀,包括零件的連續(xù)變形以及添加、移除或修改形狀成分和組成結(jié)構(gòu)的結(jié)構(gòu)或離散變化。這種對(duì)象結(jié)構(gòu)通??梢越M織成一個(gè)由組成對(duì)象部分和關(guān)系組成的層次結(jié)構(gòu),表示為n元圖的層次結(jié)構(gòu)。我們介紹了一種層次圖網(wǎng)絡(luò)StructureNet,它(i)可以直接編碼表示為n元圖的形狀;(ii)可以在大而復(fù)雜的形狀族上進(jìn)行健壯的訓(xùn)練;以及(iii)用于生成大量多樣的真實(shí)的結(jié)構(gòu)化形狀幾何體。從技術(shù)上講,我們是通過借鑒圖形神經(jīng)網(wǎng)絡(luò)的最新進(jìn)展來實(shí)現(xiàn)這一點(diǎn)的,提出了一種n元圖形的順序不變編碼,同時(shí)考慮了網(wǎng)絡(luò)訓(xùn)練中的部分幾何和部分間關(guān)系。我們廣泛地評(píng)估了不同形狀族的學(xué)習(xí)潛在空間的質(zhì)量,并顯示出相對(duì)于基線和競(jìng)爭(zhēng)方法的顯著優(yōu)勢(shì)。學(xué)習(xí)到的潛在空間能夠?qū)崿F(xiàn)多種結(jié)構(gòu)感知的幾何處理應(yīng)用,包括形狀生成和插值、形狀編輯或直接從未注釋圖像、點(diǎn)云或部分掃描中發(fā)現(xiàn)形狀結(jié)構(gòu)。


PH-GCN: Person Re-identification with Part-based Hierarchical Graph Convolutional Network


Deep Graph-Convolutional Image Denoising


Interactive Image Generation Using Scene Graphs

近年來,基于場(chǎng)景的文本描述在圖像生成領(lǐng)域出現(xiàn)了一些令人興奮的發(fā)展。這些方法主要集中于從靜態(tài)文本描述生成圖像,并且僅限于在單個(gè)過程中生成圖像。它們無(wú)法基于增量相加的文本描述(更直觀和類似于我們描述圖像的方式)交互式地生成圖像。提出了一種基于場(chǎng)景描述圖序列(場(chǎng)景圖)的圖像增量生成方法。我們提出了一種遞歸的網(wǎng)絡(luò)結(jié)構(gòu),它保留了先前步驟中生成的圖像內(nèi)容,并根據(jù)新提供的場(chǎng)景信息修改累積圖像。該模型利用圖形卷積網(wǎng)絡(luò)(GCN)來迎合可變大小的場(chǎng)景圖和生成的對(duì)抗性圖像轉(zhuǎn)換網(wǎng)絡(luò)來生成真實(shí)的多目標(biāo)圖像,而無(wú)需在訓(xùn)練過程中進(jìn)行任何中間監(jiān)控。



PasteGAN: A Semi-Parametric Method to Generate Image from Scene Graph

盡管在基于結(jié)構(gòu)化(場(chǎng)景圖)或自由形式(句子)描述的高質(zhì)量圖像生成方面取得了一些令人振奮的進(jìn)展,但大多數(shù)都只保證了圖像層次的語(yǔ)義一致性,生成的圖像與描述的語(yǔ)義相匹配。然而,它仍然缺乏對(duì)圖像合成的更可控的研究,比如精細(xì)地操縱每個(gè)物體的視覺外觀。因此,為了生成具有首選對(duì)象和豐富交互作用的圖像,我們提出了一種半?yún)?shù)方法,稱為PasteGAN,用于從場(chǎng)景圖生成圖像,其中對(duì)象的空間排列及其成對(duì)關(guān)系由場(chǎng)景圖定義,對(duì)象的外觀由給定對(duì)象決定作物。為了增強(qiáng)輸出中對(duì)象的交互作用,我們?cè)O(shè)計(jì)了一個(gè)裁剪優(yōu)化網(wǎng)絡(luò),將對(duì)象及其關(guān)系嵌入到一個(gè)地圖中。多重?fù)p失協(xié)同工作,以確保生成的圖像高度尊重作物和符合場(chǎng)景圖,同時(shí)保持良好的圖像質(zhì)量。如果沒有提供裁剪,還建議使用裁剪選擇器通過對(duì)場(chǎng)景圖中對(duì)象周圍的交互進(jìn)行編碼,從外部對(duì)象庫(kù)中選擇最兼容的裁剪。通過對(duì)視覺基因組和COCO數(shù)據(jù)的分析,我們提出的方法在初始得分和多樣性得分上都明顯優(yōu)于SOTA方法,并且有很大的優(yōu)勢(shì)。大量的實(shí)驗(yàn)也證明了我們的方法能夠生成具有給定對(duì)象的復(fù)雜多樣的圖像。


Edge-labeling Graph Neural Network for Few-shot Learning


Semantic Relationships Guided Representation Learning for Facial Action Unit Recognition

人臉動(dòng)作單元(AU)識(shí)別是人臉表情分析的一項(xiàng)重要任務(wù),在人工智能和計(jì)算機(jī)視覺領(lǐng)域引起了廣泛的關(guān)注。現(xiàn)有的工作集中于設(shè)計(jì)或?qū)W習(xí)復(fù)雜的區(qū)域特征表示,或深入到各種類型的AU關(guān)系建模。盡管有不同程度的進(jìn)步,但對(duì)于現(xiàn)有的處理復(fù)雜情況的方法仍然費(fèi)力。本文研究了如何將AUs之間的語(yǔ)義關(guān)系傳播集成到一個(gè)深層神經(jīng)網(wǎng)絡(luò)框架中,以增強(qiáng)面部區(qū)域的特征表示,并提出了一個(gè)AU語(yǔ)義關(guān)系嵌入表示學(xué)習(xí)(SRERL)框架。具體來說,通過分析各種表情中AUs的共生和互斥,我們以結(jié)構(gòu)化知識(shí)圖的形式組織面部AUs,并將門控圖神經(jīng)網(wǎng)絡(luò)(GGNN)集成到多尺度CNN框架中,通過圖傳播節(jié)點(diǎn)信息,生成增強(qiáng)的AU表示。由于所學(xué)習(xí)的特征既包含了外觀特征,又包含了AU關(guān)系推理,因此該模型具有更強(qiáng)的魯棒性,能夠處理更具挑戰(zhàn)性的情況,如光照變化和部分遮擋。在兩個(gè)公共基準(zhǔn)上的大量實(shí)驗(yàn)表明,我們的方法優(yōu)于以前的工作,并且達(dá)到了最先進(jìn)的性能。


3D Dense Face Alignment via Graph Convolution Networks


Relational Action Forecasting

本文主要研究視頻中的多人動(dòng)作預(yù)測(cè)。更準(zhǔn)確地說,給定H個(gè)先前幀的歷史,目標(biāo)是檢測(cè)參與者并預(yù)測(cè)他們?cè)谙乱粋€(gè)T幀中的未來動(dòng)作。我們的方法以更快的R-CNN作為節(jié)點(diǎn),通過構(gòu)造一個(gè)遞歸圖,聯(lián)合建模不同參與者之間的時(shí)空交互。我們的方法學(xué)習(xí)在不需要明確監(jiān)督的情況下選擇判別關(guān)系的子集,從而使我們能夠處理具有挑戰(zhàn)性的視覺數(shù)據(jù)。我們將我們的模型稱為判別關(guān)系遞歸網(wǎng)絡(luò)(DRRN)。在AVA上對(duì)動(dòng)作預(yù)測(cè)的評(píng)估表明,與簡(jiǎn)單的基線相比,我們提出的方法是有效的。此外,我們?cè)贘-HMDB上的早期動(dòng)作分類任務(wù)的性能顯著提高,從之前的48%提高到60%。


Context-Aware Embeddings for Automatic Art Analysis

自動(dòng)藝術(shù)分析旨在利用計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù),從一組圖像中分類和檢索藝術(shù)表現(xiàn)。在這項(xiàng)工作中,我們建議用上下文藝術(shù)信息增強(qiáng)神經(jīng)網(wǎng)絡(luò)的視覺表現(xiàn)力。盡管視覺表現(xiàn)能夠捕捉關(guān)于藝術(shù)品內(nèi)容和風(fēng)格的信息,但我們提出的上下文感知嵌入方法額外地編碼了不同藝術(shù)屬性之間的關(guān)系,如作者、流派或歷史時(shí)期。我們?cè)O(shè)計(jì)了兩種在自動(dòng)藝術(shù)分析中使用上下文的不同方法。第一種方法是通過多任務(wù)學(xué)習(xí)模型獲得上下文數(shù)據(jù),在該模型中,多個(gè)屬性被訓(xùn)練在一起以發(fā)現(xiàn)元素之間的視覺關(guān)系。在第二種方法中,上下文是通過特定于藝術(shù)的知識(shí)圖獲得的,該知識(shí)圖編碼了藝術(shù)屬性之間的關(guān)系。在作者識(shí)別、類型分類或跨模態(tài)檢索等幾個(gè)藝術(shù)分析問題中,我們對(duì)兩個(gè)模型的詳盡評(píng)估表明,當(dāng)使用上下文感知嵌入時(shí),藝術(shù)分類和檢索的性能分別提高了7.3%和37.24%。



Context-aware Human Motion Prediction

在機(jī)器人學(xué)和計(jì)算機(jī)視覺的許多應(yīng)用中,根據(jù)過去的觀察序列來預(yù)測(cè)人類運(yùn)動(dòng)的問題是核心。當(dāng)前的最新技術(shù)將這個(gè)問題描述為一個(gè)順序到順序的任務(wù),在這個(gè)任務(wù)中,3D骨骼的歷史數(shù)據(jù)為預(yù)測(cè)未來運(yùn)動(dòng)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)提供數(shù)據(jù),通常是1到2秒的順序。然而,迄今為止已經(jīng)被排除的一個(gè)方面是,人類的運(yùn)動(dòng)本質(zhì)上是由與環(huán)境中的物體和/或其他人類的相互作用驅(qū)動(dòng)的。在本文中,我們使用一個(gè)新的上下文感知運(yùn)動(dòng)預(yù)測(cè)架構(gòu)來探索這個(gè)場(chǎng)景。我們使用一個(gè)語(yǔ)義圖模型,其中節(jié)點(diǎn)參數(shù)化場(chǎng)景中的人和物體,以及它們相互作用的邊。這些相互作用是通過一個(gè)圖形注意層迭代學(xué)習(xí)的,由過去的觀察結(jié)果提供信息,現(xiàn)在包括物體和人體的運(yùn)動(dòng)。一旦這個(gè)語(yǔ)義圖被學(xué)習(xí),我們就把它注入到一個(gè)標(biāo)準(zhǔn)的RNN中,以預(yù)測(cè)人/s和對(duì)象/s的未來移動(dòng)。我們考慮我們架構(gòu)的兩個(gè)變體,或者在將來更新它們時(shí)凍結(jié)上下文交互。對(duì)“全身人體運(yùn)動(dòng)數(shù)據(jù)庫(kù)”的全面評(píng)估表明,在這兩種情況下,我們的上下文感知網(wǎng)絡(luò)明顯優(yōu)于不考慮上下文信息的基線。



Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection


Spatial-Temporal Graph Convolutional Networks for Sign Language Recognition

用于手語(yǔ)識(shí)別的時(shí)空?qǐng)D卷積網(wǎng)絡(luò)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容