成人啪啪亚洲免费,欧美激情八区,伊人久久爆乳少妇

Learning Human-Object Interactions by Graph Parsing Neural Networks????(ECCV 2018)

本文研究了圖像和視頻中人-物交互（HOI）的檢測(cè)和識(shí)別問題。本文介紹了圖解析神經(jīng)網(wǎng)絡(luò)（GPNN），它是一種端到端可微的結(jié)構(gòu)知識(shí)集成框架。對(duì)于給定的場(chǎng)景，GPNN推斷一個(gè)解析圖，該解析圖包括i）由鄰接矩陣表示的HOI圖結(jié)構(gòu)，以及ii）節(jié)點(diǎn)標(biāo)簽。在消息傳遞推理框架中，GPNN迭代計(jì)算鄰接矩陣和節(jié)點(diǎn)標(biāo)簽。我們?cè)趫D像和視頻的三個(gè)HOI檢測(cè)基準(zhǔn)上廣泛評(píng)估了我們的模型：HICO-DET、V-COCO和CAD-120數(shù)據(jù)集。我們的方法明顯優(yōu)于目前最先進(jìn)的方法，驗(yàn)證了GPNN對(duì)大型數(shù)據(jù)集的可伸縮性以及對(duì)時(shí)空設(shè)置的適用性。

https://github.com/SiyuanQi/gpnn

176★

Learning Conditioned Graph Structures for Interpretable Visual Question Answering????(NIPS2018)

視覺問答是一個(gè)具有挑戰(zhàn)性的問題，需要結(jié)合計(jì)算機(jī)視覺和自然語(yǔ)言處理的概念。大多數(shù)現(xiàn)有的方法使用兩個(gè)流策略，計(jì)算圖像和問題特征，因此使用多種技術(shù)合并。然而，很少有人依賴于更高層次的圖像表示，它可以捕捉語(yǔ)義和空間關(guān)系。本文提出了一種基于圖的可視化問答方法。我們的方法結(jié)合了一個(gè)圖形學(xué)習(xí)模塊，該模塊學(xué)習(xí)輸入圖像的特定于問題的圖形表示，以及最近的圖形卷積概念，旨在學(xué)習(xí)捕獲特定于問題的交互的圖像表示。我們?cè)赩QA v2數(shù)據(jù)集上測(cè)試了我們的方法，使用了一個(gè)簡(jiǎn)單的基線架構(gòu)，該架構(gòu)由所提出的圖形學(xué)習(xí)模塊增強(qiáng)。結(jié)果表明，該方法具有良好的解釋性，準(zhǔn)確率為66.18%。

https://github.com/aimbrain/vqa-project

106★

Structural-RNN: Deep Learning on Spatio-Temporal Graphs????(CVPR2016)

深層遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)雖然對(duì)序列的建模能力很強(qiáng)，但缺乏直觀的高層時(shí)空結(jié)構(gòu)。盡管計(jì)算機(jī)視覺中的許多問題本質(zhì)上都有一個(gè)潛在的高層結(jié)構(gòu)，可以從中受益。時(shí)空?qǐng)D是一種流行的工具，可以在真實(shí)世界問題的表達(dá)中強(qiáng)加如此高層次的直覺。本文提出了一種將高階時(shí)空?qǐng)D的能力與遞歸神經(jīng)網(wǎng)絡(luò)（RNNs）序列學(xué)習(xí)成功率相結(jié)合的方法。我們發(fā)展了一種可伸縮的方法，將任意時(shí)空?qǐng)D投射成一個(gè)豐富的RNN混合體，它是前饋的、完全可微的、可聯(lián)合訓(xùn)練的。該方法具有通用性和原則性，可以通過一組定義良好的步驟來變換任意時(shí)空?qǐng)D。對(duì)所提出的方法在從人體運(yùn)動(dòng)建模到對(duì)象交互等一系列不同問題上的評(píng)估表明，該方法比最新技術(shù)有了很大的改進(jìn)。我們期望這種方法能夠通過高層次的時(shí)空?qǐng)D和遞歸神經(jīng)網(wǎng)絡(luò)賦予新的問題描述方法。

https://github.com/asheshjain399/RNNexp

202★

Understanding Kin Relationships in a Photo????(TMM2012)

由于最近在網(wǎng)絡(luò)上，特別是在社交媒體上，此類數(shù)據(jù)激增，迫切需要自動(dòng)組織和管理人們的圖像。除了在過去十年中被廣泛研究的人臉檢測(cè)和人臉識(shí)別之外，也許與以人為中心的圖像相關(guān)的最有趣的方面是圖像中人與人之間的關(guān)系。在這項(xiàng)工作中，我們著重于解決后一個(gè)問題，特別是親屬關(guān)系。為此，我們構(gòu)建了兩個(gè)數(shù)據(jù)庫(kù)：第一個(gè)數(shù)據(jù)庫(kù)名為UB KinFace Ver2.0，它包含了孩子、他們的年輕父母和老父母的圖像，第二個(gè)數(shù)據(jù)庫(kù)名為FamilyFace。其次，我們發(fā)展了一個(gè)基于轉(zhuǎn)移子空間學(xué)習(xí)的演算法，以減少兒童與老年父母臉部影像在外觀分布上的顯著差異。此外，通過研究相關(guān)元數(shù)據(jù)的語(yǔ)義相關(guān)性，我們提出了一種預(yù)測(cè)圖像中最可能嵌入的親屬關(guān)系的算法。此外，在兩個(gè)數(shù)據(jù)庫(kù)的基線研究中使用了人類受試者。實(shí)驗(yàn)結(jié)果表明，該算法能夠有效地標(biāo)注圖像中人與人之間的親屬關(guān)系，語(yǔ)義上下文可以進(jìn)一步提高算法的準(zhǔn)確性。

Out of the Box: Reasoning with Graph Convolution?Nets for Factual Visual Question Answering????(NIPS2018)

準(zhǔn)確地回答關(guān)于給定圖像的問題需要結(jié)合觀察和一般知識(shí)。雖然這對(duì)人類來說是毫不費(fèi)力的，但用一般知識(shí)進(jìn)行推理仍然是一個(gè)算法挑戰(zhàn)。為了推進(jìn)這方面的研究，最近提出了一個(gè)新穎的“基于事實(shí)的”視覺問答（FVQA）任務(wù)，并通過一個(gè)關(guān)系將兩個(gè)實(shí)體（即兩個(gè)可能的答案）鏈接起來。在給定問題-圖像對(duì)的情況下，深度網(wǎng)絡(luò)技術(shù)被用來連續(xù)地減少大量的事實(shí)，直到最后剩余事實(shí)的兩個(gè)實(shí)體中的一個(gè)被預(yù)測(cè)為答案為止。我們觀察到，一次考慮一個(gè)事實(shí)形成局部決策的連續(xù)過程是次優(yōu)的。相反，我們開發(fā)了一個(gè)實(shí)體圖，并使用圖卷積網(wǎng)絡(luò)通過聯(lián)合考慮所有實(shí)體來“推理”正確答案。我們?cè)诰哂刑魬?zhàn)性的FVQA數(shù)據(jù)集上顯示，與目前的技術(shù)水平相比，這將導(dǎo)致精度提高約7%。

Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action?Recognition????(AAAI2018)

人體骨骼的動(dòng)力學(xué)特性為人類行為識(shí)別提供了重要的信息。傳統(tǒng)的骨骼建模方法通常依賴于手工制作的零件或遍歷規(guī)則，從而導(dǎo)致有限的表達(dá)能力和推廣困難。在這項(xiàng)工作中，我們提出了一種新的動(dòng)態(tài)骨架模型，稱為時(shí)空?qǐng)D卷積網(wǎng)絡(luò)（ST-GCN），它超越了以往方法的局限性，通過從數(shù)據(jù)中自動(dòng)學(xué)習(xí)時(shí)空模式。該公式不僅具有較強(qiáng)的表達(dá)能力，而且具有較強(qiáng)的泛化能力。在動(dòng)力學(xué)和NTU-RGBD兩個(gè)大型數(shù)據(jù)集上，它比主流方法有了實(shí)質(zhì)性的改進(jìn)。

https://github.com/open-mmlab/mmskeleton

1.5k★

Symbolic Graph Reasoning Meets Convolutions????(NIPS2018)

除了局部卷積網(wǎng)絡(luò)之外，我們還探討如何利用各種外部人類知識(shí)賦予網(wǎng)絡(luò)語(yǔ)義全局推理的能力。我們提出了一個(gè)新的符號(hào)圖推理（SGR）層，它不使用單獨(dú)的圖形模型（如CRF）或約束來建模更廣泛的依賴關(guān)系，而是在一組符號(hào)節(jié)點(diǎn)上執(zhí)行推理，這些節(jié)點(diǎn)的輸出顯式地表示先驗(yàn)知識(shí)圖中每個(gè)語(yǔ)義的不同屬性。為了配合局部卷積，每個(gè)SGR由三個(gè)模塊組成：a）一個(gè)原始的局部到語(yǔ)義投票模塊，其中所有符號(hào)節(jié)點(diǎn)的特征由局部表示投票生成；b）一個(gè)圖形推理模塊在知識(shí)圖上傳播信息以實(shí)現(xiàn)全局語(yǔ)義一致性；c）雙語(yǔ)義到局部映射模塊學(xué)習(xí)進(jìn)化符號(hào)節(jié)點(diǎn)與局部表示的新關(guān)聯(lián)，從而增強(qiáng)局部特征。SGR層可以注入到任何卷積層之間，并用不同的先驗(yàn)圖實(shí)例化。大量實(shí)驗(yàn)表明，在三個(gè)語(yǔ)義分割任務(wù)和一個(gè)圖像分類任務(wù)中，加入SGR可以顯著地改善普通ConvNets。進(jìn)一步的分析表明，SGR層在給定一個(gè)通用知識(shí)圖的情況下，學(xué)習(xí)不同標(biāo)記集的域/數(shù)據(jù)集的共享符號(hào)表示，顯示了其優(yōu)越的泛化能力。

https://github.com/julianschoep/SGRLayer

(不見得是官方開源)

5★

Graph-Structured Representations for Visual Question Answering?????(CVPR2017)

提出了一種基于場(chǎng)景內(nèi)容和問題結(jié)構(gòu)化表示的可視化問答系統(tǒng)（VQA）。VQA的一個(gè)關(guān)鍵挑戰(zhàn)是需要在可視域和文本域上進(jìn)行聯(lián)合推理。主要的基于CNN/LSTM的VQA方法受到整體矢量表示的限制，這種表示很大程度上忽略了場(chǎng)景和問題中的結(jié)構(gòu)。美國(guó)有線電視新聞網(wǎng)的特征向量不能有效地捕捉多個(gè)對(duì)象實(shí)例的簡(jiǎn)單情況，LSTM將問題處理成一系列的單詞，這不能反映語(yǔ)言結(jié)構(gòu)的真實(shí)復(fù)雜性。相反，我們建議在場(chǎng)景對(duì)象和疑問詞上構(gòu)建圖形，并且我們描述了一個(gè)利用這些表示中的結(jié)構(gòu)的深層神經(jīng)網(wǎng)絡(luò)。我們表明，這種方法比最先進(jìn)的方法有了顯著的改進(jìn)，在“抽象場(chǎng)景”多項(xiàng)選擇基準(zhǔn)上，準(zhǔn)確率從71.2%提高到74.4%，在更具挑戰(zhàn)性的“平衡”場(chǎng)景中，準(zhǔn)確率從34.7%提高到39.1%，即具有細(xì)粒度差異的圖像對(duì)和對(duì)同一問題的相反是/否答案

The More You Know: Using Knowledge Graphs for Image Classification????(cvpr2017)

使人類區(qū)別于現(xiàn)代基于學(xué)習(xí)的計(jì)算機(jī)視覺算法的一個(gè)特點(diǎn)是，能夠獲取關(guān)于世界的知識(shí)，并利用這些知識(shí)對(duì)視覺世界進(jìn)行推理。人類可以通過學(xué)習(xí)物體的特征和它們之間的關(guān)系來學(xué)習(xí)各種各樣的視覺概念，通常很少有例子。本文研究了以知識(shí)圖的形式使用結(jié)構(gòu)化先驗(yàn)知識(shí)，并證明了使用該知識(shí)可以提高圖像分類的性能。我們?cè)谧罱P(guān)于圖的端到端學(xué)習(xí)的工作的基礎(chǔ)上，引入圖搜索神經(jīng)網(wǎng)絡(luò)作為一種有效地將大型知識(shí)圖合并到視覺分類管道中的方法。實(shí)驗(yàn)表明，該方法在多標(biāo)簽分類中優(yōu)于標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)基線。

Relation Networks for Object Detection?????(CVPR2018)

盡管多年來人們普遍認(rèn)為，建模對(duì)象之間的關(guān)系將有助于對(duì)象識(shí)別，但還沒有證據(jù)表明這一想法在深度學(xué)習(xí)時(shí)代起作用。所有最先進(jìn)的對(duì)象檢測(cè)系統(tǒng)仍然依賴于單獨(dú)識(shí)別對(duì)象實(shí)例，而不需要在學(xué)習(xí)過程中利用它們之間的關(guān)系。本文提出了一個(gè)對(duì)象關(guān)系模塊。它通過對(duì)象的外觀特征和幾何體之間的交互作用同時(shí)處理一組對(duì)象，從而允許對(duì)它們之間的關(guān)系進(jìn)行建模。它是輕巧和到位。它不需要額外的監(jiān)督，并且很容易嵌入到現(xiàn)有的網(wǎng)絡(luò)中。在現(xiàn)代的目標(biāo)檢測(cè)流水線中，該方法對(duì)提高目標(biāo)識(shí)別率和消除重復(fù)步驟具有很好的效果。驗(yàn)證了CNN檢測(cè)中對(duì)象關(guān)系建模的有效性。它產(chǎn)生了第一個(gè)完全端到端的目標(biāo)檢測(cè)器。

https://github.com/msracver/Relation-Networks-for-Object-Detection

858★

Dynamic Graph CNN for Learning on Point Clouds

點(diǎn)云提供了適合于計(jì)算機(jī)圖形學(xué)中無(wú)數(shù)應(yīng)用的靈活的幾何表示；它們還包括大多數(shù)3D數(shù)據(jù)采集設(shè)備的原始輸出。雖然手工設(shè)計(jì)的點(diǎn)云特征在圖形和視覺領(lǐng)域早已被提出，但是最近卷積神經(jīng)網(wǎng)絡(luò)（CNNs）在圖像分析方面取得的巨大成功表明，將CNN的洞察力應(yīng)用于點(diǎn)云世界是有價(jià)值的。點(diǎn)云本身缺乏拓?fù)湫畔ⅲ虼嗽O(shè)計(jì)一個(gè)拓?fù)浠謴?fù)模型可以豐富點(diǎn)云的表示能力。為此，我們提出了一個(gè)新的神經(jīng)網(wǎng)絡(luò)模塊EdgeConv，它適用于基于CNN的點(diǎn)云高級(jí)任務(wù)，包括分類和分割。EdgeConv作用于在網(wǎng)絡(luò)的每一層中動(dòng)態(tài)計(jì)算的圖。它是可微分的，并且可以插入到現(xiàn)有的體系結(jié)構(gòu)中。與現(xiàn)有的外部空間中的模塊或獨(dú)立地處理每個(gè)點(diǎn)相比，EdgeConv具有一些吸引人的特性：它包含局部鄰域信息；它可以被堆疊應(yīng)用于學(xué)習(xí)全局形狀屬性；在多層系統(tǒng)中，特征空間中的相似性在原始嵌入中捕獲潛在的長(zhǎng)距離語(yǔ)義特征。我們?cè)诎∕odelNet40、ShapeNetPart和S3DIS在內(nèi)的標(biāo)準(zhǔn)基準(zhǔn)上展示了模型的性能

https://github.com/GrumpyZhou/pytorch-dgcnn

（不見得是官方開源）

3D Graph Neural Networks for RGBD Semantic Segmentation

RGBD語(yǔ)義分割需要對(duì)二維外觀和三維幾何信息進(jìn)行聯(lián)合推理。本文提出了一種在三維點(diǎn)云上建立k近鄰圖的三維圖形神經(jīng)網(wǎng)絡(luò)（3DGNN）。圖中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于一組點(diǎn)，并與一個(gè)隱藏的表示向量相關(guān)聯(lián)，該隱藏的表示向量由一元CNN從2D圖像中提取的外觀特征初始化。每個(gè)節(jié)點(diǎn)依賴于遞歸函數(shù)，根據(jù)當(dāng)前狀態(tài)和來自其鄰居的傳入消息動(dòng)態(tài)更新其隱藏表示。該傳播模型在一定的時(shí)間步長(zhǎng)內(nèi)展開，最終的每節(jié)點(diǎn)表示用于預(yù)測(cè)每個(gè)像素的語(yǔ)義類。我們使用時(shí)間反向傳播來訓(xùn)練模型。在NYUD2和SUN-RGBD數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了我們的方法的有效性。

https://github.com/yanx27/3DGNN_pytorch

（不見得是官方開源）

Iterative Visual Reasoning Beyond Convolutions????(CVPR 2018)

提出了一種新的迭代視覺推理框架。我們的框架超越了現(xiàn)有的識(shí)別系統(tǒng)，這些系統(tǒng)缺乏超越卷積堆棧的推理能力。該框架由兩個(gè)核心模塊組成：一個(gè)使用空間存儲(chǔ)器[4]存儲(chǔ)先前信念并進(jìn)行并行更新的本地模塊；一個(gè)全局圖推理模塊。我們的圖形模塊有三個(gè)組件：a）一個(gè)知識(shí)圖，其中我們將類表示為節(jié)點(diǎn)，并構(gòu)建邊以編碼它們之間不同類型的語(yǔ)義關(guān)系；b）當(dāng)前圖像的區(qū)域圖，其中圖像中的區(qū)域是節(jié)點(diǎn)，并且這些區(qū)域之間的空間關(guān)系是邊；c）一個(gè)分配圖，分配區(qū)域到類。本地模塊和全局模塊都以迭代方式展開預(yù)測(cè)，并相互交叉饋送以優(yōu)化估計(jì)。最后的預(yù)測(cè)是將兩個(gè)模塊中的最佳模塊與注意機(jī)制相結(jié)合。與普通的ConvNets相比，我們表現(xiàn)出了強(qiáng)大的性能，例如，通過每類平均精度測(cè)量，在ADE[55]上實(shí)現(xiàn)了8.4%的絕對(duì)改進(jìn)。分析還表明，該框架對(duì)缺失的推理區(qū)域具有很強(qiáng)的適應(yīng)性。

https://github.com/endernewton/iter-reason

253

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation?(CVPR 2017)

點(diǎn)云是一種重要的幾何數(shù)據(jù)結(jié)構(gòu)。由于其不規(guī)則的格式，大多數(shù)研究人員將這些數(shù)據(jù)轉(zhuǎn)換成規(guī)則的三維體素網(wǎng)格或圖像集合。然而，這會(huì)使數(shù)據(jù)變得不必要的龐大并導(dǎo)致問題。本文設(shè)計(jì)了一種新型的直接消耗點(diǎn)云的神經(jīng)網(wǎng)絡(luò)，它很好地尊重了輸入點(diǎn)的排列不變性。我們的網(wǎng)絡(luò)名為PointNet，它為從對(duì)象分類、部件分割到場(chǎng)景語(yǔ)義分析等應(yīng)用程序提供了一個(gè)統(tǒng)一的體系結(jié)構(gòu)。雖然簡(jiǎn)單，但PointNet是高效的。從經(jīng)驗(yàn)上看，它的表現(xiàn)不遜于甚至超過了最先進(jìn)的水平。理論上，我們提供分析，以了解網(wǎng)絡(luò)所學(xué)到的知識(shí)以及為什么網(wǎng)絡(luò)在輸入擾動(dòng)和破壞方面是健壯的。

https://github.com/charlesq34/pointnet

Dynamic Edge-Conditioned Filters in Convolutional Neural Networks on Graphs

許多問題可以表述為對(duì)圖結(jié)構(gòu)數(shù)據(jù)的預(yù)測(cè)。在這項(xiàng)工作中，我們將卷積算子從規(guī)則網(wǎng)格推廣到任意圖，同時(shí)避免了譜域，這使得我們可以處理不同大小和連通性的圖。為了超越簡(jiǎn)單的擴(kuò)散，過濾權(quán)重是基于頂點(diǎn)鄰域中的特定邊標(biāo)簽的。在選擇適當(dāng)?shù)拇只椒ǖ幕A(chǔ)上，我們探索了構(gòu)造用于圖分類的深層神經(jīng)網(wǎng)絡(luò)。特別是，我們?cè)邳c(diǎn)云分類中展示了我們的公式的通用性，在點(diǎn)云分類中，我們?cè)O(shè)置了最新的技術(shù)狀態(tài)，在圖分類數(shù)據(jù)集上，我們優(yōu)于其他深度學(xué)習(xí)方法。源代碼位于

https://github.com/mys007/ecc.

145

Situation Recognition with Graph Neural Networks

我們解決了在圖像中識(shí)別情況的問題。給定一個(gè)圖像，任務(wù)是預(yù)測(cè)最顯著的動(dòng)詞（動(dòng)作），并填充其語(yǔ)義角色，如誰(shuí)在執(zhí)行動(dòng)作，動(dòng)作的來源和目標(biāo)是什么等。不同的動(dòng)詞有不同的角色（如攻擊有武器），每個(gè)角色可以承擔(dān)許多可能的值（名詞）。我們提出了一個(gè)基于圖神經(jīng)網(wǎng)絡(luò)的模型，該模型允許我們使用定義在圖上的神經(jīng)網(wǎng)絡(luò)來有效地捕獲角色之間的聯(lián)合依賴關(guān)系。用不同的圖形表示器進(jìn)行的實(shí)驗(yàn)表明，我們?cè)诮巧g傳播信息的方法明顯優(yōu)于現(xiàn)有的工作，以及多個(gè)基線。我們得到了大約3-5%的改善，比以前的工作預(yù)測(cè)的全面情況。我們還對(duì)我們的模型和動(dòng)詞中不同角色的影響進(jìn)行了深入的定性分析。

I Know the Relationships: Zero-Shot Action Recognition via Two-Stream Graph?Convolutional Networks and Knowledge Graphs????(AAAI2019)

近年來，隨著動(dòng)作類別的不斷增加，通過自動(dòng)挖掘視頻中的基本概念（如動(dòng)作、屬性），實(shí)現(xiàn)了零拍動(dòng)作識(shí)別（ZSAR）。然而，大多數(shù)現(xiàn)有的方法僅利用這些概念的視覺線索，而忽略外部知識(shí)信息來建模它們之間的顯式關(guān)系。事實(shí)上，人類有非凡的能力將從熟悉的類中學(xué)習(xí)到的知識(shí)轉(zhuǎn)移到識(shí)別不熟悉的類中。為了縮小現(xiàn)有方法和人類之間的知識(shí)差距，我們提出了一種基于結(jié)構(gòu)化知識(shí)圖的端到端ZSAR框架，它可以聯(lián)合建模動(dòng)作屬性、動(dòng)作動(dòng)作和屬性屬性之間的關(guān)系。為了有效地利用知識(shí)圖，我們?cè)O(shè)計(jì)了一個(gè)由分類器分支和實(shí)例分支組成的雙流圖卷積網(wǎng)絡(luò)（TS-GCN）。具體來說，分類器分支將所有概念的語(yǔ)義嵌入向量作為輸入，然后生成動(dòng)作類別的分類器。實(shí)例分支將每個(gè)視頻實(shí)例的屬性嵌入和分?jǐn)?shù)映射到屬性特征空間。最后，根據(jù)每個(gè)視頻的屬性特征對(duì)生成的分類器進(jìn)行評(píng)價(jià)，并采用分類損失來優(yōu)化整個(gè)網(wǎng)絡(luò)。此外，還利用自我注意模塊對(duì)視頻的時(shí)間信息進(jìn)行建模。在奧林匹克運(yùn)動(dòng)、HMDB51和UCF101三個(gè)現(xiàn)實(shí)動(dòng)作基準(zhǔn)上的大量實(shí)驗(yàn)結(jié)果表明，我們提出的框架具有良好的性能。

https://github.com/junyuGao/Zero-Shot-Action-Recognition-with-Two-Stream-GCN

Conversation Modeling on Reddit using a Graph-Structured LSTM

本文提出了一種新的基于圖結(jié)構(gòu)雙向LSTM的社交媒體討論建模方法，該方法同時(shí)表示了層次會(huì)話結(jié)構(gòu)和時(shí)間會(huì)話結(jié)構(gòu)。在對(duì)Reddit討論中的評(píng)論流行度進(jìn)行預(yù)測(cè)的實(shí)驗(yàn)中，對(duì)于不同的輸入特征集，該模型的性能優(yōu)于獨(dú)立于節(jié)點(diǎn)的體系結(jié)構(gòu)。分析表明，在整個(gè)討論過程中，該模型有助于提高早期和后期的檢測(cè)能力。此外，在雙向樹狀態(tài)更新中使用語(yǔ)言提示有助于識(shí)別有爭(zhēng)議的注釋。

Learning Graphical State Transitions ????(ICLR 2017)

圖結(jié)構(gòu)數(shù)據(jù)在建模多個(gè)實(shí)體之間的關(guān)系時(shí)非常重要，可以用來表示世界的狀態(tài)和許多數(shù)據(jù)結(jié)構(gòu)。Li等人。（2016）描述一個(gè)稱為門控圖序列神經(jīng)網(wǎng)絡(luò)（GGS-NN）的模型，該模型從圖結(jié)構(gòu)輸入生成序列。本文介紹了門控圖變換神經(jīng)網(wǎng)絡(luò)（GGT-NN），它是GGS神經(jīng)網(wǎng)絡(luò)的一個(gè)擴(kuò)展，使用圖結(jié)構(gòu)數(shù)據(jù)作為中間表示。該模型可以學(xué)習(xí)基于文本輸入以復(fù)雜的方式構(gòu)造和修改圖形，還可以使用圖形生成各種輸出。例如，該模型成功地解決了幾乎所有的bAbI任務(wù)（Weston等人，2016），還發(fā)現(xiàn)了控制簡(jiǎn)單細(xì)胞自動(dòng)機(jī)和圖靈機(jī)器族的圖形公式的規(guī)則。

https://github.com/hexahedria/gated-graph-transformer-network

148

Jointly Multiple Events Extraction via Attention-based Graph?Information Aggregation????(EMNLP)

事件抽取在自然語(yǔ)言處理中具有實(shí)用價(jià)值。在現(xiàn)實(shí)世界中，在同一句子中存在多個(gè)事件是一個(gè)普遍現(xiàn)象，提取它們比提取單個(gè)事件更困難。以往通過順序建模方法對(duì)事件之間的關(guān)聯(lián)進(jìn)行建模的工作，在捕獲非常長(zhǎng)的依賴關(guān)系方面效率很低。本文提出了一種新的聯(lián)合多事件抽?。↗MEE）框架，通過引入句法捷徑弧來增強(qiáng)信息流和基于注意的圖卷積網(wǎng)絡(luò)來對(duì)圖信息進(jìn)行建模，從而聯(lián)合抽取多個(gè)事件觸發(fā)器和參數(shù)。實(shí)驗(yàn)結(jié)果表明，與現(xiàn)有方法相比，本文提出的框架具有較強(qiáng)的競(jìng)爭(zhēng)力。

https://github.com/lx865712528/EMNLP2018-JMEE

Deep Reasoning with Knowledge Graph for Social Relationship Understanding?????(IJCAI 2018)

社交關(guān)系（如朋友、夫婦等）構(gòu)成了我們?nèi)粘Ｉ钪猩缃痪W(wǎng)絡(luò)的基礎(chǔ)。自動(dòng)解釋這種關(guān)系對(duì)于智能系統(tǒng)深入理解人類行為和在社會(huì)層面更好地與人互動(dòng)具有巨大潛力。人類對(duì)群體內(nèi)的社會(huì)關(guān)系的解釋不僅是基于人本身，而且這種社會(huì)關(guān)系與人周圍的語(yǔ)境信息之間的相互作用也起著重要的作用。然而，這些額外的線索在很大程度上被先前的研究所忽略。我們發(fā)現(xiàn)這兩個(gè)因素之間的相互作用可以通過一個(gè)具有適當(dāng)信息傳播和注意的新的結(jié)構(gòu)化知識(shí)圖來有效地建模。通過一個(gè)端到端可訓(xùn)練的圖形推理模型（GRM），學(xué)習(xí)一種傳播機(jī)制，通過圖形傳播節(jié)點(diǎn)信息，探索感興趣的人與被關(guān)注的人之間的交互作用，并將這種結(jié)構(gòu)化的知識(shí)有效地集成到深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中，以促進(jìn)對(duì)社會(huì)關(guān)系的理解上下文對(duì)象。同時(shí)，引入圖形注意機(jī)制，對(duì)判別對(duì)象進(jìn)行顯式推理，促進(jìn)識(shí)別。在公共基準(zhǔn)上的廣泛實(shí)驗(yàn)證明了我們的方法優(yōu)于現(xiàn)有的領(lǐng)先競(jìng)爭(zhēng)者。

https://github.com/HCPLab-SYSU/SR.

Graph CNNs with Motif and Variable Temporal Block for Skeleton-based Action?Recognition

人體骨骼中關(guān)節(jié)的層次結(jié)構(gòu)和不同的語(yǔ)義角色為動(dòng)作識(shí)別提供了重要信息。傳統(tǒng)的骨架結(jié)構(gòu)建模的圖形卷積方法只考慮每個(gè)關(guān)節(jié)的物理連接鄰域，以及同一類型的關(guān)節(jié)，無(wú)法獲取高階信息。在這項(xiàng)工作中，我們提出了一個(gè)新的基于motif圖卷積的模型來編碼分層的空間結(jié)構(gòu)，以及一個(gè)可變的時(shí)間密集塊來利用不同范圍的人類骨骼序列的局部時(shí)間信息。此外，在注意機(jī)制中，我們使用非局部塊來捕獲時(shí)域的全局依賴性。我們的模型在兩個(gè)大型數(shù)據(jù)集上實(shí)現(xiàn)了對(duì)現(xiàn)有方法的改進(jìn)。

Multi-Label Image Recognition with Graph Convolutional Networks???(CVPR 2019)

多標(biāo)簽圖像識(shí)別的任務(wù)是預(yù)測(cè)圖像中存在的一組目標(biāo)標(biāo)簽。由于對(duì)象通常同時(shí)出現(xiàn)在圖像中，因此需要對(duì)標(biāo)簽相關(guān)性進(jìn)行建模，以提高識(shí)別性能。為了捕獲和挖掘這種重要的依賴關(guān)系，我們提出了一種基于圖卷積網(wǎng)絡(luò)（GCN）的多標(biāo)簽分類模型。該模型在對(duì)象標(biāo)簽上建立有向圖，每個(gè)節(jié)點(diǎn)（標(biāo)簽）由標(biāo)簽的字嵌入來表示，并學(xué)習(xí)GCN將該標(biāo)簽圖映射到一組相互依賴的對(duì)象分類器中。這些分類器應(yīng)用于由另一個(gè)子網(wǎng)提取的圖像描述符，使得整個(gè)網(wǎng)絡(luò)能夠端到端地訓(xùn)練。此外，我們還提出了一種新的重加權(quán)方案來建立一個(gè)有效的標(biāo)簽相關(guān)矩陣來指導(dǎo)GCN中節(jié)點(diǎn)間的信息傳播。兩個(gè)多標(biāo)簽圖像識(shí)別數(shù)據(jù)集的實(shí)驗(yàn)表明，我們的方法明顯優(yōu)于其他現(xiàn)有的最先進(jìn)的方法。此外，可視化分析表明，該模型所學(xué)習(xí)的分類器保持了有意義的語(yǔ)義拓?fù)洹?/p>

https://github.com/Megvii-Nanjing/ML_GCN

555

Spatial-aware Graph Relation Network for Large-scale Object Detection

如何在不需要任何外部知識(shí)的情況下正確編碼檢測(cè)系統(tǒng)中的高階對(duì)象關(guān)系？如何利用共現(xiàn)和對(duì)象位置之間的信息進(jìn)行更好的推理？這些問題是目前大規(guī)模目標(biāo)檢測(cè)系統(tǒng)面臨的關(guān)鍵挑戰(zhàn)，該系統(tǒng)旨在識(shí)別成千上萬(wàn)個(gè)復(fù)雜空間和語(yǔ)義關(guān)系的目標(biāo)。提取可能影響目標(biāo)識(shí)別的關(guān)鍵關(guān)系至關(guān)重要，因?yàn)樵诿鎸?duì)大量的長(zhǎng)尾數(shù)據(jù)分布和大量令人困惑的類別時(shí)，分別處理每個(gè)區(qū)域會(huì)導(dǎo)致性能大幅下降。最近的研究試圖通過構(gòu)造圖來編碼關(guān)系，例如使用類之間的手工語(yǔ)言知識(shí)或隱式學(xué)習(xí)區(qū)域之間的完全連接圖。然而，由于語(yǔ)言和視覺語(yǔ)境之間的語(yǔ)義差異，手工語(yǔ)言知識(shí)不能針對(duì)每幅圖像進(jìn)行個(gè)性化，而完全連接的圖形由于包含了來自無(wú)關(guān)對(duì)象和背景的冗余和分心的關(guān)系/邊而效率低下且噪聲大。在這項(xiàng)工作中，我們引入了一個(gè)空間感知圖關(guān)系網(wǎng)絡(luò)（SGRN）來自適應(yīng)地發(fā)現(xiàn)和合并關(guān)鍵的語(yǔ)義和空間關(guān)系，以便對(duì)每個(gè)對(duì)象進(jìn)行推理。我們的方法考慮了相對(duì)位置布局和相互作用，可以很容易地注入到任何檢測(cè)管道中以提高性能。具體來說，我們的SGRN集成了一個(gè)圖形學(xué)習(xí)模塊來學(xué)習(xí)一個(gè)可互操作的稀疏圖形結(jié)構(gòu)來編碼相關(guān)的上下文區(qū)域，以及一個(gè)具有可學(xué)習(xí)的空間高斯核的空間圖形推理模塊來執(zhí)行具有空間感知的圖形推理。大量的實(shí)驗(yàn)驗(yàn)證了該方法的有效性，例如在VG（3000個(gè)類）上提高了32%，在ADE上提高了28%。

GCAN: Graph Convolutional Adversarial Network for Unsupervised Domain?Adaptation

為了將源域和目標(biāo)域連接起來進(jìn)行域自適應(yīng)，有三種重要的信息類型：數(shù)據(jù)結(jié)構(gòu)、域標(biāo)簽和類標(biāo)簽。大多數(shù)現(xiàn)有的域自適應(yīng)方法只利用一種或兩種類型的上述信息，不能使它們互補(bǔ)和增強(qiáng)。與現(xiàn)有的方法不同，在統(tǒng)一的深度模型中，通過聯(lián)合建模數(shù)據(jù)結(jié)構(gòu)、域標(biāo)簽和類標(biāo)簽，提出了一種無(wú)監(jiān)督域自適應(yīng)的端到端圖卷積對(duì)抗網(wǎng)絡(luò)（GCAN）。所提出的GCAN模型具有許多優(yōu)點(diǎn)。首先，據(jù)我們所知，這是第一個(gè)在無(wú)監(jiān)督域自適應(yīng)的深度模型中聯(lián)合建模這三種信息的工作。其次，該模型設(shè)計(jì)了三種有效的對(duì)齊機(jī)制，包括結(jié)構(gòu)感知對(duì)齊、域?qū)R和類質(zhì)心對(duì)齊，它們可以有效地學(xué)習(xí)域不變量和語(yǔ)義表示，以減少域適應(yīng)的域差異。在五個(gè)標(biāo)準(zhǔn)測(cè)試點(diǎn)上的大量實(shí)驗(yàn)結(jié)果表明，該算法對(duì)無(wú)監(jiān)督域自適應(yīng)方法的狀態(tài)具有良好的性能。

Mind Your Neighbours: Image Annotation with?Metadata Neighbourhood Graph Co-Attention Networks

作為我們?nèi)粘Ｉ畹囊曈X反映，圖像經(jīng)常在社交網(wǎng)絡(luò)上共享，這就產(chǎn)生了豐富的“元數(shù)據(jù)”，記錄用戶與圖像的交互。由于內(nèi)容的多樣性和風(fēng)格的復(fù)雜性，有些圖像在忽略上下文的情況下很難識(shí)別。具有類似元數(shù)據(jù)的圖像（如“相關(guān)主題和文本描述”、“用戶的共同朋友”和“附近位置”）構(gòu)成每個(gè)圖像的鄰域，可用于輔助注釋。本文提出了一個(gè)元數(shù)據(jù)鄰域圖協(xié)同注意網(wǎng)絡(luò)（MangoNet），用于建立目標(biāo)圖像與其鄰域之間的相關(guān)性模型。為了準(zhǔn)確地從鄰域中獲取視覺線索，引入了一種聯(lián)合注意機(jī)制，將目標(biāo)圖像及其鄰域嵌入為圖節(jié)點(diǎn)，而圖邊緣則捕獲節(jié)點(diǎn)對(duì)的相關(guān)性。通過對(duì)鄰域圖的推理，得到有助于目標(biāo)圖像標(biāo)注的圖表示。在三個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，與現(xiàn)有方法相比，我們提出的模型取得了最好的性能。

Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Deep ConvNets在單標(biāo)簽圖像分類（如ImageNet）方面表現(xiàn)出了很好的性能，但是有必要超越單標(biāo)簽分類任務(wù)，因?yàn)槿粘Ｉ钪械膱D片本質(zhì)上是多標(biāo)簽的。多標(biāo)簽分類比單標(biāo)簽分類更困難，因?yàn)檩斎雸D像和輸出標(biāo)簽空間都更復(fù)雜。此外，收集干凈的多標(biāo)簽注釋比單標(biāo)簽注釋更難擴(kuò)展。為了降低標(biāo)注成本，我們建議訓(xùn)練一個(gè)帶有部分標(biāo)簽的模型，即每個(gè)圖像只有一些標(biāo)簽是已知的。我們首先對(duì)不同的標(biāo)記策略進(jìn)行了經(jīng)驗(yàn)比較，以顯示在多標(biāo)記數(shù)據(jù)集上使用部分標(biāo)記的潛力。然后，為了學(xué)習(xí)部分標(biāo)簽，我們引入了一個(gè)新的分類損失，利用每個(gè)例子中已知標(biāo)簽的比例。我們的方法允許使用與使用所有注釋學(xué)習(xí)時(shí)相同的訓(xùn)練設(shè)置。我們進(jìn)一步探討了幾種基于課程學(xué)習(xí)的策略來預(yù)測(cè)缺失的標(biāo)簽。在MS-COCO、NUS-WIDE和Open三個(gè)大規(guī)模多標(biāo)簽數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)

Learning to Cluster Faces on an Affinity Graph????(CVPR2019)

近年來，面部識(shí)別仍在繼續(xù)，其表現(xiàn)達(dá)到了極高的水平?？紤]到這一點(diǎn)，下一個(gè)層次需要大量的數(shù)據(jù)，這將涉及禁止注釋的費(fèi)用。Hence，exploring unlabeled data becomes an appealing alternative.最近的作品表明，聚類不加標(biāo)記的面孔是一種前瞻性的方法，常常帶領(lǐng)人們?nèi)〉蔑@著的成績(jī)。Yet，how to effectively cluster，especially on a large-scale（一個(gè)關(guān)鍵的挑戰(zhàn)是群集模式復(fù)雜變異中的一個(gè)關(guān)鍵因素，這使得傳統(tǒng)群集方法難以滿足精確性的需要。This work explores a novel approach，namely，learning to cluster instead of relying on hand-crafted criteria.具體地說，我們提供了一個(gè)基于圖形卷積網(wǎng)絡(luò)的框架，該框架結(jié)合了一個(gè)檢測(cè)和一個(gè)分割模塊到Pinpoint Face Clusters。實(shí)驗(yàn)表明，我們的方法的產(chǎn)量顯著提高了面積的精度，作為一個(gè)結(jié)果，同時(shí)引導(dǎo)了面部識(shí)別中的進(jìn)一步性能增益

https://github.com/yl-1993/learn-to-cluster

225

Auto-Encoding Scene Graphs for Image Captioning

我們提出了一種場(chǎng)景圖自動(dòng)編碼器（SGAE），它將語(yǔ)言歸納偏差融入到編碼器的圖像字幕框架中，以獲得更像人類的字幕。直覺上，我們?nèi)祟愒谡Z(yǔ)篇中使用歸納偏誤來構(gòu)成搭配和語(yǔ)境推理。例如，當(dāng)我們看到“騎自行車的人”的關(guān)系時(shí)，很自然地用“騎”來代替“騎”來推斷“騎自行車的人”甚至“路”也不明顯。因此，利用這樣的偏差作為語(yǔ)言先驗(yàn)，有望幫助傳統(tǒng)的編解碼模型不太可能過度適應(yīng)數(shù)據(jù)集的偏差，并專注于推理。具體來說，我們使用場(chǎng)景圖-一個(gè)有向圖（G），其中一個(gè)對(duì)象節(jié)點(diǎn)由形容詞節(jié)點(diǎn)和關(guān)系節(jié)點(diǎn)連接-來表示圖像（I）和句子（S）的復(fù)雜結(jié)構(gòu)布局。在文本域中，我們使用SGAE學(xué)習(xí)字典（D），該字典有助于在S→G→D→S管道中重建句子，其中D優(yōu)先編碼所需的語(yǔ)言；在視覺語(yǔ)言域中，我們使用共享D引導(dǎo)I→G→D→S管道中的編碼器-解碼器。由于場(chǎng)景圖表示和共享字典，歸納偏差原則上是跨域傳遞的。我們驗(yàn)證了SGAE在挑戰(zhàn)性的MS-COCO圖像字幕基準(zhǔn)上的有效性，例如，我們基于SGAE的單一模型在Karpathy分割上實(shí)現(xiàn)了art 127.8 CIDEr-D的新狀態(tài)，在官方服務(wù)器上實(shí)現(xiàn)了競(jìng)爭(zhēng)性的125.5 CIDEr-D（c40），甚至與其他集成模型相比也是如此。

Graph Convolutional Label Noise Cleaner:?Train a Plug-and-play Action Classifier for Anomaly Detection????(CVPR 2019)

弱標(biāo)簽下的視頻異常檢測(cè)是一個(gè)典型的多實(shí)例學(xué)習(xí)問題。本文提出了一種新的視角，即噪聲標(biāo)簽下的有監(jiān)督學(xué)習(xí)任務(wù)。在這種觀點(diǎn)下，只要清除標(biāo)簽噪聲，我們可以直接應(yīng)用完全監(jiān)督的行動(dòng)分類器，以弱監(jiān)督異常檢測(cè)，并最大限度地利用這些發(fā)達(dá)的分類器。為此，我們?cè)O(shè)計(jì)了一個(gè)圖卷積網(wǎng)絡(luò)來校正噪聲標(biāo)簽。基于特征相似度和時(shí)間一致性，我們的網(wǎng)絡(luò)將監(jiān)控信號(hào)從高置信度片段傳播到低置信度片段。通過這種方式，網(wǎng)絡(luò)能夠?yàn)閯?dòng)作分類器提供干凈的監(jiān)督。在測(cè)試階段，我們只需要從動(dòng)作分類器獲得片段式的預(yù)測(cè)，而不需要任何額外的后處理。在3個(gè)不同尺度的數(shù)據(jù)集上用2種動(dòng)作分類器進(jìn)行了大量實(shí)驗(yàn)，證明了該方法的有效性。值得注意的是，我們獲得了UCF犯罪82.12%的框架級(jí)AUC分?jǐn)?shù)。

https://github.com/jx-zhong-for-academic-purpose/GCN-Anomaly-Detection

Learning Actor Relation Graphs for Group Activity Recognition?????(CVPR 2019)

多人場(chǎng)景中，角色之間的關(guān)系建模對(duì)于識(shí)別群體活動(dòng)具有重要意義。本文旨在利用深度模型有效地學(xué)習(xí)行為體之間的判別關(guān)系。為此，我們提出建立一個(gè)靈活高效的演員關(guān)系圖（ARG），以同時(shí)捕捉演員之間的外觀和位置關(guān)系。借助于圖形卷積網(wǎng)絡(luò)，ARG中的連接可以從群體活動(dòng)視頻中自動(dòng)學(xué)習(xí)到端到端的連接，并且可以用標(biāo)準(zhǔn)的矩陣運(yùn)算有效地進(jìn)行ARG的推理。此外，在實(shí)際應(yīng)用中，我們提出了兩個(gè)變量來稀疏ARG，以便在視頻中進(jìn)行更有效的建模：空間局部ARG和時(shí)間隨機(jī)ARG。我們對(duì)兩個(gè)標(biāo)準(zhǔn)的群體活動(dòng)識(shí)別數(shù)據(jù)集：排球數(shù)據(jù)集和集體活動(dòng)數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)，在這兩個(gè)數(shù)據(jù)集上都取得了最新的性能。我們還將學(xué)習(xí)到的參與者圖和關(guān)系特征可視化，證明了所提出的ARG能夠捕獲用于群體活動(dòng)識(shí)別的判別關(guān)系信息。

https://github.com/wjchaoGit/Group-Activity-Recognition

ABC: A Big CAD Model Dataset For Geometric Deep Learning

我們介紹了ABC數(shù)據(jù)集，這是一個(gè)收集了100萬(wàn)個(gè)計(jì)算機(jī)輔助設(shè)計(jì)（CAD）模型的集合，用于幾何深度學(xué)習(xí)方法和應(yīng)用的研究。每個(gè)模型都是一組顯式參數(shù)化的曲線和曲面，為微分量、面片分割、幾何特征檢測(cè)和形狀重建提供了基本信息。通過對(duì)曲面和曲線的參數(shù)化描述進(jìn)行采樣，可以生成不同格式和分辨率的數(shù)據(jù)，從而可以對(duì)各種幾何學(xué)習(xí)算法進(jìn)行公平比較。作為我們的數(shù)據(jù)集的用例，我們執(zhí)行一個(gè)大規(guī)模的基準(zhǔn)估計(jì)表面法線，比較現(xiàn)有的數(shù)據(jù)驅(qū)動(dòng)的方法，并評(píng)估其性能的地面真理和傳統(tǒng)的正常估計(jì)方法。

https://deep-geometry.github.io/abc-dataset

Neighbourhood Watch: Referring Expression Comprehension via?Language-guided Graph Attention Networks

引用表達(dá)式理解的任務(wù)是將對(duì)象實(shí)例定位在由自然語(yǔ)言中的引用表達(dá)式描述的圖像中。作為一種語(yǔ)言到視覺的匹配任務(wù)，該問題的關(guān)鍵是學(xué)習(xí)一種能夠適應(yīng)所用表達(dá)式的區(qū)分性對(duì)象特征。為了避免歧義，表達(dá)式通常不僅傾向于描述參照物本身的屬性，而且還傾向于描述其與鄰域的關(guān)系。為了捕獲和利用這些重要信息，我們提出了一種基于圖的、語(yǔ)言引導(dǎo)的注意機(jī)制。由節(jié)點(diǎn)注意組件和邊緣注意組件組成，所提出的圖形注意機(jī)制明確地表示對(duì)象間的關(guān)系，并且具有靈活性和功率的屬性不可能與競(jìng)爭(zhēng)的方法相結(jié)合。此外，所提出的圖形注意機(jī)制可以使理解決策可視化和可解釋。在三個(gè)參考表達(dá)理解數(shù)據(jù)集上的實(shí)驗(yàn)表明了該方法的優(yōu)越性。

Graph-Based Global Reasoning Networks

區(qū)域間關(guān)系的全局建模和推理對(duì)于圖像和視頻上的許多計(jì)算機(jī)視覺任務(wù)都是有益的。卷積神經(jīng)網(wǎng)絡(luò)（CNNs）擅長(zhǎng)于通過卷積運(yùn)算來建模局部關(guān)系，但它們通常在捕獲遠(yuǎn)處區(qū)域之間的全局關(guān)系方面效率低下，并且需要疊加多個(gè)卷積層。在這項(xiàng)工作中，我們提出了一種新的全局推理方法，其中一組特征在坐標(biāo)空間上全局聚合，然后投影到一個(gè)交互空間中，在交互空間中可以有效地計(jì)算關(guān)系推理。經(jīng)過推理，關(guān)系感知特征被分配回原始坐標(biāo)空間，用于下游任務(wù)。進(jìn)一步給出了該方法的一個(gè)高效實(shí)例，并介紹了通過加權(quán)全局池和加權(quán)廣播實(shí)現(xiàn)坐標(biāo)交互空間映射的全局推理單元（GloRe單元），以及通過圖卷積在交互空間中的一個(gè)小圖上進(jìn)行關(guān)系推理。所提出的GLOR單元是輕量級(jí)的，端到端可訓(xùn)練的，并且可以很容易地插入到現(xiàn)有CNN中用于各種任務(wù)。大量的實(shí)驗(yàn)表明，我們的GloRe單元能夠在圖像分類、語(yǔ)義分割和視頻動(dòng)作識(shí)別任務(wù)中，持續(xù)地提高2D和3D cnn的最新骨干結(jié)構(gòu)的性能，包括ResNet[15，16]、ResNeXt[33]、SE Net[18]和DPN[9]。

https://github.com/kiyohiro8/GraphBasedGlobalReasoning

（非官方）

Linkage Based Face Clustering via Graph Convolution Network

本文提出了一種精確、可擴(kuò)展的人臉聚類方法。我們的目標(biāo)是根據(jù)一組人臉的潛在身份對(duì)其進(jìn)行分組。我們把這個(gè)任務(wù)作為一個(gè)鏈接預(yù)測(cè)問題：如果兩個(gè)人臉具有相同的身份，則存在一個(gè)鏈接。其核心思想是在一個(gè)實(shí)例（面）周圍的特征空間中發(fā)現(xiàn)局部上下文，其中包含了該實(shí)例與其鄰域之間的鏈接關(guān)系的豐富信息。通過在每個(gè)實(shí)例周圍構(gòu)造子圖作為描述局部上下文的輸入數(shù)據(jù)，利用圖卷積網(wǎng)絡(luò)（GCN）進(jìn)行推理，推斷子圖中成對(duì)關(guān)聯(lián)的可能性。實(shí)驗(yàn)表明，與傳統(tǒng)方法相比，該方法對(duì)復(fù)雜的人臉分布具有更強(qiáng)的魯棒性，在標(biāo)準(zhǔn)人臉聚類基準(zhǔn)上的結(jié)果與現(xiàn)有方法具有良好的可比性，并且可以擴(kuò)展到大型數(shù)據(jù)集。此外，我們還證明了所提出的方法不需要像先前那樣的聚類數(shù)目，并且能夠感知噪聲和異常值，并且可以擴(kuò)展到多視圖版本以獲得更精確的聚類精度。一

?https://github.com/Zhongdao/gcn_clustering/.

Fast Interactive Object Annotation with Curve-GCN????(CVPR 2019)

通過跟蹤對(duì)象的邊界來手動(dòng)標(biāo)記對(duì)象是一個(gè)費(fèi)力的過程。在[7，2]中，作者提出了polygornn，它使用CNN-RNN架構(gòu)以遞歸的方式生成多邊形注釋，允許通過循環(huán)中的人類進(jìn)行交互式校正。我們提出了一個(gè)新的框架，通過使用圖卷積網(wǎng)絡(luò)（GCN）同時(shí)預(yù)測(cè)所有頂點(diǎn)，來減輕polygonn的序列性質(zhì)。我們的模型是從頭到腳訓(xùn)練的。它支持通過多邊形或樣條線進(jìn)行對(duì)象注釋，從而提高了基于直線和曲線對(duì)象的標(biāo)記效率。我們表明，曲線GCN優(yōu)于所有現(xiàn)有的方法在自動(dòng)模式，包括強(qiáng)大的PSP DeDIPAB〔8, 23〕，并且在交互模式下比多邊形RNN++更有效。我們的模型在自動(dòng)模式下運(yùn)行29.3ms，在交互模式下運(yùn)行2.6ms，比Polygon RNN快10倍和100倍++

https://github.com/fidler-lab/curve-gcn

591

Semantic Graph Convolutional Networks for 3D Human Pose Regression????(CVPR 2019)

本文研究了回歸圖卷積網(wǎng)絡(luò)的學(xué)習(xí)問題。目前GCNs的結(jié)構(gòu)局限于卷積濾波器的小接收?qǐng)龊兔總€(gè)節(jié)點(diǎn)的共享變換矩陣。為了解決這些局限性，我們提出了語(yǔ)義圖卷積網(wǎng)絡(luò)（SemGCN），一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，用于處理具有圖結(jié)構(gòu)數(shù)據(jù)的回歸任務(wù)。SemGCN學(xué)習(xí)捕獲語(yǔ)義信息，如局部和全局節(jié)點(diǎn)關(guān)系，這些信息在圖中沒有明確表示。這些語(yǔ)義關(guān)系可以通過端到端的訓(xùn)練從基本事實(shí)中學(xué)習(xí)，而無(wú)需額外的監(jiān)督或手工規(guī)則。我們進(jìn)一步研究了SemGCN在三維人體姿態(tài)回歸中的應(yīng)用。我們的公式是直觀和充分的，因?yàn)槎S和三維人體姿勢(shì)都可以表示為一個(gè)結(jié)構(gòu)化的圖形編碼關(guān)節(jié)之間的關(guān)系在人體骨架。我們進(jìn)行了全面的研究來驗(yàn)證我們的方法。結(jié)果表明，在減少90%參數(shù)的情況下，SemGCN的性能優(yōu)于現(xiàn)有技術(shù)。

https://github.com/garyzhao/SemGCN

113

MAN: Moment Alignment Network for Natural Language Moment Retrieval via?Iterative Graph Adjustment?????(CVPR)

這項(xiàng)研究致力于在長(zhǎng)而未經(jīng)修剪的視頻流中檢索自然語(yǔ)言時(shí)刻。這個(gè)問題并不簡(jiǎn)單，特別是當(dāng)一個(gè)視頻包含多個(gè)感興趣的時(shí)刻，并且該語(yǔ)言描述了復(fù)雜的時(shí)間依賴關(guān)系時(shí)，這種情況經(jīng)常發(fā)生在真實(shí)的場(chǎng)景中。我們確定了兩個(gè)關(guān)鍵的挑戰(zhàn)：語(yǔ)義失調(diào)和結(jié)構(gòu)失調(diào)。然而，現(xiàn)有的方法分別對(duì)待不同的時(shí)刻，并沒有明確地建模復(fù)雜的矩時(shí)態(tài)關(guān)系。本文提出了一種將候選矩編碼和時(shí)序結(jié)構(gòu)推理相結(jié)合的單鏡頭前向網(wǎng)絡(luò)（MAN）框架。人類自然地在不同的時(shí)間位置和尺度上分配與語(yǔ)言語(yǔ)義一致的候選矩表示。最重要的是，我們提出將時(shí)間關(guān)系顯式地建模為一個(gè)結(jié)構(gòu)化圖，并設(shè)計(jì)一個(gè)迭代圖調(diào)整網(wǎng)絡(luò)，以端到端的方式共同學(xué)習(xí)最佳結(jié)構(gòu)。我們?cè)趦蓚€(gè)具有挑戰(zhàn)性的公共基準(zhǔn)DiDeMo和Charades STA上評(píng)估了所提出的方法，在這兩個(gè)基準(zhǔn)上，我們的人的表現(xiàn)大大超過了最先進(jìn)的水平。

https://github.com/dazhang-cv/MAN

9(還沒開源完)

Occlusion-Net: 2D/3D Occluded Keypoint Localization Using Graph Networks

我們提出了Occlusion-Net1框架，它可以在很大程度上以自監(jiān)督的方式預(yù)測(cè)對(duì)象被遮擋關(guān)鍵點(diǎn)的二維和三維位置。我們使用現(xiàn)成的檢測(cè)器作為輸入（例如MaskRCNN[16]），該檢測(cè)器僅在可見的關(guān)鍵點(diǎn)注釋上進(jìn)行訓(xùn)練。這是這項(xiàng)工作中唯一的監(jiān)督。然后，圖編碼器網(wǎng)絡(luò)顯式地對(duì)不可見邊進(jìn)行分類，圖解碼器網(wǎng)絡(luò)從初始檢測(cè)器校正被遮擋的關(guān)鍵點(diǎn)位置。這項(xiàng)工作的中心是一個(gè)三焦點(diǎn)張量損失，它為對(duì)象的其他視圖中可見的閉塞關(guān)鍵點(diǎn)位置提供間接的自我監(jiān)督。然后將二維關(guān)鍵點(diǎn)傳遞到三維圖形網(wǎng)絡(luò)中，該網(wǎng)絡(luò)使用自監(jiān)督重投影損失估計(jì)三維形狀和相機(jī)姿態(tài)。在測(cè)試時(shí)，遮擋網(wǎng)絡(luò)在一組不同的遮擋設(shè)置下成功地在單個(gè)視圖中定位關(guān)鍵點(diǎn)。我們驗(yàn)證了我們的方法對(duì)合成CAD數(shù)據(jù)以及一個(gè)大型圖像集捕獲車輛在許多繁忙的城市交叉口。有趣的是，我們將人類對(duì)不可見關(guān)鍵點(diǎn)的標(biāo)記的準(zhǔn)確性與三焦點(diǎn)張量的預(yù)測(cè)進(jìn)行了比較

http://www.cs.cmu.edu/~ILIM/projects/IM/CarFusion/cvpr2018/index.html

Learning Context Graph for Person Search

深卷積神經(jīng)網(wǎng)絡(luò)在人的再識(shí)別方面取得了很大的進(jìn)展。然而，以往的方法大多集中在學(xué)習(xí)個(gè)體的外觀特征嵌入，在不同的光照、較大的姿態(tài)變化和遮擋情況下，模型很難處理。在這項(xiàng)工作中，我們進(jìn)一步考慮使用上下文信息進(jìn)行人員搜索。對(duì)于探測(cè)圖庫(kù)對(duì)，我們首先提出了一個(gè)上下文實(shí)例擴(kuò)展模塊，該模塊使用相對(duì)注意模塊來搜索和過濾場(chǎng)景中有用的上下文信息。我們還構(gòu)建了一個(gè)圖學(xué)習(xí)框架，有效地利用上下文對(duì)更新目標(biāo)相似度。這兩個(gè)模塊建立在聯(lián)合檢測(cè)和實(shí)例特征學(xué)習(xí)框架的基礎(chǔ)上，提高了學(xué)習(xí)特征的區(qū)分性。該框架在兩個(gè)廣泛使用的個(gè)人搜索數(shù)據(jù)集上實(shí)現(xiàn)了最新的性能。

https://github.com/sjtuzq/person_search_gcn

Graphonomy: Universal Human Parsing via Graph Transfer Learning????(CVPR2019)

先前高度優(yōu)化的人工解析模型往往適合特定領(lǐng)域中的每個(gè)數(shù)據(jù)集，或者具有不同的標(biāo)簽粒度，如果不進(jìn)行大量的重新訓(xùn)練，很難適應(yīng)其他人工解析任務(wù)。本文旨在通過統(tǒng)一來自不同領(lǐng)域或不同粒度級(jí)別的標(biāo)簽注釋，學(xué)習(xí)一個(gè)能夠滿足各種人類解析需求的通用人類解析模型。這就帶來了許多基本的學(xué)習(xí)挑戰(zhàn)，例如在不同的標(biāo)簽粒度之間發(fā)現(xiàn)潛在的語(yǔ)義結(jié)構(gòu)，跨不同的圖像域執(zhí)行適當(dāng)?shù)霓D(zhuǎn)移學(xué)習(xí)，以及識(shí)別和利用相關(guān)任務(wù)中的標(biāo)簽冗余。為了解決這些問題，我們提出了一種新的通用的人類句法分析代理Graphonomy，它在傳統(tǒng)的句法分析網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合了層次圖轉(zhuǎn)移學(xué)習(xí)，對(duì)底層的標(biāo)簽語(yǔ)義結(jié)構(gòu)進(jìn)行編碼并傳播相關(guān)的語(yǔ)義信息。特別地，圖學(xué)首先通過圖內(nèi)推理在一個(gè)數(shù)據(jù)集中的標(biāo)簽之間學(xué)習(xí)和傳播緊湊的高級(jí)圖表示，然后通過圖間傳輸在多個(gè)數(shù)據(jù)集中傳輸語(yǔ)義信息。分析和編碼不同數(shù)據(jù)集之間的各種圖形傳輸依賴關(guān)系（如相似性、語(yǔ)言知識(shí)），以增強(qiáng)圖形傳輸能力。通過對(duì)每個(gè)特定任務(wù)提取通用語(yǔ)義圖表示，可以在一個(gè)系統(tǒng)中預(yù)測(cè)所有層次的解析標(biāo)簽，而不會(huì)增加復(fù)雜性。實(shí)驗(yàn)結(jié)果表明，Graphonomy在三個(gè)人類分析基準(zhǔn)上都能有效地達(dá)到最新的結(jié)果，并且具有良好的通用人類分析性能。

https://github.com/Gaoyiminggithub/Graphonomy

Neural Task Graphs: Generalizing to Unseen Tasks?from a Single Video Demonstration

我們的目標(biāo)是生成一個(gè)策略，以便在給定域中僅給出任務(wù)的一個(gè)視頻演示的情況下完成一個(gè)不可見的任務(wù)。我們假設(shè)，要成功地從單個(gè)視頻演示推廣到看不見的復(fù)雜任務(wù)，必須將任務(wù)的組合結(jié)構(gòu)顯式地合并到模型中。為此，我們提出了神經(jīng)任務(wù)圖（NTG）網(wǎng)絡(luò)，它使用共軛任務(wù)圖作為中間表示，將視頻演示和導(dǎo)出的策略模塊化。實(shí)驗(yàn)表明，NTG在兩個(gè)復(fù)雜任務(wù)上實(shí)現(xiàn)了任務(wù)間的泛化：bulletpysics中的塊疊加和AI2-THOR中的對(duì)象收集。NTG通過可視化輸入提高了數(shù)據(jù)效率，并且在不需要密集的分層監(jiān)控的情況下實(shí)現(xiàn)了強(qiáng)泛化。我們進(jìn)一步表明，當(dāng)應(yīng)用于實(shí)際數(shù)據(jù)時(shí)，類似的性能趨勢(shì)仍然有效。結(jié)果表明，NTG可以有效地預(yù)測(cè)JIGSAWS手術(shù)數(shù)據(jù)集上的任務(wù)結(jié)構(gòu)，并將其推廣到不可見的任務(wù)。

Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action?Recognition

(CVPR2019)

在基于骨架的動(dòng)作識(shí)別中，將人體骨架建模為時(shí)空?qǐng)D形的圖形卷積網(wǎng)絡(luò)（GCNs）取得了顯著的性能。然而，在現(xiàn)有的基于GCN的方法中，圖形的拓?fù)浔皇謩?dòng)設(shè)置，并且它被固定在所有層和輸入樣本上。這對(duì)于層次GCN和動(dòng)作識(shí)別任務(wù)中的不同樣本可能不是最優(yōu)的。此外，骨架數(shù)據(jù)的二階信息（骨骼的長(zhǎng)度和方向），在現(xiàn)有的方法中很少被研究，這對(duì)于動(dòng)作識(shí)別來說更具信息性和判別性。在這項(xiàng)工作中，我們提出了一個(gè)新的兩流自適應(yīng)圖卷積網(wǎng)絡(luò)（2s-AGCN）用于基于骨架的動(dòng)作識(shí)別。在我們的模型中，圖的拓?fù)淇梢杂葿P算法以端到端的方式統(tǒng)一地或單獨(dú)地學(xué)習(xí)。該數(shù)據(jù)驅(qū)動(dòng)方法增加了圖形構(gòu)造模型的靈活性，并帶來了更多的通用性，以適應(yīng)各種數(shù)據(jù)樣本。此外，本文還提出了一種同時(shí)對(duì)一階和二階信息建模的雙流框架，顯著提高了識(shí)別精度。在NTU-RGBD和KineticsKeleton兩個(gè)大型數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明，我們的模型的性能超過了最新水平，具有顯著的優(yōu)勢(shì)。

https://github.com/lshiwjx/2s-AGCN

154

Graph Convolutional Tracking

近年來，暹羅網(wǎng)絡(luò)的跟蹤取得了良好的效果。然而，現(xiàn)有的暹羅方法大多沒有充分利用時(shí)空背景下的目標(biāo)外觀造型。事實(shí)上，時(shí)空信息可以提供多種特征來增強(qiáng)目標(biāo)的表現(xiàn)力，而上下文信息對(duì)于目標(biāo)定位的在線自適應(yīng)具有重要意義。為了綜合利用歷史目標(biāo)樣本的時(shí)空結(jié)構(gòu)，充分利用背景信息，本文提出了一種用于高性能視覺跟蹤的圖卷積跟蹤方法。具體地說，GCT將兩種類型的圖卷積網(wǎng)絡(luò)（GCNs）合并到一個(gè)用于目標(biāo)外觀建模的暹羅框架中。在這里，我們采用時(shí)空GCN對(duì)歷史目標(biāo)樣本的結(jié)構(gòu)化表示進(jìn)行建模。此外，文中還設(shè)計(jì)了一個(gè)上下文GCN，利用當(dāng)前幀的上下文來學(xué)習(xí)目標(biāo)定位的自適應(yīng)特征。對(duì)4個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試的廣泛結(jié)果表明，我們的GCT方法在每秒運(yùn)行約50幀的情況下，相對(duì)于最先進(jìn)的跟蹤器表現(xiàn)良好。

Actional-Structural Graph Convolutional Networks for?Skeleton-based Action Recognition

利用骨骼數(shù)據(jù)進(jìn)行動(dòng)作識(shí)別是近年來計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。以往的研究大多基于固定骨架圖，只捕捉關(guān)節(jié)之間的局部物理依賴關(guān)系，可能會(huì)遺漏隱含的關(guān)節(jié)相關(guān)性。為了捕獲更豐富的依賴項(xiàng)，我們引入了一種編碼器-解碼器結(jié)構(gòu)，稱為A-link推理模塊，直接從動(dòng)作中捕獲動(dòng)作特定的潛在依賴項(xiàng)，即動(dòng)作鏈接。我們還擴(kuò)展現(xiàn)有的骨架圖來表示更高階的依賴關(guān)系，即結(jié)構(gòu)鏈接。將這兩類鏈路組合成一個(gè)廣義骨架圖，進(jìn)一步提出了動(dòng)作結(jié)構(gòu)圖卷積網(wǎng)絡(luò)（AS-GCN），該網(wǎng)絡(luò)將動(dòng)作結(jié)構(gòu)圖卷積和時(shí)間卷積作為基本的構(gòu)造塊，學(xué)習(xí)動(dòng)作識(shí)別的時(shí)空特征。在識(shí)別頭的同時(shí)增加了一個(gè)未來姿勢(shì)預(yù)測(cè)頭，通過自我監(jiān)督幫助捕捉更詳細(xì)的動(dòng)作模式。我們使用兩個(gè)骨架數(shù)據(jù)集NTURGB+D和動(dòng)力學(xué)來驗(yàn)證AS-GCN在動(dòng)作識(shí)別中的有效性。與最新方法相比，所提出的AS-GCN取得了一致的大改進(jìn)。作為一種副產(chǎn)品，As-GCN在未來的位姿預(yù)測(cè)中也顯示出了良好的效果。我們的代碼在

https://github.com/limaosen0/AS-GCN

103

Context-Aware Visual Compatibility Prediction

我們?nèi)绾未_定兩件或兩件以上的服裝是否兼容或具有視覺吸引力？部分原因在于對(duì)視覺美學(xué)的理解，并受到社會(huì)態(tài)度、時(shí)間和地點(diǎn)所形成的個(gè)人偏好的影響。在這項(xiàng)工作中，我們提出了一種方法，根據(jù)兩個(gè)項(xiàng)目的視覺特征以及它們的上下文來預(yù)測(cè)它們之間的兼容性。我們將上下文定義為已知與這些項(xiàng)中的每一項(xiàng)兼容的產(chǎn)品。我們的模型與其他度量學(xué)習(xí)方法形成對(duì)比，這些方法僅依賴于項(xiàng)特征之間的成對(duì)比較。我們使用圖形神經(jīng)網(wǎng)絡(luò)來解決兼容性預(yù)測(cè)問題，該網(wǎng)絡(luò)學(xué)習(xí)根據(jù)上下文生成產(chǎn)品嵌入。我們提出了兩個(gè)預(yù)測(cè)任務(wù)（填補(bǔ)空白和服裝兼容性）在兩個(gè)時(shí)尚數(shù)據(jù)集Pulvoor和Saturn Gen上的結(jié)果，以及在Amazon DataSet的一個(gè)子集上；當(dāng)使用上下文信息時(shí)，我們實(shí)現(xiàn)了最先進(jìn)的結(jié)果，并且顯示了隨著更多上下文的使用，測(cè)試性能如何提高。

https://github.com/gcucurull/visual-compatibility

Graph Attention Convolution for Point Cloud Semantic Segmentation

標(biāo)準(zhǔn)卷積由于其特征的各向同性，在點(diǎn)云的語(yǔ)義分割中受到固有的限制。它忽略了目標(biāo)的結(jié)構(gòu)，導(dǎo)致分割結(jié)果中的目標(biāo)輪廓差，虛假區(qū)域小。本文提出了一種新的圖形注意卷積（GAC），它的核心可以動(dòng)態(tài)地雕刻成特定的形狀以適應(yīng)對(duì)象的結(jié)構(gòu)。具體地說，通過給不同的相鄰點(diǎn)分配適當(dāng)?shù)淖⒁鈾?quán)值，GAC被設(shè)計(jì)成根據(jù)動(dòng)態(tài)學(xué)習(xí)的特征有選擇地關(guān)注其中最相關(guān)的部分。卷積核的形狀由注意權(quán)的學(xué)習(xí)分布決定。GAC雖然簡(jiǎn)單，但可以捕獲點(diǎn)云的結(jié)構(gòu)化特征進(jìn)行細(xì)粒度分割，避免對(duì)象間的特征污染。在理論上，我們對(duì)GAC的表現(xiàn)能力進(jìn)行了深入的分析，以展示它如何了解點(diǎn)云的特征。在實(shí)驗(yàn)上，我們對(duì)提出的GAC在挑戰(zhàn)性的室內(nèi)和室外數(shù)據(jù)集上進(jìn)行了評(píng)估，并在兩種情況下都取得了最新的結(jié)果。

An Attention Enhanced Graph Convolutional LSTM Network for?Skeleton-Based Action Recognition

基于骨骼的動(dòng)作識(shí)別是一項(xiàng)重要的任務(wù)，它要求從給定的骨骼序列中充分了解人體動(dòng)作的運(yùn)動(dòng)特征。最近的研究表明，探索骨骼序列的時(shí)空特征對(duì)這項(xiàng)任務(wù)至關(guān)重要。然而，如何有效地提取具有區(qū)分性的時(shí)空特征仍然是一個(gè)具有挑戰(zhàn)性的問題。本文提出了一種新的基于骨架數(shù)據(jù)的注意增強(qiáng)圖卷積LSTM網(wǎng)絡(luò)（AGC-LSTM）。提出的AGC-LSTM不僅可以捕捉空間形態(tài)和時(shí)間動(dòng)力學(xué)中的判別特征，而且可以探索時(shí)空域之間的共生關(guān)系。我們還提出了一種時(shí)態(tài)層次結(jié)構(gòu)來增加頂層AGC-LSTM層的時(shí)態(tài)接受域，提高了高層語(yǔ)義表示的學(xué)習(xí)能力，顯著降低了計(jì)算開銷。此外，為了選擇有區(qū)別的空間信息，采用注意機(jī)制來增強(qiáng)每個(gè)AGC-LSTM層中關(guān)鍵節(jié)點(diǎn)的信息。給出了兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果：NTU-RGB+D數(shù)據(jù)集和西北UCLA數(shù)據(jù)集。比較結(jié)果表明了該方法的有效性，并且在兩個(gè)數(shù)據(jù)集上都優(yōu)于最新的方法。

Skeleton-Based Action Recognition with Directed Graph Neural Networks

骨架數(shù)據(jù)能夠很好地適應(yīng)動(dòng)態(tài)環(huán)境和復(fù)雜背景，因此在動(dòng)作識(shí)別中得到了廣泛的應(yīng)用。在現(xiàn)有的方法中，骨骼數(shù)據(jù)中的關(guān)節(jié)和骨骼信息都被證明對(duì)動(dòng)作識(shí)別任務(wù)有很大幫助。然而，如何將這兩種類型的數(shù)據(jù)結(jié)合起來，以便更好地利用關(guān)節(jié)和骨骼之間的關(guān)系，仍然是一個(gè)有待解決的問題。在這項(xiàng)工作中，我們根據(jù)人體關(guān)節(jié)和骨骼之間的運(yùn)動(dòng)相關(guān)性，將骨骼數(shù)據(jù)表示為有向無(wú)環(huán)圖（DAG）。設(shè)計(jì)了一種新的有向圖神經(jīng)網(wǎng)絡(luò)，用于提取關(guān)節(jié)、骨骼及其相互關(guān)系的信息，并根據(jù)提取的特征進(jìn)行預(yù)測(cè)。另外，為了更好地適應(yīng)動(dòng)作識(shí)別任務(wù)，在訓(xùn)練過程的基礎(chǔ)上，對(duì)圖的拓?fù)浣Y(jié)構(gòu)進(jìn)行了自適應(yīng)，使其得到了顯著的改進(jìn)。在雙流框架下，利用骨架序列的運(yùn)動(dòng)信息，結(jié)合空間信息，進(jìn)一步提高性能。我們的最終模型在兩個(gè)大型數(shù)據(jù)集NTU-RGBD和骨骼動(dòng)力學(xué)上進(jìn)行了測(cè)試，在這兩個(gè)數(shù)據(jù)集上都超過了最新的性能。

https://github.com/kenziyuliu/DGNN-PyTorch

（非官方）

Deep Compositional Question Answering with Neural Module Networks

視覺問答在本質(zhì)上是一種構(gòu)圖性的問題，比如狗在哪里？分享子結(jié)構(gòu)的問題，比如狗是什么顏色的？那貓呢？本文試圖同時(shí)挖掘深層網(wǎng)絡(luò)的表征能力和問題的構(gòu)成語(yǔ)言結(jié)構(gòu)。我們描述了一個(gè)構(gòu)造和學(xué)習(xí)神經(jīng)模塊網(wǎng)絡(luò)的過程，它將聯(lián)合訓(xùn)練的神經(jīng)模塊集合組成深層網(wǎng)絡(luò)進(jìn)行問答。我們的方法將問題分解為它們的語(yǔ)言子結(jié)構(gòu)，并使用這些結(jié)構(gòu)動(dòng)態(tài)地實(shí)例化模塊化網(wǎng)絡(luò)（具有可重用的組件，用于識(shí)別狗、分類顏色等）。由此產(chǎn)生的復(fù)合網(wǎng)絡(luò)是聯(lián)合訓(xùn)練的。我們對(duì)兩個(gè)具有挑戰(zhàn)性的可視化問答數(shù)據(jù)集進(jìn)行了評(píng)估，在VQA自然圖像數(shù)據(jù)集和一個(gè)新的抽象形狀復(fù)雜問題數(shù)據(jù)集上都取得了最新的結(jié)果。

GEOMetrics: Exploiting Geometric Structure for Graph-Encoded Objects

網(wǎng)格模型是一種很有前途的三維物體結(jié)構(gòu)編碼方法。當(dāng)前的網(wǎng)格重建系統(tǒng)通過一系列的圖卷積來預(yù)測(cè)一個(gè)預(yù)定圖的均勻分布的頂點(diǎn)位置，這會(huì)導(dǎo)致性能或分辨率的降低。在本文中，我們認(rèn)為幾何對(duì)象的圖形表示允許額外的結(jié)構(gòu)，這應(yīng)該用于增強(qiáng)重建。因此，我們通過引入（1）保留頂點(diǎn)信息的圖卷積更新；（2）允許細(xì)節(jié)出現(xiàn)的自適應(yīng)分裂啟發(fā)式；以及（3）在由頂點(diǎn)定義的局部曲面上同時(shí)操作的訓(xùn)練目標(biāo)，提出了一個(gè)適當(dāng)?shù)乩脠D形編碼對(duì)象的幾何結(jié)構(gòu)優(yōu)點(diǎn)的系統(tǒng)以及由網(wǎng)格定義的全局結(jié)構(gòu)。我們提出的方法是基于ShapeNet數(shù)據(jù)集的三維物體重建任務(wù)進(jìn)行評(píng)估的，在該任務(wù)中，我們?cè)谝曈X和數(shù)值上展示了最先進(jìn)的性能，同時(shí)通過生成自適應(yīng)網(wǎng)格具有更小的空間要求

https://github.com/EdwardSmith1884/GEOMetrics

Graph Convolutional Gaussian Processes

我們提出了一種新的貝葉斯非參數(shù)方法來學(xué)習(xí)非歐氏域上的平移不變關(guān)系。所得到的圖卷積高斯過程可以應(yīng)用于機(jī)器學(xué)習(xí)中的問題，對(duì)于這些問題，輸入觀測(cè)值是一般圖上具有區(qū)域的函數(shù)。與卷積神經(jīng)網(wǎng)絡(luò)一樣，這些模型的結(jié)構(gòu)允許高維輸入，同時(shí)保持可表達(dá)性。我們提出的圖形卷積高斯過程的圖像和三角網(wǎng)格的應(yīng)用，展示了它們的通用性和有效性，與現(xiàn)有的方法相比，盡管是相對(duì)簡(jiǎn)單的模型。

LatentGNN: Learning Efficient Non-local Relations for Visual Recognition

在特征表示中捕獲長(zhǎng)距離依賴關(guān)系對(duì)于許多視覺識(shí)別任務(wù)至關(guān)重要。盡管最近深卷積網(wǎng)絡(luò)取得了一些成功，但是在視覺特征之間建立非局部上下文關(guān)系模型仍然是一個(gè)挑戰(zhàn)。一種很有前途的策略是利用全連通圖神經(jīng)網(wǎng)絡(luò)（GNN）對(duì)特征上下文進(jìn)行建模，該網(wǎng)絡(luò)利用估計(jì)的非局部上下文表示對(duì)傳統(tǒng)卷積特征進(jìn)行擴(kuò)展。然而，大多數(shù)基于GNN的方法都需要計(jì)算一個(gè)稠密的圖親和矩陣，因此很難擴(kuò)展到處理復(fù)雜的現(xiàn)實(shí)世界的視覺問題。在這項(xiàng)工作中，我們提出了一種有效的，但靈活的非局部關(guān)系表示基于一類新的圖形神經(jīng)網(wǎng)絡(luò)。我們的關(guān)鍵思想是引入一個(gè)潛在的空間來減少圖的復(fù)雜度，這使得我們可以使用圖的親和度矩陣的低秩表示，并在計(jì)算中實(shí)現(xiàn)線性復(fù)雜度。對(duì)三種主要的視覺識(shí)別任務(wù)進(jìn)行了大量的實(shí)驗(yàn)評(píng)估，結(jié)果表明，該方法在保持較低計(jì)算成本的同時(shí)，在較大的幅度上優(yōu)于已有的方法。為了便于將來的研究，可以使用以下代碼：https://github.com/latentgnn/LatentGNN-V1-PyTorch

-----------------------------------------------------------------------------------------------------------------------------------

AttKGCN: Attribute Knowledge Graph Convolutional Network for Person Re-identification

人圖像的鑒別特征表示是人的再鑒別（re ID）任務(wù)的重要組成部分。近年來，屬性被證明有助于指導(dǎo)學(xué)習(xí)更具區(qū)分性的Re-ID特征表示。由于屬性通常在人的圖像中同時(shí)出現(xiàn)，因此需要對(duì)屬性依賴性進(jìn)行建模，以改進(jìn)屬性預(yù)測(cè)，從而得到Re-ID結(jié)果。本文提出了一種新的屬性知識(shí)圖（AttKG）對(duì)這些屬性依賴關(guān)系進(jìn)行建模，并提出了一種新的屬性知識(shí)圖卷積網(wǎng)絡(luò)（AttKGCN）來解決Re ID問題。AttKGCN將屬性預(yù)測(cè)和Re-ID學(xué)習(xí)集成在一個(gè)統(tǒng)一的端到端框架中，可以分別提高它們的性能。AttKGCN首先構(gòu)建一個(gè)有向?qū)傩訩G，它的節(jié)點(diǎn)表示屬性，邊編碼不同屬性的共現(xiàn)關(guān)系。然后，AttKGCN學(xué)習(xí)一組相互依賴的屬性分類器，這些分類器與人的視覺描述符相結(jié)合，用于屬性預(yù)測(cè)。最后，AttKGCN將屬性描述和深度視覺表示結(jié)合起來，構(gòu)造了一個(gè)更具區(qū)分性的特征表示。在多個(gè)基準(zhǔn)數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了AttKGCN在屬性預(yù)測(cè)和Re-ID任務(wù)上的有效性。

Learning Cross-modal Context Graph for Visual Grounding

視覺接地是許多視覺語(yǔ)言任務(wù)中普遍存在的一個(gè)構(gòu)建塊，但由于接地實(shí)體的視覺和語(yǔ)言特征的巨大變化、強(qiáng)烈的語(yǔ)境效應(yīng)以及由此產(chǎn)生的語(yǔ)義模糊性，視覺接地仍然具有挑戰(zhàn)性。以往的研究主要集中在學(xué)習(xí)具有有限語(yǔ)境信息的單個(gè)短語(yǔ)的表達(dá)。針對(duì)其局限性，本文提出了一種語(yǔ)言引導(dǎo)圖表示方法，以捕捉接地實(shí)體的全局上下文及其關(guān)系，并針對(duì)多短語(yǔ)視覺接地任務(wù)提出了一種跨模式圖匹配策略。特別地，我們引入了一個(gè)模塊化的圖神經(jīng)網(wǎng)絡(luò)，通過消息傳播分別計(jì)算短語(yǔ)和對(duì)象建議的上下文感知表示，然后使用基于圖的匹配模塊生成接地短語(yǔ)的全局一致定位。我們以兩階段策略共同訓(xùn)練整個(gè)圖形神經(jīng)網(wǎng)絡(luò)，并在Flickr30K實(shí)體基準(zhǔn)上對(duì)其進(jìn)行評(píng)估。大量實(shí)驗(yàn)表明，我們的方法在很大程度上優(yōu)于現(xiàn)有技術(shù)，證明了我們的基礎(chǔ)框架的有效性。代碼位于

https://github.com/youngfly11/LCMCG-PyTorch

(AAAI2020)

Heterogeneous Graph Learning for Visual Commonsense Reasoning

視覺常識(shí)推理任務(wù)旨在引導(dǎo)研究領(lǐng)域解決認(rèn)知層面的推理，具有預(yù)測(cè)正確答案的能力，同時(shí)提供令人信服的推理路徑，從而產(chǎn)生三個(gè)子任務(wù)，即Q->A，QA->R和Q->AR。這對(duì)視覺和語(yǔ)言領(lǐng)域之間的語(yǔ)義對(duì)齊以及知識(shí)推理產(chǎn)生有說服力的推理路徑提出了巨大挑戰(zhàn)。現(xiàn)有的工作要么求助于強(qiáng)大的端到端網(wǎng)絡(luò)，要么不能產(chǎn)生可解釋的推理路徑，要么僅僅探索視覺對(duì)象（同構(gòu)圖）的內(nèi)部關(guān)系，而忽略了視覺概念和語(yǔ)言詞之間的跨域語(yǔ)義對(duì)齊。本文提出了一種新的異構(gòu)圖學(xué)習(xí)（HGL）框架，將圖內(nèi)推理和圖間推理無(wú)縫地結(jié)合起來，以架起視覺和語(yǔ)言領(lǐng)域的橋梁。我們的HGL由一個(gè)原始的異類圖回答模塊（VAHG）和一個(gè)雙重的異類圖回答模塊（QAHG）組成，用于交互式地優(yōu)化語(yǔ)義一致性的推理路徑。此外，我們的HGL集成了一個(gè)上下文投票模塊，以利用遠(yuǎn)程可視上下文進(jìn)行更好的全局推理。在大規(guī)模的視覺常識(shí)推理基準(zhǔn)上的實(shí)驗(yàn)表明，我們提出的模塊在三個(gè)任務(wù)上都表現(xiàn)出了優(yōu)越的性能（在Q->A上提高了5%的準(zhǔn)確性，在QA->R上提高了3.5%，在Q->AR上提高了5.8%）

?https://github.com/yuweijiang/HGL-pytorch

Fully-Automatic Semantic Segmentation for Food Intake Tracking in Long-Term Care Homes

Word-level Deep Sign Language Recognition from Video: A New Large-scale Dataset and Methods Comparison

基于視覺的手語(yǔ)識(shí)別旨在幫助聽障人士與他人進(jìn)行交流。然而，大多數(shù)現(xiàn)有手語(yǔ)數(shù)據(jù)集僅限于少量的單詞。由于詞匯量有限，從這些數(shù)據(jù)集中學(xué)習(xí)到的模型無(wú)法在實(shí)踐中應(yīng)用。本文介紹了一種新的大規(guī)模字級(jí)美國(guó)手語(yǔ)（WLASL）視頻數(shù)據(jù)集，由100多個(gè)簽名者完成，包含2000多個(gè)字。該數(shù)據(jù)集將向研究界公開。據(jù)我們所知，它是迄今為止最大的公共ASL數(shù)據(jù)集，有助于字級(jí)符號(hào)識(shí)別的研究。

基于這個(gè)新的大規(guī)模數(shù)據(jù)集，我們可以嘗試幾種用于字級(jí)符號(hào)識(shí)別的深度學(xué)習(xí)方法，并評(píng)估它們?cè)诖笠?guī)模場(chǎng)景中的性能。具體來說，我們實(shí)現(xiàn)并比較了兩種不同的模型，即（i）基于整體視覺外觀的方法和（ii）基于二維人體姿勢(shì)的方法。這兩個(gè)模型都是有價(jià)值的基線，將有利于社區(qū)進(jìn)行方法基準(zhǔn)測(cè)試。此外，我們還提出了一種新的基于姿態(tài)的時(shí)間圖卷積網(wǎng)絡(luò)（pose-TGCN），它可以同時(shí)對(duì)人體姿態(tài)軌跡的空間和時(shí)間依賴性進(jìn)行建模，進(jìn)一步提高了基于姿態(tài)的方法的性能。我們的結(jié)果表明，基于姿勢(shì)和基于外觀的模型在2000個(gè)單詞/gloss上達(dá)到了66%的可比性能，顯示了我們數(shù)據(jù)集的有效性和挑戰(zhàn)性。我們將使大規(guī)模的數(shù)據(jù)集，以及我們的基線深度模型，免費(fèi)提供在線。

Facial Expression Restoration Based on Improved Graph Convolutional Networks

當(dāng)人臉圖像分辨率較低或部分遮擋時(shí)，野外表情分析具有挑戰(zhàn)性。針對(duì)不同表情下不同人臉局部區(qū)域之間的相關(guān)性，提出了一種基于生成性對(duì)抗網(wǎng)絡(luò)的人臉表情恢復(fù)方法，該方法將改進(jìn)的圖形卷積網(wǎng)絡(luò)（IGCN）和區(qū)域關(guān)系建模塊（RRMB）相結(jié)合。與傳統(tǒng)的以矢量為輸入特征的圖卷積網(wǎng)絡(luò)不同，IGCN可以使用面片的張量作為輸入。最好保留面片的結(jié)構(gòu)信息。提出的RRMB旨在解決面部生成任務(wù)，包括修復(fù)和面部動(dòng)作單元檢測(cè)的超分辨率，旨在恢復(fù)面部表情作為基本真實(shí)。在BP4D和DISFA基準(zhǔn)上進(jìn)行的大量實(shí)驗(yàn)通過定量和定性評(píng)估證明了我們提出的方法的有效性

Human Action Recognition with Multi-Laplacian Graph Convolutional Networks

卷積神經(jīng)網(wǎng)絡(luò)在不同的模式識(shí)別問題上取得了巨大的成功。這些學(xué)習(xí)模型基本上是為了處理圖像等矢量數(shù)據(jù)而設(shè)計(jì)的，但它們對(duì)非矢量和半結(jié)構(gòu)化數(shù)據(jù)（即具有可變大小的圖形、拓?fù)浣Y(jié)構(gòu)等）的擴(kuò)展仍然是一個(gè)重大挑戰(zhàn)，盡管目前正在出現(xiàn)一些有趣的解決方案。

本文介紹了一種新的譜多重拉普拉斯圖卷積網(wǎng)絡(luò)MLGCN。這種方法的主要貢獻(xiàn)在于一種新的設(shè)計(jì)原則，它將圖拉普拉斯學(xué)習(xí)為其他基本拉普拉斯的凸組合，每個(gè)拉普拉斯都專用于輸入圖的特定拓?fù)?。我們還引入了一種新的圖上池算子，它分兩步進(jìn)行：上下文相關(guān)的節(jié)點(diǎn)擴(kuò)展，然后是全局平均池；這兩步過程的優(yōu)點(diǎn)在于它能夠在實(shí)現(xiàn)置換不變性的同時(shí)保持節(jié)點(diǎn)的區(qū)分能力。在SBU和UCF-101數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，驗(yàn)證了該方法對(duì)具有挑戰(zhàn)性的動(dòng)作識(shí)別任務(wù)的有效性。

https://www.groundai.com/project/human-action-recognition-with-multi-laplacian-graph-convolutional-networks/1

Using Image Priors to Improve Scene Understanding

語(yǔ)義分割算法能夠在多個(gè)攝像機(jī)視點(diǎn)上對(duì)物體進(jìn)行強(qiáng)有力的分割，對(duì)于保證導(dǎo)航和自主駕駛等新興應(yīng)用的安全性至關(guān)重要?，F(xiàn)有的算法單獨(dú)處理每個(gè)圖像，但自主車輛經(jīng)常重訪相同的位置或保持信息從眼前的過去。我們提出了一種簡(jiǎn)單而有效的方法來利用這些圖像先驗(yàn)知識(shí)來改進(jìn)序列驅(qū)動(dòng)數(shù)據(jù)集中圖像的語(yǔ)義分割。我們研究了幾種融合這些時(shí)間場(chǎng)景先驗(yàn)信息的方法，并介紹了一種能夠?qū)W習(xí)如何傳輸這些信息的先驗(yàn)融合網(wǎng)絡(luò)。對(duì)于動(dòng)態(tài)類，先驗(yàn)融合模型比非先驗(yàn)基線的精度從69.1%提高到73.3%，對(duì)于靜態(tài)類，從88.2%提高到89.1%。與FCN-8等模型相比，我們的方法在參數(shù)減少5倍的情況下達(dá)到了同樣的精度。我們使用了簡(jiǎn)單的編解碼骨干網(wǎng)，但是這種通用的先驗(yàn)融合方法可以應(yīng)用到更復(fù)雜的語(yǔ)義分割骨干網(wǎng)中。我們還討論了如何利用場(chǎng)景圖中場(chǎng)景的結(jié)構(gòu)化表示作為先驗(yàn)知識(shí)來進(jìn)一步提高場(chǎng)景理解能力。

wMAN: Weakly-supervised Moment Alignment Network for Text-based Video Segment Retrieval

給定一個(gè)視頻和一個(gè)句子，弱監(jiān)督視頻矩檢索的目標(biāo)是在訓(xùn)練過程中定位由句子描述的視頻片段，而不需要獲取時(shí)間注釋。相反，一個(gè)模型必須學(xué)習(xí)如何識(shí)別只有視頻句子對(duì)時(shí)的正確片段（即時(shí)刻）。因此，一個(gè)內(nèi)在的挑戰(zhàn)是自動(dòng)推斷視覺和語(yǔ)言表達(dá)之間的潛在對(duì)應(yīng)關(guān)系。為了便于這種對(duì)齊，我們提出了弱監(jiān)督矩對(duì)齊網(wǎng)絡(luò)（wMAN），它利用多層次的共同注意機(jī)制來學(xué)習(xí)更豐富的多模態(tài)表示。上述機(jī)制由一個(gè)逐幀交互模塊和一個(gè)新的詞條件視覺圖（WCVG）組成。我們的方法還結(jié)合了位置編碼的一個(gè)新應(yīng)用，通常用于變壓器，通過迭代消息傳遞來學(xué)習(xí)視覺語(yǔ)義表示，這些表示包含了它們?cè)跁r(shí)間序列中相對(duì)位置的上下文信息。在DiDeMo和Charades-STA數(shù)據(jù)集上的綜合實(shí)驗(yàn)證明了我們所學(xué)習(xí)的表示方法的有效性：我們的組合wMAN模型不僅在很大程度上優(yōu)于最新的弱監(jiān)督方法，而且在某些度量上也優(yōu)于強(qiáng)監(jiān)督的最新方法。

Visual Semantic Reasoning for Image-Text Matching

圖像文本匹配一直是連接視覺和語(yǔ)言領(lǐng)域的研究熱點(diǎn)。它仍然具有挑戰(zhàn)性，因?yàn)楫?dāng)前的圖像表示通常缺乏相應(yīng)文本標(biāo)題中的全局語(yǔ)義概念。為了解決這個(gè)問題，我們提出了一個(gè)簡(jiǎn)單的、可解釋的推理模型來生成捕獲關(guān)鍵對(duì)象和場(chǎng)景語(yǔ)義概念的可視化表示。具體來說，我們首先建立圖像區(qū)域之間的連接，然后使用圖卷積網(wǎng)絡(luò)進(jìn)行推理，以生成具有語(yǔ)義關(guān)系的特征。然后，我們提出使用門和記憶機(jī)制對(duì)這些關(guān)系增強(qiáng)的特征進(jìn)行全局語(yǔ)義推理，選擇判別信息，并逐步生成整個(gè)場(chǎng)景的表示。實(shí)驗(yàn)證明，該方法在MS-COCO和Flickr30K數(shù)據(jù)集上實(shí)現(xiàn)了一種新的圖像文本匹配技術(shù)。它在圖像檢索和標(biāo)題檢索方面的性能分別比目前的最佳方法高出6.8%和4.8%（使用1K測(cè)試集調(diào)用@1）。在Flickr30K上，我們的模型將圖像檢索相對(duì)提高了12.6%，標(biāo)題檢索相對(duì)提高了5.8%（Recall@1）。我們的代碼可以在https://github.com/KunpengLi1994/VSRN上找到。

https://github.com/KunpengLi1994/VSRN

Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning

Fashion Retrieval via Graph Reasoning Networks on a Similarity Pyramid

Action Recognition in Untrimmed Videos with Composite Self-Attention Two-Stream Framework

摘要：隨著深度學(xué)習(xí)算法的迅速發(fā)展，視頻中的動(dòng)作識(shí)別取得了許多重要的研究成果。動(dòng)作識(shí)別中的一個(gè)問題零拍動(dòng)作識(shí)別（ZSAR）最近引起了人們的廣泛關(guān)注，它在沒有任何正面例子的情況下對(duì)新的類別進(jìn)行分類。動(dòng)作識(shí)別的另一個(gè)困難是未經(jīng)處理的數(shù)據(jù)可能會(huì)嚴(yán)重影響模型的性能。我們提出了一個(gè)帶有預(yù)訓(xùn)練模型的復(fù)合雙流框架。我們提出的框架包括一個(gè)分類器分支和一個(gè)復(fù)合特征分支。在兩個(gè)分支中分別采用圖網(wǎng)絡(luò)模型，有效地提高了框架的特征提取和推理能力。在復(fù)合特征分支中，構(gòu)建了一個(gè)三通道的自關(guān)注模型，對(duì)視頻中的每一幀進(jìn)行加權(quán)，并對(duì)關(guān)鍵幀給予更多的關(guān)注。每個(gè)自注意模型信道輸出一組注意權(quán)重以聚焦于視頻的特定方面，并且一組注意權(quán)重對(duì)應(yīng)于一維向量。

Sentence Specified Dynamic Video Thumbnail Generation

隨著互聯(lián)網(wǎng)上視頻的巨大增長(zhǎng)，提供視頻內(nèi)容預(yù)覽的視頻縮略圖對(duì)于影響用戶的在線搜索體驗(yàn)越來越重要。傳統(tǒng)的視頻縮略圖僅根據(jù)視頻的視覺特性生成一次，然后按要求顯示。因此，這樣的視頻縮略圖，如果不考慮用戶的搜索意圖，就不能提供用戶關(guān)心的視頻內(nèi)容的有意義的快照。本文定義了一個(gè)獨(dú)特的新任務(wù)，即句子指定的動(dòng)態(tài)視頻縮略圖生成，生成的縮略圖不僅提供了原始視頻內(nèi)容的簡(jiǎn)明預(yù)覽，而且與用戶的搜索意圖動(dòng)態(tài)相關(guān)，語(yǔ)義對(duì)應(yīng)于用戶的查詢語(yǔ)句。為了解決這一難題，我們提出了一種新的圖形卷積視頻縮略圖指針（GTP）。具體地說，GTP利用句子指定的視頻圖卷積網(wǎng)絡(luò)來建模句子-視頻語(yǔ)義交互和與句子信息相結(jié)合的內(nèi)部視頻關(guān)系，在此基礎(chǔ)上，引入時(shí)間條件指針網(wǎng)絡(luò)，依次生成句子指定的視頻縮略圖。此外，我們基于ActivityNet標(biāo)題為新任務(wù)添加了一個(gè)新的數(shù)據(jù)集，該數(shù)據(jù)集由10000多個(gè)視頻句子對(duì)組成，每個(gè)視頻句子對(duì)附有一個(gè)指定的視頻縮略圖。我們證明我們提出的GTP方法在所建立的數(shù)據(jù)集上優(yōu)于幾種基線方法，因此我們相信隨著新數(shù)據(jù)集的發(fā)布，我們的初步結(jié)果將啟發(fā)對(duì)句子指定的動(dòng)態(tài)視頻縮略圖生成的進(jìn)一步研究。

https://github.com/yytzsy/GTP

Pixel2Mesh++: Multi-View 3D Mesh Generation via Deformation

研究了由已知攝像機(jī)姿態(tài)的彩色圖像進(jìn)行三維網(wǎng)格表示時(shí)的形狀生成問題。雖然許多以前的作品學(xué)習(xí)直接從先驗(yàn)知識(shí)中產(chǎn)生幻覺，但我們通過利用圖形卷積網(wǎng)絡(luò)的交叉視圖信息來進(jìn)一步提高形狀質(zhì)量。我們的模型沒有建立從圖像到三維形狀的直接映射函數(shù)，而是學(xué)習(xí)預(yù)測(cè)一系列的變形以迭代地改進(jìn)粗糙形狀。在傳統(tǒng)的多視圖幾何方法的啟發(fā)下，我們的網(wǎng)絡(luò)在初始網(wǎng)格頂點(diǎn)附近區(qū)域進(jìn)行采樣，并利用從多個(gè)輸入圖像中建立的感知特征統(tǒng)計(jì)來確定最佳變形。大量的實(shí)驗(yàn)表明，我們的模型產(chǎn)生了準(zhǔn)確的三維形狀，不僅從視覺上看，從輸入的角度，似乎是合理的，而且很好地對(duì)齊任意的觀點(diǎn)。借助于物理驅(qū)動(dòng)的體系結(jié)構(gòu)，我們的模型還表現(xiàn)出跨不同語(yǔ)義類別的泛化能力、輸入圖像的數(shù)量和網(wǎng)格初始化的質(zhì)量。

StructureNet: Hierarchical Graph Networks for 3D Shape Generation

生成新穎、多樣和真實(shí)的三維形狀以及相關(guān)的零件語(yǔ)義和結(jié)構(gòu)的能力對(duì)于許多需要高質(zhì)量三維資產(chǎn)或大量真實(shí)訓(xùn)練數(shù)據(jù)的應(yīng)用來說至關(guān)重要。實(shí)現(xiàn)這一目標(biāo)的一個(gè)關(guān)鍵挑戰(zhàn)是如何適應(yīng)不同的形狀，包括零件的連續(xù)變形以及添加、移除或修改形狀成分和組成結(jié)構(gòu)的結(jié)構(gòu)或離散變化。這種對(duì)象結(jié)構(gòu)通?？梢越M織成一個(gè)由組成對(duì)象部分和關(guān)系組成的層次結(jié)構(gòu)，表示為n元圖的層次結(jié)構(gòu)。我們介紹了一種層次圖網(wǎng)絡(luò)StructureNet，它（i）可以直接編碼表示為n元圖的形狀；（ii）可以在大而復(fù)雜的形狀族上進(jìn)行健壯的訓(xùn)練；以及（iii）用于生成大量多樣的真實(shí)的結(jié)構(gòu)化形狀幾何體。從技術(shù)上講，我們是通過借鑒圖形神經(jīng)網(wǎng)絡(luò)的最新進(jìn)展來實(shí)現(xiàn)這一點(diǎn)的，提出了一種n元圖形的順序不變編碼，同時(shí)考慮了網(wǎng)絡(luò)訓(xùn)練中的部分幾何和部分間關(guān)系。我們廣泛地評(píng)估了不同形狀族的學(xué)習(xí)潛在空間的質(zhì)量，并顯示出相對(duì)于基線和競(jìng)爭(zhēng)方法的顯著優(yōu)勢(shì)。學(xué)習(xí)到的潛在空間能夠?qū)崿F(xiàn)多種結(jié)構(gòu)感知的幾何處理應(yīng)用，包括形狀生成和插值、形狀編輯或直接從未注釋圖像、點(diǎn)云或部分掃描中發(fā)現(xiàn)形狀結(jié)構(gòu)。

PH-GCN: Person Re-identification with Part-based Hierarchical Graph Convolutional Network

Deep Graph-Convolutional Image Denoising

Interactive Image Generation Using Scene Graphs

近年來，基于場(chǎng)景的文本描述在圖像生成領(lǐng)域出現(xiàn)了一些令人興奮的發(fā)展。這些方法主要集中于從靜態(tài)文本描述生成圖像，并且僅限于在單個(gè)過程中生成圖像。它們無(wú)法基于增量相加的文本描述（更直觀和類似于我們描述圖像的方式）交互式地生成圖像。提出了一種基于場(chǎng)景描述圖序列（場(chǎng)景圖）的圖像增量生成方法。我們提出了一種遞歸的網(wǎng)絡(luò)結(jié)構(gòu)，它保留了先前步驟中生成的圖像內(nèi)容，并根據(jù)新提供的場(chǎng)景信息修改累積圖像。該模型利用圖形卷積網(wǎng)絡(luò)（GCN）來迎合可變大小的場(chǎng)景圖和生成的對(duì)抗性圖像轉(zhuǎn)換網(wǎng)絡(luò)來生成真實(shí)的多目標(biāo)圖像，而無(wú)需在訓(xùn)練過程中進(jìn)行任何中間監(jiān)控。

PasteGAN: A Semi-Parametric Method to Generate Image from Scene Graph

盡管在基于結(jié)構(gòu)化（場(chǎng)景圖）或自由形式（句子）描述的高質(zhì)量圖像生成方面取得了一些令人振奮的進(jìn)展，但大多數(shù)都只保證了圖像層次的語(yǔ)義一致性，生成的圖像與描述的語(yǔ)義相匹配。然而，它仍然缺乏對(duì)圖像合成的更可控的研究，比如精細(xì)地操縱每個(gè)物體的視覺外觀。因此，為了生成具有首選對(duì)象和豐富交互作用的圖像，我們提出了一種半?yún)?shù)方法，稱為PasteGAN，用于從場(chǎng)景圖生成圖像，其中對(duì)象的空間排列及其成對(duì)關(guān)系由場(chǎng)景圖定義，對(duì)象的外觀由給定對(duì)象決定作物。為了增強(qiáng)輸出中對(duì)象的交互作用，我們?cè)O(shè)計(jì)了一個(gè)裁剪優(yōu)化網(wǎng)絡(luò)，將對(duì)象及其關(guān)系嵌入到一個(gè)地圖中。多重?fù)p失協(xié)同工作，以確保生成的圖像高度尊重作物和符合場(chǎng)景圖，同時(shí)保持良好的圖像質(zhì)量。如果沒有提供裁剪，還建議使用裁剪選擇器通過對(duì)場(chǎng)景圖中對(duì)象周圍的交互進(jìn)行編碼，從外部對(duì)象庫(kù)中選擇最兼容的裁剪。通過對(duì)視覺基因組和COCO數(shù)據(jù)的分析，我們提出的方法在初始得分和多樣性得分上都明顯優(yōu)于SOTA方法，并且有很大的優(yōu)勢(shì)。大量的實(shí)驗(yàn)也證明了我們的方法能夠生成具有給定對(duì)象的復(fù)雜多樣的圖像。

Edge-labeling Graph Neural Network for Few-shot Learning

Semantic Relationships Guided Representation Learning for Facial Action Unit Recognition

人臉動(dòng)作單元（AU）識(shí)別是人臉表情分析的一項(xiàng)重要任務(wù)，在人工智能和計(jì)算機(jī)視覺領(lǐng)域引起了廣泛的關(guān)注。現(xiàn)有的工作集中于設(shè)計(jì)或?qū)W習(xí)復(fù)雜的區(qū)域特征表示，或深入到各種類型的AU關(guān)系建模。盡管有不同程度的進(jìn)步，但對(duì)于現(xiàn)有的處理復(fù)雜情況的方法仍然費(fèi)力。本文研究了如何將AUs之間的語(yǔ)義關(guān)系傳播集成到一個(gè)深層神經(jīng)網(wǎng)絡(luò)框架中，以增強(qiáng)面部區(qū)域的特征表示，并提出了一個(gè)AU語(yǔ)義關(guān)系嵌入表示學(xué)習(xí)（SRERL）框架。具體來說，通過分析各種表情中AUs的共生和互斥，我們以結(jié)構(gòu)化知識(shí)圖的形式組織面部AUs，并將門控圖神經(jīng)網(wǎng)絡(luò)（GGNN）集成到多尺度CNN框架中，通過圖傳播節(jié)點(diǎn)信息，生成增強(qiáng)的AU表示。由于所學(xué)習(xí)的特征既包含了外觀特征，又包含了AU關(guān)系推理，因此該模型具有更強(qiáng)的魯棒性，能夠處理更具挑戰(zhàn)性的情況，如光照變化和部分遮擋。在兩個(gè)公共基準(zhǔn)上的大量實(shí)驗(yàn)表明，我們的方法優(yōu)于以前的工作，并且達(dá)到了最先進(jìn)的性能。

3D Dense Face Alignment via Graph Convolution Networks

Relational Action Forecasting

本文主要研究視頻中的多人動(dòng)作預(yù)測(cè)。更準(zhǔn)確地說，給定H個(gè)先前幀的歷史，目標(biāo)是檢測(cè)參與者并預(yù)測(cè)他們?cè)谙乱粋€(gè)T幀中的未來動(dòng)作。我們的方法以更快的R-CNN作為節(jié)點(diǎn)，通過構(gòu)造一個(gè)遞歸圖，聯(lián)合建模不同參與者之間的時(shí)空交互。我們的方法學(xué)習(xí)在不需要明確監(jiān)督的情況下選擇判別關(guān)系的子集，從而使我們能夠處理具有挑戰(zhàn)性的視覺數(shù)據(jù)。我們將我們的模型稱為判別關(guān)系遞歸網(wǎng)絡(luò)（DRRN）。在AVA上對(duì)動(dòng)作預(yù)測(cè)的評(píng)估表明，與簡(jiǎn)單的基線相比，我們提出的方法是有效的。此外，我們?cè)贘-HMDB上的早期動(dòng)作分類任務(wù)的性能顯著提高，從之前的48%提高到60%。

Context-Aware Embeddings for Automatic Art Analysis

自動(dòng)藝術(shù)分析旨在利用計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)，從一組圖像中分類和檢索藝術(shù)表現(xiàn)。在這項(xiàng)工作中，我們建議用上下文藝術(shù)信息增強(qiáng)神經(jīng)網(wǎng)絡(luò)的視覺表現(xiàn)力。盡管視覺表現(xiàn)能夠捕捉關(guān)于藝術(shù)品內(nèi)容和風(fēng)格的信息，但我們提出的上下文感知嵌入方法額外地編碼了不同藝術(shù)屬性之間的關(guān)系，如作者、流派或歷史時(shí)期。我們?cè)O(shè)計(jì)了兩種在自動(dòng)藝術(shù)分析中使用上下文的不同方法。第一種方法是通過多任務(wù)學(xué)習(xí)模型獲得上下文數(shù)據(jù)，在該模型中，多個(gè)屬性被訓(xùn)練在一起以發(fā)現(xiàn)元素之間的視覺關(guān)系。在第二種方法中，上下文是通過特定于藝術(shù)的知識(shí)圖獲得的，該知識(shí)圖編碼了藝術(shù)屬性之間的關(guān)系。在作者識(shí)別、類型分類或跨模態(tài)檢索等幾個(gè)藝術(shù)分析問題中，我們對(duì)兩個(gè)模型的詳盡評(píng)估表明，當(dāng)使用上下文感知嵌入時(shí)，藝術(shù)分類和檢索的性能分別提高了7.3%和37.24%。

Context-aware Human Motion Prediction

在機(jī)器人學(xué)和計(jì)算機(jī)視覺的許多應(yīng)用中，根據(jù)過去的觀察序列來預(yù)測(cè)人類運(yùn)動(dòng)的問題是核心。當(dāng)前的最新技術(shù)將這個(gè)問題描述為一個(gè)順序到順序的任務(wù)，在這個(gè)任務(wù)中，3D骨骼的歷史數(shù)據(jù)為預(yù)測(cè)未來運(yùn)動(dòng)的遞歸神經(jīng)網(wǎng)絡(luò)（RNN）提供數(shù)據(jù)，通常是1到2秒的順序。然而，迄今為止已經(jīng)被排除的一個(gè)方面是，人類的運(yùn)動(dòng)本質(zhì)上是由與環(huán)境中的物體和/或其他人類的相互作用驅(qū)動(dòng)的。在本文中，我們使用一個(gè)新的上下文感知運(yùn)動(dòng)預(yù)測(cè)架構(gòu)來探索這個(gè)場(chǎng)景。我們使用一個(gè)語(yǔ)義圖模型，其中節(jié)點(diǎn)參數(shù)化場(chǎng)景中的人和物體，以及它們相互作用的邊。這些相互作用是通過一個(gè)圖形注意層迭代學(xué)習(xí)的，由過去的觀察結(jié)果提供信息，現(xiàn)在包括物體和人體的運(yùn)動(dòng)。一旦這個(gè)語(yǔ)義圖被學(xué)習(xí)，我們就把它注入到一個(gè)標(biāo)準(zhǔn)的RNN中，以預(yù)測(cè)人/s和對(duì)象/s的未來移動(dòng)。我們考慮我們架構(gòu)的兩個(gè)變體，或者在將來更新它們時(shí)凍結(jié)上下文交互。對(duì)“全身人體運(yùn)動(dòng)數(shù)據(jù)庫(kù)”的全面評(píng)估表明，在這兩種情況下，我們的上下文感知網(wǎng)絡(luò)明顯優(yōu)于不考慮上下文信息的基線。

Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection

Spatial-Temporal Graph Convolutional Networks for Sign Language Recognition

用于手語(yǔ)識(shí)別的時(shí)空?qǐng)D卷積網(wǎng)絡(luò)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

GNN文獻(xiàn)

GNN文獻(xiàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

GNN文獻(xiàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av