論文地址：2303.03761.pdf (arxiv.org)

摘要

2D圖像理解是計(jì)算機(jī)視覺(jué)中的一個(gè)復(fù)雜問(wèn)題，但它是提供人類級(jí)別場(chǎng)景理解的關(guān)鍵。它不僅僅是識(shí)別圖像中的對(duì)象，而是試圖理解場(chǎng)景。解決這個(gè)問(wèn)題的解決方案構(gòu)成了一系列任務(wù)的基礎(chǔ)，包括圖像字幕、視覺(jué)問(wèn)答和圖像檢索。圖表提供了一種自然的方法來(lái)表示圖像中對(duì)象之間的關(guān)系排列，因此在近年來(lái)，圖神經(jīng)網(wǎng)絡(luò)(GNNs)已成為許多2D圖像理解流程的標(biāo)準(zhǔn)組件，特別是在VQA組任務(wù)中成為核心架構(gòu)組件。在本次調(diào)查中，我們回顧了這個(gè)快速發(fā)展的領(lǐng)域，提供了在2D圖像理解方法中使用的圖表類型分類、使用的GNN模型全面清單以及未來(lái)潛在發(fā)展的路線圖。據(jù)我們所知，這是第一份涵蓋以GNNs作為其主要架構(gòu)組件的圖像字幕、視覺(jué)問(wèn)答和圖像檢索技術(shù)的綜合性調(diào)查報(bào)告。

引言

近年來(lái)，圖神經(jīng)網(wǎng)絡(luò)(GNNs)的研究迎來(lái)了爆炸性增長(zhǎng)，每年都有一大批新的架構(gòu)在頂尖的機(jī)器學(xué)習(xí)會(huì)議和期刊上被提出[1]，[2]，[3]，[4]，[5]，[6]。GNNs在非歐幾里得領(lǐng)域的學(xué)習(xí)能力使它們成為分析具有結(jié)構(gòu)重要性的數(shù)據(jù)的強(qiáng)大工具，從化學(xué)信息學(xué)[7]到網(wǎng)絡(luò)分析[8]。事實(shí)上，這些模型也可以應(yīng)用于傳統(tǒng)上與圖形無(wú)關(guān)的問(wèn)題，例如在LiDAR點(diǎn)云中進(jìn)行3D對(duì)象檢測(cè)[9]和形狀分析[10]?；贕NNs的方法在解決2D圖像理解領(lǐng)域的視覺(jué)語(yǔ)言任務(wù)方面越來(lái)越受歡迎，類似于其他領(lǐng)域[11]，[12]，[13]，[14]，[15]。雖然這個(gè)領(lǐng)域的進(jìn)展在[16]中得到了討論，但它是一個(gè)廣泛的調(diào)查。我們的工作專注于視覺(jué)語(yǔ)言，因此更廣泛地涵蓋了這些主題。我們認(rèn)為2D圖像理解是讓計(jì)算機(jī)以與人類相等或更高水平理解二維圖像的高層挑戰(zhàn)。能夠?qū)崿F(xiàn)這一點(diǎn)的模型應(yīng)該能夠推理圖像以描述它（圖像字幕）、解釋其方面（視覺(jué)問(wèn)答）或找到相似的圖像（圖像檢索）。這些都是人類可以相對(duì)容易完成的任務(wù)，但對(duì)于深度學(xué)習(xí)模型來(lái)說(shuō)非常困難，并且需要大量的數(shù)據(jù)。這些任務(wù)也屬于視覺(jué)語(yǔ)言問(wèn)題的范疇，因?yàn)樗鼈円竽Ｐ蛯?duì)圖像像素和一種語(yǔ)言（通常是英語(yǔ)）都有理解，模型可以用這種語(yǔ)言表達(dá)其理解。雖然已經(jīng)有大量的技術(shù)被應(yīng)用于這些問(wèn)題[17]，[18]，[19]，[20]，[21]，[22]，[23]，但本調(diào)查重點(diǎn)討論基于圖形的方法。有多種圖表適用于此，但最常用和理解的是語(yǔ)義場(chǎng)景圖[24]，[25]。該圖由表示視覺(jué)對(duì)象的節(jié)點(diǎn)和表示它們之間語(yǔ)義關(guān)系的邊構(gòu)成。語(yǔ)義圖以及更多的圖形類型將在第II-C節(jié)中討論。

除了對(duì)2D圖像理解任務(wù)中使用的圖形類型進(jìn)行分類之外，本文還提供了這些方法所需的必要概述。我們涵蓋了三個(gè)主要任務(wù)，并概述了流行的GNN技術(shù)以及未來(lái)GNN工作的方向性見(jiàn)解。在本文的討論部分，我們認(rèn)為越來(lái)越受歡迎的Transformer架構(gòu)[26]實(shí)際上是GNN的一種特殊情況[27]。我們進(jìn)一步闡述這一觀點(diǎn)，認(rèn)為在一系列任務(wù)中，GNN可能會(huì)提供更好的歸納偏差，因此不應(yīng)忽視GNN。我們的主要貢獻(xiàn)是：1)對(duì)2D圖像理解任務(wù)中使用的圖形類型進(jìn)行分類；2)對(duì)常見(jiàn)2D圖像理解任務(wù)的GNN方法進(jìn)行全面調(diào)查；3)為社區(qū)探索潛在的未來(lái)發(fā)展提供路線圖。本文的其余部分如下所述：第II節(jié)給出了所討論任務(wù)及其相應(yīng)數(shù)據(jù)集的分類法，以及介紹了整個(gè)過(guò)程中使用的不同圖形類型的概述。第III節(jié)概述了常用的GNN體系結(jié)構(gòu)。它還簡(jiǎn)要提到了GNN的當(dāng)前和未來(lái)研究方向，并標(biāo)注了適當(dāng)?shù)恼{(diào)查。本文的主體由第IV、V和VI節(jié)組成，分別詳細(xì)介紹了基于GNN的圖像字幕、VQA和圖像檢索方法。然后，我們用三部分討論總結(jié)了本文，其中第VII-A部分討論了GNN盡管Transformer架構(gòu)迅速被采用，仍然具有的優(yōu)勢(shì)。這之后是第VII-B部分，將潛在擴(kuò)散和圖像生成的新興領(lǐng)域與圖像字幕聯(lián)系起來(lái)。最后，第VII-C節(jié)總結(jié)了本文，并提供了未來(lái)工作的潛在方向。

背景和定義

本節(jié)將概述了解本調(diào)查所需的背景。我們首先簡(jiǎn)要定義了通用的圖，然后概述了該領(lǐng)域的分類法。最后，我們概述了各種不同類型的圖。

2D 視覺(jué)語(yǔ)言任務(wù)分類法

本文遵循了[28]、[29]、[30]、[31]的分類法，將它們結(jié)合起來(lái)以更全面地了解2D視覺(jué)語(yǔ)言任務(wù)（見(jiàn)圖1）。本節(jié)將簡(jiǎn)要概述現(xiàn)有的分類法，并強(qiáng)調(diào)本調(diào)查所關(guān)注的部分。同時(shí)，我們還概述了在本文中討論的各種任務(wù)所使用的主要數(shù)據(jù)集，這些數(shù)據(jù)集在表格I中進(jìn)行了總結(jié)。雖然每個(gè)視覺(jué)語(yǔ)言任務(wù)都有其獨(dú)特的數(shù)據(jù)集，但它們都由Visual Genome [32]統(tǒng)一，這是一個(gè)廣泛的數(shù)據(jù)集，為一系列視覺(jué)語(yǔ)言任務(wù)提供了基礎(chǔ)的事實(shí)。作為最通用的數(shù)據(jù)集，它包含33,877個(gè)對(duì)象類別和68,111個(gè)屬性類別。在發(fā)布時(shí)，這是包含圖像描述、對(duì)象、屬性、關(guān)系和問(wèn)題答案對(duì)的最大且最密集的數(shù)據(jù)集。此外，Visual Genome還包含區(qū)域圖、場(chǎng)景圖和問(wèn)題答案對(duì)。因此，它是一個(gè)非常廣泛的數(shù)據(jù)集，廣泛應(yīng)用于視覺(jué)認(rèn)知任務(wù)，例如場(chǎng)景圖生成[40]和VQA [41]。
對(duì)于圖像字幕，我們遵循[28]的三種主要方法：1）基于檢索的字幕，2）基于模板的字幕，和3）基于深度學(xué)習(xí)的字幕?；跈z索的字幕建立在每個(gè)圖像都存在字幕并需要從現(xiàn)有字幕庫(kù)中檢索出的假設(shè)之上。這是早期圖像字幕方法[17]的基礎(chǔ)，并且不需要深度學(xué)習(xí)即可產(chǎn)生良好的結(jié)果。然而，并非所有圖像都可能有適當(dāng)?shù)淖帜?。如果字幕是通用的，它們只能描述圖像的某些方面，可能會(huì)忽略其最重要的特征。相比之下，基于模板的字幕[42]使用預(yù)定義的字幕格式，并使用物體檢測(cè)來(lái)填充空白部分。這種方法適用于生成一致的字幕，但可能會(huì)導(dǎo)致非自然且明顯是由機(jī)器生成的字幕?，F(xiàn)代圖像字幕任務(wù)的方法基于深度學(xué)習(xí)模型。早期的工作專注于使用CNN編碼器饋送基于RNN的解碼器[43]，然而更近期的深度學(xué)習(xí)方法已經(jīng)發(fā)展出了包括GNNs [25]，[44]和Transformers [45]，[46]在內(nèi)的各種技術(shù)。在本次調(diào)查中，我們專門關(guān)注基于深度學(xué)習(xí)的圖像字幕方法，并關(guān)注基于圖形的方法。深度學(xué)習(xí)方法通常在包含由五個(gè)人生成的字幕陪伴的一組圖像的COCO [33]或Flickr30k [34]上進(jìn)行訓(xùn)練。

VQA的分類通常是通過(guò)各個(gè)任務(wù)使用的數(shù)據(jù)集的視角來(lái)定義的[29]，[30]。在這里，我們重點(diǎn)關(guān)注以下三個(gè)VQA任務(wù)：1）標(biāo)準(zhǔn)的VQA任務(wù)，即回答關(guān)于圖像的問(wèn)題；2）基于事實(shí)的VQA（FVQA）任務(wù)，即回答需要外部知識(shí)才能回答的問(wèn)題；3）文本-VQA，即回答需要模型閱讀場(chǎng)景中的文本并將其與視覺(jué)數(shù)據(jù)相結(jié)合的問(wèn)題。每個(gè)不同的VQA任務(wù)都有自己專業(yè)化的數(shù)據(jù)集。最初的VQA數(shù)據(jù)集[35]和隨后更新的VQA 2.0 [47]數(shù)據(jù)集解決了根據(jù)圖像中的視覺(jué)信息回答問(wèn)題的原始任務(wù)。FVQA數(shù)據(jù)集[36]使用了來(lái)自ImageNet [48]和COCO [33]的圖像，以及來(lái)自DBPedia [49]、ConceptNet [50]和WebChild [51]的事實(shí)。使用各種模型從這些圖像中提取了三種形式的視覺(jué)概念。這些視覺(jué)概念包括對(duì)象（在圖像中識(shí)別的物品）、場(chǎng)景（例如房間標(biāo)簽的場(chǎng)景級(jí)特征）和動(dòng)作。問(wèn)題-答案對(duì)由人類注釋者生成，他們選擇了一個(gè)視覺(jué)概念和一個(gè)相應(yīng)的事實(shí)三元組，用它來(lái)生成一個(gè)問(wèn)題。最后，文本-KVQA數(shù)據(jù)集[39]是通過(guò)匯編來(lái)自Kaggle電影海報(bào)挑戰(zhàn)[52]和Google圖像搜索結(jié)果的圖像，其中結(jié)合了品牌名稱和后綴（如“商店”或“建筑物”）而構(gòu)建的。然后，將這些圖像交給人類注釋者，他們刪除了不含品牌名稱文本的圖像。結(jié)果是一個(gè)包含三個(gè)組：書籍、電影和場(chǎng)景的數(shù)據(jù)集，共有257K張圖像，伴隨著130萬(wàn)個(gè)問(wèn)題-答案對(duì)。每個(gè)圖像組都從相關(guān)來(lái)源獲得其自己的三元組知識(shí)庫(kù)：WikiData [53]、IMBd和[52]。圖像檢索涉及多個(gè)任務(wù)，所有這些任務(wù)都在現(xiàn)代方法中使用深度學(xué)習(xí)。我們遵循Alexander等人的分類法[31]，并解決以下子任務(wù)：基于文本的圖像檢索、基于內(nèi)容的圖像檢索、基于草圖的檢索、基于語(yǔ)義的檢索和基于注釋的檢索。用于圖像檢索的數(shù)據(jù)集數(shù)量龐大，社區(qū)尚未像圖像字幕使用COCO [33]那樣圍繞一個(gè)單一數(shù)據(jù)集。這在進(jìn)行系統(tǒng)之間的準(zhǔn)確比較時(shí)會(huì)帶來(lái)挑戰(zhàn)，因?yàn)椴煌瑪?shù)據(jù)集所面臨的挑戰(zhàn)是不同的，這使得跨數(shù)據(jù)集的直接比較變得更加復(fù)雜。雖然存在特定于圖像檢索的數(shù)據(jù)集[54]，但也有一些論文[55]，[56]，[57]使用了圖像字幕數(shù)據(jù)集[33]，[34]，這表明存在各種各樣的數(shù)據(jù)集用于圖像檢索。

基本圖論概念

無(wú)向圖。我們定義一個(gè)無(wú)向圖 $G$ 為一個(gè)元組集合 $(V,E)$ ，即 $G=(V,E)$ 。集合 $V$ 包含 $n$ 個(gè)頂點(diǎn)（有時(shí)稱為節(jié)點(diǎn)），它們由集合 $E$ 中的邊連接，即如果 $v∈V$ 和 $u∈V$ 由一條邊連接，則 $e_{v,u}∈E$ 。對(duì)于無(wú)向圖，我們有 $e_{v,u}=e_{u,v}$ 。

有向圖。有向圖是一種圖，其中 $e_{v,u}$ 的存在并不意味著 $e_{u,v}$ 的存在。設(shè) $A$ 是 $n×n$ 的二元鄰接矩陣，使得如果 $e_{v,u}∈E$ ，則 $A_{v,u}=1$ 。然后就可以得到對(duì)于有向（無(wú)向）圖， $A$ 是不對(duì)稱的（對(duì)稱的）。更一般地說(shuō)， $A$ 可以是一個(gè)實(shí)值矩陣，其中 $A_{v,u}$ 的值可以解釋為 $v$ 和 $u$ 之間連接的強(qiáng)度。

鄰域。節(jié)點(diǎn) $v∈V$ 的鄰域 $N(v)$ 是與 $v$ 相連的 $V$ 中的節(jié)點(diǎn)的子集。鄰居 $u$ 可以直接連接到 $v$ ，即 $(v,u)∈E$ ，或者可以通過(guò)從 $v$ 到 $u$ 遍歷 $r$ 個(gè)邊間接連接。請(qǐng)注意，某些定義將 $v$ 本身包括在鄰域中。

完全圖。完全圖是一個(gè)（有向或無(wú)向的）圖，在該圖中，每個(gè)節(jié)點(diǎn)與集合 $V$ 中的每個(gè)其他節(jié)點(diǎn)都有一條邊相連。因此，完全圖是給定節(jié)點(diǎn)數(shù)的最大邊數(shù)的圖。多部分圖。

多部分圖（也稱為 $K$ 部分圖）是一種圖，其中節(jié)點(diǎn)可以分為 $K$ 個(gè)不同的集合。對(duì)于場(chǎng)景理解任務(wù)，這允許使用圖表示，其中一個(gè)節(jié)點(diǎn)集表示對(duì)象，另一個(gè)節(jié)點(diǎn)集表示對(duì)象之間的關(guān)系。

多模態(tài)圖。多模態(tài)圖是一種具有來(lái)自不同模態(tài)的節(jié)點(diǎn)特征的圖。這種方法通常在VQA中使用，其中混合了圖像和文本模態(tài)。多模態(tài)圖使得視覺(jué)特征與詞嵌入在圖中共存。

2D視覺(jué)語(yǔ)言任務(wù)中常見(jiàn)的圖類型

本節(jié)組織了在調(diào)查中討論的所有三個(gè)任務(wù)中使用的各種圖類型。一些圖，如語(yǔ)義和空間圖，在所有任務(wù)中都被使用[25]，[41]，[56]，而其他一些則更具領(lǐng)域特定性，例如知識(shí)圖[58]，[39]。圖2顯示了來(lái)自COCO數(shù)據(jù)集[33]的樣本圖像以及可用于描述它的各種類型的圖形。本節(jié)連同該圖形組織，以便將表示單個(gè)圖像的圖形和表示數(shù)據(jù)集部分的圖形分組在一起。
語(yǔ)義圖。有時(shí)被稱為場(chǎng)景圖，語(yǔ)義圖（如圖2c所示）是一種封裝場(chǎng)景內(nèi)視覺(jué)對(duì)象之間語(yǔ)義關(guān)系的圖形。在文獻(xiàn)中，“語(yǔ)義圖”和“場(chǎng)景圖”這些術(shù)語(yǔ)有時(shí)是可以互換使用的，具體取決于論文。但是，在本次調(diào)查中，我們使用“語(yǔ)義圖”這個(gè)術(shù)語(yǔ)，因?yàn)橛泻芏喾椒梢詫⒁曈X(jué)場(chǎng)景描述為圖形，而“語(yǔ)義圖”標(biāo)簽更精確地描述了圖形所代表的內(nèi)容。語(yǔ)義圖有不同的類型。一種方法是定義一個(gè)有向圖，其中節(jié)點(diǎn)表示通過(guò)像Faster-RCNN[59]這樣的目標(biāo)檢測(cè)器提取的視覺(jué)對(duì)象，而邊表示它們之間的語(yǔ)義關(guān)系。這是Yao等人[25]的方法，在這種方法中，使用Visual Genome [32]等數(shù)據(jù)集，模型預(yù)測(cè)語(yǔ)義關(guān)系以形成圖中的邊。另一方面，語(yǔ)義圖可以被看作是多部分圖[60]，[61]，[44]，[62]（如圖2d所示），其中屬性節(jié)點(diǎn)描述它們連接到的對(duì)象節(jié)點(diǎn)。他們還通過(guò)使用節(jié)點(diǎn)而不是邊特征來(lái)改變關(guān)系的表示方式。這產(chǎn)生了一個(gè)語(yǔ)義圖，其具有三種節(jié)點(diǎn)類型：視覺(jué)對(duì)象，對(duì)象屬性和對(duì)象間關(guān)系。這個(gè)定義遵循了由Johnson等人[24]定義的“場(chǎng)景圖”的定義。最后，還存在另一種形式的語(yǔ)義圖，即文本語(yǔ)義圖[44]，[63]（如圖2f所示）。與視覺(jué)語(yǔ)義圖不同，文本語(yǔ)義圖不是從圖像本身生成的，而是從其標(biāo)題生成的。具體來(lái)說(shuō)，標(biāo)題通過(guò)斯坦福依存解析器[64]進(jìn)行解析，這是一種廣泛使用的[65]，[66]概率句子解析器。給定標(biāo)題，解析器將返回其語(yǔ)法結(jié)構(gòu)，標(biāo)識(shí)其中的組件，例如名詞、動(dòng)詞和形容詞，并標(biāo)記它們之間的關(guān)系。然后將其從樹(shù)形結(jié)構(gòu)修改為圖形，遵循[67]中概述的技術(shù)。

空間圖。Yao等人[25]將空間圖（圖2g）定義為表示物體之間空間關(guān)系的圖。由物體探測(cè)器檢測(cè)到的視覺(jué)對(duì)象形成節(jié)點(diǎn)，節(jié)點(diǎn)之間的邊表示兩個(gè)對(duì)象之間可能發(fā)生的11種預(yù)定義空間關(guān)系之一。其中包括內(nèi)部（標(biāo)記為“1”），覆蓋（標(biāo)記為“2”），重疊（標(biāo)記為“3”）以及基于兩個(gè)對(duì)象的質(zhì)心之間的角度的八個(gè)位置關(guān)系（標(biāo)記為“4”-“11”）。這些圖是有方向的，但并不總是完整的，因?yàn)橛行┣闆r下兩個(gè)物體之間的空間關(guān)系較弱，因此在空間圖中沒(méi)有通過(guò)邊連接它們。Guo等人[61]定義了一種類似的圖形，稱為幾何圖形。它被定義為一個(gè)無(wú)向圖，編碼物體之間的相對(duì)空間位置，包括重疊和相對(duì)距離，這些距離滿足一定的閾值。

分層空間圖。這些圖是在空間圖的基礎(chǔ)上建立的，但節(jié)點(diǎn)之間的關(guān)系側(cè)重于圖像中檢測(cè)到的對(duì)象之間空間關(guān)系的層次結(jié)構(gòu)。Yao等人提出使用樹(shù)（即每對(duì)節(jié)點(diǎn)由一條路徑連接的圖）來(lái)定義分層圖像表示。首先使用 Faster-RCNN 將圖像（I）分成區(qū)域 $（R = {r_i}^K_{i=1}）$ ，每個(gè)區(qū)域進(jìn)一步分成實(shí)例分割 $（M = {m_i}^K_{i=1}）$ 。這給出了一個(gè)三層樹(shù)形結(jié)構(gòu) $（T =（I，R，M，E_{tree}）$ ，其中 $E_{tree}$ 是連接邊的集合），用于表示圖像，如圖2e所示。He等人使用分層空間圖，其中關(guān)系代表“父母”、“孩子”和“鄰居”關(guān)系，具體取決于邊界框的交集與聯(lián)合的比例。

相似性圖。Kan等人提出的相似性圖（圖2h）是通過(guò)計(jì)算由Faster-RCNN [59]提取的兩個(gè)視覺(jué)特征的點(diǎn)積來(lái)生成的。然后使用這些點(diǎn)積形成鄰接矩陣A的值，因?yàn)樵摬僮鞑蹲絻蓚€(gè)向量之間的相似性，點(diǎn)積越高，兩個(gè)向量就越接近。Faster-RCNN提取一組n個(gè)視覺(jué)特征，其中每個(gè)特征 $x(v)$ 與一個(gè)節(jié)點(diǎn) $v$ 相關(guān)聯(lián)，而兩個(gè)節(jié)點(diǎn) $v$ 和 $u$ 之間的邊的值由 $A_{u,v} = σ（x(v)^TMx(u))$ 給出，其中 $σ(·)$ 是非線性函數(shù)， $M$ 是學(xué)習(xí)的權(quán)重矩陣。 [69]的作者建議，以這種方式生成圖可以通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式發(fā)現(xiàn)對(duì)象之間的關(guān)系，而不是依賴于像Visual Genome [32]這樣的數(shù)據(jù)集上訓(xùn)練的模型。

圖像圖/ K-最近鄰圖。Dong等人在他們的2021年圖像字幕工作中，通過(guò)對(duì)圖像進(jìn)行Faster-RCNN [59]的對(duì)象向量求平均值，將圖像轉(zhuǎn)換為潛在的特征空間。然后，在歐幾里得距離的K個(gè)最接近的訓(xùn)練數(shù)據(jù)或搜索空間中，這些圖像被轉(zhuǎn)換成一個(gè)完整的無(wú)向圖，如圖2i所示。這與Liu等人 [71]使用的K最近鄰圖的方法類似。

主題圖。Kan等人提出的主題圖是一個(gè)無(wú)向圖，其中節(jié)點(diǎn)表示GPU-DMM [72]提取的主題。主題是表示整個(gè)標(biāo)題集中共享知識(shí)的潛在特征。將它們建模成一個(gè)圖（如圖2j所示），通過(guò)計(jì)算兩個(gè)節(jié)點(diǎn)的點(diǎn)積得到邊，可以對(duì)標(biāo)題中表示的知識(shí)進(jìn)行建模。

區(qū)域相鄰圖。在[73]中定義的區(qū)域相鄰圖使用超像素分割。超像素形成圖的節(jié)點(diǎn)，并添加邊以連接相鄰區(qū)域?qū)ΑＨ缓?，將邊加?quán)以表示兩個(gè)相鄰區(qū)域的兼容性。

知識(shí)圖。知識(shí)圖或事實(shí)圖是信息的基于圖的表示形式。雖然這些圖的結(jié)構(gòu)沒(méi)有達(dá)成共識(shí)[74]，但它們通常采用三元組的形式。它們?cè)诟鞣N任務(wù)中被用于提供進(jìn)行“推理”所需的信息。因此，知識(shí)圖使得FVQA任務(wù)成為可能。

圖神經(jīng)網(wǎng)絡(luò)綜述

在過(guò)去的幾年中，文獻(xiàn)中提出了大量的圖神經(jīng)網(wǎng)絡(luò)架構(gòu)。Wu等人[75]提出了一個(gè)包含四個(gè)不同組的分類法：循環(huán)GNN，卷積GNN，自編碼器GNN和時(shí)空GNN。本文討論的應(yīng)用主要利用卷積GNN，其他架構(gòu)的綜合概述可參考[75]。GNN，特別是傳統(tǒng)的圖卷積網(wǎng)絡(luò)，具有深厚的關(guān)系歸納偏差[27]。它們基于同質(zhì)性的假設(shè)，即相連的節(jié)點(diǎn)相似。

圖卷積網(wǎng)絡(luò)（GCNs） 一種常見(jiàn)的卷積GNN架構(gòu)是由Gilmer等人提出的消息傳遞神經(jīng)網(wǎng)絡(luò)（MPNNs）。雖然這種架構(gòu)已經(jīng)被證明具有局限性[76]，但它構(gòu)成了GNN的一個(gè)很好的抽象。Gilmer等人將MPNNs描述為由消息函數(shù)、更新函數(shù)和讀出函數(shù)組成。這些函數(shù)將根據(jù)網(wǎng)絡(luò)的應(yīng)用而變化，但是是可學(xué)習(xí)的、可微分的和置換不變的。消息和更新函數(shù)將運(yùn)行T個(gè)時(shí)間步，傳遞圖中連接節(jié)點(diǎn)之間的消息。這些用于更新節(jié)點(diǎn)的隱藏特征向量，然后用于更新節(jié)點(diǎn)特征向量，進(jìn)而在讀取函數(shù)中使用。
消息定義如下：
$\bar{m}(t+1)v = \sum{u\in N(v)}M^t(\bar{h}(t)_v, \bar{h}(t)u, \bar{e}{v,u})$

其中，下一個(gè)時(shí)間步長(zhǎng)的節(jié)點(diǎn)v的消息 $\bar{m}(t+1)_v$ 由其當(dāng)前隱藏狀態(tài) $\bar{h}(t)_v$ 與其鄰居 $\bar{h}(t)u$ 以及任何邊特征 $\bar{e}{v,u}$ 在多層感知器（MLP）Mt(·)中組合而成。由于消息是所有連接節(jié)點(diǎn)的聚合，因此求和是對(duì)連接到節(jié)點(diǎn)u的節(jié)點(diǎn)u ∈ N(v)即v的鄰域進(jìn)行的。然后，將這些消息用于通過(guò)組合節(jié)點(diǎn)當(dāng)前狀態(tài)和消息在MLP Ut中更新隱藏向量。

$\bar{h}(t+1)_v = U_t(\bar{h}_v^t, \bar{m}(t+1)_v)$

一旦消息傳遞階段運(yùn)行了T個(gè)時(shí)間步長(zhǎng)，就會(huì)進(jìn)行讀取階段，使用讀取函數(shù)R(·)。此階段利用考慮圖上節(jié)點(diǎn)的更新特征向量的MLP進(jìn)行預(yù)測(cè)，定義為：

$\hat{y} = R({\bar{h}^T_v | \bar{v} \in G})$

為了使GCN架構(gòu)適用于大型圖形，GraphSAGE [77]架構(gòu)改變了消息函數(shù)。不再?gòu)墓?jié)點(diǎn)的整個(gè)鄰域中獲取消息，而是使用隨機(jī)樣本。這減少了需要處理的消息數(shù)量，從而導(dǎo)致該架構(gòu)在大型圖形上工作良好。

門控圖神經(jīng)網(wǎng)絡(luò) 門控圖神經(jīng)網(wǎng)絡(luò)（GGNN）[78]的核心思想是將消息傳遞架構(gòu)（公式2）中的更新函數(shù)替換為門控循環(huán)單元（GRU）[79]。GRU是一種循環(huán)神經(jīng)網(wǎng)絡(luò)，具有更新和重置門，控制哪些數(shù)據(jù)可以流經(jīng)網(wǎng)絡(luò)（并被保留），哪些數(shù)據(jù)不能（因此被遺忘）。

$\overline{h}(t+1)_v = GRU(\overline{h}(t)v, \sum{w\in N(v)}W\overline{h}(t)_w)$

GGNN還使用可學(xué)習(xí)的權(quán)重矩陣替換公式1中的消息函數(shù)。使用GRU和反向傳播通過(guò)時(shí)間使得GGNN能夠在序列數(shù)據(jù)上操作。但是，由于架構(gòu)的循環(huán)性質(zhì)，對(duì)于大型圖形運(yùn)行GGNN可能會(huì)變得不可行。

Graph Attention Networks（GATs） 源自于流行的Transformer架構(gòu)中的多頭注意力機(jī)制[26]。GATs將常見(jiàn)的GCN擴(kuò)展為包括這種注意力屬性。使用一個(gè)注意力函數(shù)，通常是由一個(gè)MLP模型建模，這個(gè)架構(gòu)計(jì)算兩個(gè)節(jié)點(diǎn)之間的注意權(quán)重。這個(gè)過(guò)程使用K個(gè)注意頭并行重復(fù)K次。然后對(duì)注意力得分進(jìn)行平均以得到最終的權(quán)重。

自注意力是由函數(shù) $a(\textbf{h}_v^t, \textbf{h}_w^t)$ 計(jì)算的（通常是一個(gè) MLP），用于關(guān)注一個(gè)節(jié)點(diǎn)及其鄰居。一旦圖中每個(gè)節(jié)點(diǎn)對(duì)的注意力都被計(jì)算出來(lái)，得分就通過(guò) softmax 函數(shù)傳遞，以給出規(guī)范化的注意力系數(shù)。然后，通過(guò)在 K 個(gè)不同的注意頭上重復(fù)此過(guò)程，并使用不同的初始化權(quán)重，將其擴(kuò)展到多頭注意力。最終節(jié)點(diǎn)表示通過(guò)將 K 個(gè)注意頭連接或平均（表示為 ‖）在一起實(shí)現(xiàn)。

公式

圖形內(nèi)存網(wǎng)絡(luò) 近年來(lái)，出現(xiàn)了圖形內(nèi)存網(wǎng)絡(luò)的發(fā)展，這些網(wǎng)絡(luò)可以概念化地認(rèn)為是具有內(nèi)部和外部記憶的模型。當(dāng)有多個(gè)圖形重疊相同的空間信息時(shí)，例如在[81]中，使用某種形式的外部存儲(chǔ)器可以允許對(duì)節(jié)點(diǎn)更新進(jìn)行聚合，并且圖形經(jīng)歷了消息傳遞。這本質(zhì)上允許以超越更簡(jiǎn)單的匯集操作的方式組合來(lái)自多個(gè)圖形的特征。在Khademi [81]的情況下，通過(guò)相同的圖像構(gòu)建了兩個(gè)圖形，但可能具有不同的節(jié)點(diǎn)。這些圖形使用GGNN進(jìn)行更新。使用具有注意機(jī)制的神經(jīng)網(wǎng)絡(luò)構(gòu)建外部空間存儲(chǔ)器以匯總圖形更新過(guò)程中的信息。空間記憶的最終狀態(tài)用于執(zhí)行最終任務(wù)。

現(xiàn)代圖形神經(jīng)網(wǎng)絡(luò)架構(gòu) 近年來(lái)，消息傳遞GNN的限制變得越來(lái)越明顯，從它們?cè)诰W(wǎng)絡(luò)深度增加時(shí)過(guò)度平滑輸入特征的傾向[82]，到它們?cè)诋愘|(zhì)性設(shè)置[83]中的不令人滿意的性能，即，當(dāng)輸入圖形中相鄰的節(jié)點(diǎn)不相似時(shí)。此外，基于消息傳遞機(jī)制的GNN的表達(dá)能力被證明受到著名的WeisfeilerLehman同構(gòu)測(cè)試的限制[76]，這意味著它們生成不同結(jié)構(gòu)的輸入圖形的不同表示能力存在固有的限制。受到想要克服這些問(wèn)題的愿望的推動(dòng)，研究人員現(xiàn)在開(kāi)始探索遠(yuǎn)離標(biāo)準(zhǔn)消息傳遞體系結(jié)構(gòu)的替代模型。在這方面的努力包括許多其他內(nèi)容，例如高階消息傳遞架構(gòu)[84]，單元復(fù)合網(wǎng)絡(luò)[85]，基于擴(kuò)散過(guò)程的網(wǎng)絡(luò)[86]，[2]，[83]。據(jù)我們所知，尚未探索將這些體系結(jié)構(gòu)應(yīng)用于本文中討論的2D圖像理解任務(wù)。因此，我們將讀者引用參考文獻(xiàn)中的文章，以獲得有關(guān)各自體系結(jié)構(gòu)的詳細(xì)信息。

圖像字幕

圖像字幕生成是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，旨在產(chǎn)生自然語(yǔ)言描述圖像的文本。除了是一個(gè)有趣的技術(shù)挑戰(zhàn)外，它還提供了開(kāi)發(fā)針對(duì)嚴(yán)重視力受損（正式稱為“盲”）和視力受損用戶（正式稱為“視力受損”）的輔助技術(shù)的機(jī)會(huì)。此外，它在從圖像索引到監(jiān)視等問(wèn)題上都有應(yīng)用。圖像字幕生成技術(shù)有三種形式：1）基于檢索的字幕生成，其中從一組現(xiàn)有字幕中檢索出一個(gè)字幕；2）基于模板的字幕生成，其中使用從圖像中提取的信息填充預(yù)先存在的模板；3）基于深度學(xué)習(xí)的圖像字幕生成，其中神經(jīng)網(wǎng)絡(luò)的任務(wù)是從輸入圖像生成字幕。我們提議細(xì)化此分類法，以區(qū)分基于圖神經(jīng)網(wǎng)絡(luò)的方法和傳統(tǒng)的基于深度學(xué)習(xí)的圖像字幕生成。下面的章節(jié)詳細(xì)介紹了最近幾年中一些基于圖神經(jīng)網(wǎng)絡(luò)的圖像字幕生成方法。圖3說(shuō)明了通用的基于圖神經(jīng)網(wǎng)絡(luò)的圖像字幕生成架構(gòu)的結(jié)構(gòu)。
GNN-based方法的圖像字幕生成都采用了深度學(xué)習(xí)圖像字幕生成技術(shù)中常用的傳統(tǒng)編碼器-解碼器方法。首先對(duì)圖像進(jìn)行物體檢測(cè)，其輸出被用于創(chuàng)建編碼。這些編碼然后經(jīng)過(guò)解碼，傳統(tǒng)上使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)，生成字幕。通過(guò)將GNN結(jié)構(gòu)加入，研究人員能夠通過(guò)將空間和語(yǔ)義信息融入嵌入中來(lái)增強(qiáng)圖像的編碼表示。隨著圖像字幕任務(wù)的發(fā)展，用于評(píng)估提出架構(gòu)性能的評(píng)估指標(biāo)也在不斷發(fā)展。最初，圖像字幕主要依賴于機(jī)器翻譯評(píng)估技術(shù)，如BLEU [88]、ROUGE [89]和METEOR [90]，因?yàn)闆](méi)有專門的圖像字幕評(píng)估指標(biāo)。然而，隨著CIDEr [91]和SPICE [67]的引入，情況發(fā)生了改變。性能指標(biāo)詳見(jiàn)表II。第一個(gè)使用GNN來(lái)改進(jìn)圖像字幕的架構(gòu)是由Yao等人[25]提出的。在他們的工作中，他們建議使用GCN來(lái)改善圖像中物體的特征嵌入。首先，他們將更快的RCNN物體檢測(cè)器 [59]應(yīng)用于圖像，以提取表示物體的特征向量。這些特征向量然后用于創(chuàng)建兩個(gè)圖：一個(gè)雙向空間圖編碼對(duì)象之間的空間關(guān)系，一個(gè)有向語(yǔ)義圖編碼對(duì)象之間的語(yǔ)義關(guān)系。然后在兩個(gè)圖上應(yīng)用GCN，增強(qiáng)圖形的特征向量經(jīng)過(guò)均值池化。最后由LSTM解碼生成字幕。由于整個(gè)圖被用于生成字幕，可能導(dǎo)致稠密圖中包含冗余或低價(jià)值信息的情況出現(xiàn)。
Zhong等人[60]專注于語(yǔ)義場(chǎng)景圖，并解決了包含大量檢測(cè)對(duì)象的場(chǎng)景中應(yīng)包括哪些節(jié)點(diǎn)和邊緣的問(wèn)題。由于語(yǔ)義場(chǎng)景圖可以變得相對(duì)較大，這對(duì)于包含大量檢測(cè)對(duì)象的場(chǎng)景是具有挑戰(zhàn)性的。該問(wèn)題通過(guò)將語(yǔ)義圖分解成覆蓋圖像各個(gè)部分的各種子圖來(lái)解決。然后使用訓(xùn)練的函數(shù)對(duì)它們進(jìn)行打分，以確定子圖與參考語(yǔ)句的相似度。這使得可以從主場(chǎng)景圖中選擇生成有用標(biāo)題的子圖。起始的語(yǔ)義圖是由MotifNet[92]（常見(jiàn)的現(xiàn)成語(yǔ)義圖生成器）生成的。Zhong等人[60]使用GCN來(lái)匯總所提出子圖的鄰域信息。與Yao等人不同，[60]僅使用語(yǔ)義圖。他們關(guān)注語(yǔ)言和語(yǔ)義圖之間的聯(lián)系，而不使用空間信息。Song等人[93]的研究也利用了語(yǔ)義圖，并研究了如何利用隱式和顯式特征生成準(zhǔn)確和高質(zhì)量的圖像標(biāo)題。作者將隱式特征定義為表示對(duì)象之間全局交互的特征，將顯式特征定義為在語(yǔ)義圖上定義的特征。對(duì)于后者，[93]僅使用單個(gè)語(yǔ)義圖，但不像其他作品[60]中那樣直接通過(guò)MotifNet[92]預(yù)測(cè)圖。它的構(gòu)建始于空間圖。在目標(biāo)檢測(cè)之后，在對(duì)象之間生成一個(gè)全連接有向圖（其中節(jié)點(diǎn)由對(duì)象特征向量表示）。然后在兩個(gè)步驟中刪除該圖的邊緣。首先，刪除在重疊區(qū)域（以交集/聯(lián)合度量）為零且l2距離小于任何對(duì)象的邊界框的最長(zhǎng)邊的對(duì)象之間的邊緣。其余的邊緣用于確定哪些對(duì)象對(duì)的關(guān)系被MotifNet[92]檢測(cè)到。保留概率足夠高的關(guān)系，而其他關(guān)系則被刪除。這會(huì)產(chǎn)生一個(gè)語(yǔ)義圖，間接包含了空間信息，超越了[60]的語(yǔ)義圖。然后，GGNN處理最終的圖，其輸出是顯式特征的表示。隱式特征由Transformer編碼器[26]生成。整個(gè)圖像以及檢測(cè)到的對(duì)象邊界框中的區(qū)域都被編碼。然后將這些特征與顯式特征一起作為輸入，輸入到LSTM語(yǔ)言解碼器中，以生成最終的標(biāo)題。這項(xiàng)工作展示了在GNN與Transformer相結(jié)合的情況下，利用它們不同的歸納偏置來(lái)最佳地建模不同的交互作用是可能取得成功的（見(jiàn)表III）。然而，隱式和顯式關(guān)系仍局限于單個(gè)圖像。進(jìn)一步的工作可以考慮在整個(gè)數(shù)據(jù)集中某些關(guān)系的頻率。
Guo等人[61]與Yao等人[25]的工作非常相似，利用了包含語(yǔ)義和空間圖的雙重圖結(jié)構(gòu)。然而，他們觀察到圖像可以由一組視覺(jué)語(yǔ)義單元(VSU)向量表示，這些向量表示一個(gè)對(duì)象、其屬性和其關(guān)系。這些VSU被組合成一個(gè)語(yǔ)義圖，將關(guān)系表示為節(jié)點(diǎn)而不是邊特征，并添加連接到對(duì)象的屬性節(jié)點(diǎn)，因此使其成為多部分圖。這樣做使得圖形更接近于生成的標(biāo)題，因?yàn)閷?duì)象映射到名詞，關(guān)系映射到動(dòng)詞和介詞，最后屬性映射到形容詞。作者認(rèn)為，這種方法使模型能夠顯式地學(xué)習(xí)關(guān)系并直接對(duì)其進(jìn)行建模。正如[61]所說(shuō)，圖像的場(chǎng)景圖與圖像標(biāo)題有密切的映射關(guān)系。表示對(duì)象的節(jié)點(diǎn)直接映射到名詞，表示關(guān)系的邊特征(在[25]的情況下)或節(jié)點(diǎn)(在[61]的情況下)清晰地映射到介詞，表示屬性的節(jié)點(diǎn)映射到形容詞。編碼器生成的圖結(jié)構(gòu)與解碼器輸出的最終句子之間的這種強(qiáng)關(guān)系進(jìn)一步支持許多圖像字幕系統(tǒng)使用的圖像-圖形-句子體系結(jié)構(gòu)的使用。
Zhou等人 [62] 在Faster-RCNN [59]圖像特征提取器旁邊使用LSTM，并添加了視覺(jué)自注意機(jī)制。作者們采用了一個(gè)多部分的語(yǔ)義場(chǎng)景圖，遵循了 [24]，[61] 的風(fēng)格。具體而言，他們建議使用三個(gè)GCN來(lái)為每個(gè)對(duì)象、屬性和關(guān)系節(jié)點(diǎn)創(chuàng)建上下文感知特征向量。生成的上下文感知節(jié)點(diǎn)通過(guò)與自我注意力圖進(jìn)行融合，使模型能夠控制字幕的粒度。最后，作者測(cè)試了兩種基于LSTM的語(yǔ)言生成器的訓(xùn)練方法，第一種是傳統(tǒng)的監(jiān)督方法，使用交叉熵?fù)p失，第二種是基于強(qiáng)化學(xué)習(xí)的方法，使用CIDEr [91]作為獎(jiǎng)勵(lì)函數(shù)。通過(guò)在架構(gòu)中使用上下文依賴的GCN，以特別考慮對(duì)象、屬性和關(guān)系節(jié)點(diǎn)，SASG能夠在與類似模型的競(jìng)爭(zhēng)中取得具有競(jìng)爭(zhēng)力的結(jié)果，如表III所示。
《場(chǎng)景圖自動(dòng)編碼器》是另一篇利用多部分語(yǔ)義圖的論文。在這篇論文中，楊等人[44]將標(biāo)題轉(zhuǎn)換為多部分文本語(yǔ)義圖，使用了與SPICE度量[67]類似的過(guò)程（在表II中有詳細(xì)描述）。圖中的節(jié)點(diǎn)被轉(zhuǎn)換為單詞嵌入，然后通過(guò)GCN轉(zhuǎn)換為特征嵌入，每種節(jié)點(diǎn)類型都有自己獨(dú)立的GCN和參數(shù)。這些特征嵌入與字典結(jié)合起來(lái)，以便在生成句子之前重新編碼。通過(guò)反向傳播來(lái)自句子再生的交叉熵?fù)p失，更新字典權(quán)重。通過(guò)包含字典，作者能夠從標(biāo)題中學(xué)習(xí)歸納偏差。這使生成的字幕能夠從“man on motorcycle”變?yōu)椤癿an riding motorcycle”。在給定圖像的情況下，SGAE使用Faster-RCNN [59]和MotifNet [92]生成一個(gè)多部分視覺(jué)語(yǔ)義圖，類似于[24]，[61]。這些視覺(jué)特征通過(guò)多模式GCN與單詞嵌入結(jié)合起來(lái)，然后使用先前學(xué)習(xí)的字典進(jìn)行重新編碼。這些特征然后用于生成最終的句子。
Wang等人 [94] 沒(méi)有使用多個(gè)圖，而是使用一個(gè)完全連接的空間圖和一個(gè)注意力機(jī)制來(lái)學(xué)習(xí)不同區(qū)域之間的關(guān)系。該圖由代表圖像內(nèi)區(qū)域空間信息的節(jié)點(diǎn)組成。形成圖后，通過(guò)GGNN [78] 學(xué)習(xí)與邊緣相關(guān)的權(quán)重。一旦學(xué)習(xí)完畢，這些邊緣權(quán)重對(duì)應(yīng)于兩個(gè)節(jié)點(diǎn)之間存在關(guān)系的概率。姚等人 [68] 的工作是基于他們的GCNLSTM [25] 的，提出了一種使用新型層次解析（HIP）架構(gòu)的圖像編碼器。與大多數(shù)現(xiàn)代圖像字幕論文 [25]，[60]，[70] 中傳統(tǒng)的場(chǎng)景圖結(jié)構(gòu)不同，姚等人 [68] 采用了使用樹(shù)形結(jié)構(gòu)的新方法（在第 II-C 節(jié)中討論），利用了圖像中對(duì)象的層次結(jié)構(gòu)。與他們以前的工作專注于語(yǔ)義和空間關(guān)系不同，這項(xiàng)工作涉及圖像內(nèi)部的分層結(jié)構(gòu)。這種分層關(guān)系可以視為語(yǔ)義和空間信息的結(jié)合 - 因此合并了先前使用的兩個(gè)圖。代表樹(shù)上頂點(diǎn)的特征向量通過(guò)使用TreeLSTM [95] 得到改善。由于樹(shù)是圖的一種特殊情況，因此作者還展示了他們先前的工作GCN-LSTM [25]可用于在解碼之前使用樹(shù)來(lái)創(chuàng)建增強(qiáng)的嵌入。他們證明了包含層次傳遞可以提高所有基準(zhǔn)測(cè)試的分?jǐn)?shù)，與不使用分層關(guān)系的GCN-LSTM [25]相比。
Wang等人 [94] 沒(méi)有使用多個(gè)圖，而是使用一個(gè)完全連接的空間圖和一個(gè)注意力機(jī)制來(lái)學(xué)習(xí)不同區(qū)域之間的關(guān)系。該圖由代表圖像內(nèi)區(qū)域空間信息的節(jié)點(diǎn)組成。形成圖后，通過(guò)GGNN [78] 學(xué)習(xí)與邊緣相關(guān)的權(quán)重。一旦學(xué)習(xí)完畢，這些邊緣權(quán)重對(duì)應(yīng)于兩個(gè)節(jié)點(diǎn)之間存在關(guān)系的概率。姚等人 [68] 的工作是基于他們的GCNLSTM [25] 的，提出了一種使用新型層次解析（HIP）架構(gòu)的圖像編碼器。與大多數(shù)現(xiàn)代圖像字幕論文 [25]，[60]，[70] 中傳統(tǒng)的場(chǎng)景圖結(jié)構(gòu)不同，姚等人 [68] 采用了使用樹(shù)形結(jié)構(gòu)的新方法（在第 II-C 節(jié)中討論），利用了圖像中對(duì)象的層次結(jié)構(gòu)。與他們以前的工作專注于語(yǔ)義和空間關(guān)系不同，這項(xiàng)工作涉及圖像內(nèi)部的分層結(jié)構(gòu)。這種分層關(guān)系可以視為語(yǔ)義和空間信息的結(jié)合 - 因此合并了先前使用的兩個(gè)圖。代表樹(shù)上頂點(diǎn)的特征向量通過(guò)使用TreeLSTM [95] 得到改善。由于樹(shù)是圖的一種特殊情況，因此作者還展示了他們先前的工作GCN-LSTM [25]可用于在解碼之前使用樹(shù)來(lái)創(chuàng)建增強(qiáng)的嵌入。他們證明了包含層次傳遞可以提高所有基準(zhǔn)測(cè)試的分?jǐn)?shù)，與不使用分層關(guān)系的GCN-LSTM [25]相比。
像 [46] 一樣，Cornia 等人提出的 M2 網(wǎng)格存儲(chǔ) Transformer 也使用了越來(lái)越流行的 Transformer 架構(gòu) [26]。與其他一些論文 [25]、[68]、[44]、[46] 不同的是，它使用一組自注意力層對(duì)所有圖像區(qū)域進(jìn)行編碼，而不是利用一些預(yù)定義的圖像特征結(jié)構(gòu)（如空間圖、語(yǔ)義圖等）。Transformer 中的標(biāo)準(zhǔn)鍵和值被編輯以包括可學(xué)習(xí)的持久性記憶向量的連接。這使得架構(gòu)能夠編碼先驗(yàn)知識(shí)，例如“雞蛋”和“吐司”組成了“早餐”的概念。在解碼器輸出的解碼時(shí)，也使用一組自注意層。每個(gè)解碼器層通過(guò)門控交叉注意機(jī)制與每個(gè)編碼器層相連，形成了論文中的“meshed”概念。解碼器塊的輸出用于生成最終的輸出字幕。

類似于 [46]，[69] 的作者提出使用一種新穎的相似性（在論文中稱為語(yǔ)義）和主題圖。該圖是建立在點(diǎn)積相似度的基礎(chǔ)上的，不需要像 MotifNet [92] 這樣的圖提取模型。相反，從 Faster-RCNN 對(duì)象檢測(cè)器 [59] 中提取了一組頂點(diǎn) $V = {v_i \in \mathbb{R}^{d_{obj}}}{i=1}^{n{obj}}$ 作為 ResNet 特征。然后使用 V 中特征向量之間的點(diǎn)積來(lái)填充鄰接矩陣中的邊，其中 $a_{ij}=\sigma(v_i^TMv_j)$ 。一旦構(gòu)建完兩個(gè)圖，就會(huì)對(duì)兩個(gè)圖都應(yīng)用 GCN 來(lái)豐富節(jié)點(diǎn)的局部上下文。然后，應(yīng)用圖自注意機(jī)制以確保節(jié)點(diǎn)不僅僅考慮其直接鄰居。改進(jìn)后的圖然后通過(guò) LSTM 進(jìn)行解碼以生成字幕。
Dong等人[70]繼承了[25]的思路，使用空間圖來(lái)展示輸入圖像中檢測(cè)到的物體之間的有向關(guān)系。局部上，通過(guò)CNN提取物體特征，將每個(gè)頂點(diǎn)關(guān)聯(lián)到一個(gè)向量。該過(guò)程對(duì)數(shù)據(jù)集中的每個(gè)圖像都進(jìn)行了處理。除了這個(gè)圖之外，作者還引入了一個(gè)圖像級(jí)別的圖。具體來(lái)說(shuō)，每個(gè)圖像由一個(gè)特征向量表示，該向量是與其相關(guān)聯(lián)的一組物體特征向量的平均值。相應(yīng)圖像的圖形由K個(gè)距離輸入圖像最近的圖像組成，這些圖像形成了一個(gè)完全連接的無(wú)向圖。局部空間圖和更全局的圖像級(jí)別圖都通過(guò)GCN進(jìn)行處理，以創(chuàng)建更豐富的嵌入，用于生成字幕。這種方法表現(xiàn)非常出色，Dual-GCN在BLEU、METEOR和ROGUE指標(biāo)上優(yōu)于可比較的模型（見(jiàn)表III）。

視覺(jué)問(wèn)答

VQA是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，需要設(shè)計(jì)和實(shí)現(xiàn)模型以回答給定圖像的自然語(yǔ)言問(wèn)題。這些答案可以從簡(jiǎn)單的是/否回答到更自然、更長(zhǎng)的回答。問(wèn)題的復(fù)雜程度也各不相同。隨著該領(lǐng)域的發(fā)展，出現(xiàn)了更具體的VQA任務(wù)。第一個(gè)出現(xiàn)的是FVQA，有時(shí)也稱為知識(shí)視覺(jué)問(wèn)答（KVQA），需要外部知識(shí)源來(lái)回答問(wèn)題。另一個(gè)出現(xiàn)的任務(wù)是文本VQA，在這種情況下，模型必須理解場(chǎng)景中的文本才能生成答案。所有三個(gè)任務(wù)都有自己的數(shù)據(jù)集[35]，[32]，[38]，[36]，[39]，并有活躍的社區(qū)開(kāi)發(fā)解決方案[35]，[65]，[81]。

VQA
VQA最初提出于[35]，已經(jīng)從簡(jiǎn)單的“是”或“否”答案發(fā)展到更豐富的自然語(yǔ)言答案。常見(jiàn)的方法是利用VQA的多模態(tài)特征，同時(shí)利用輸入圖像的視覺(jué)特征和問(wèn)題的文本特征[65]，[81]，[66]。

Teney等人的研究 [65] 是在VQA中最早使用GNN的工作之一。他們的模型以視覺(jué)場(chǎng)景圖為輸入，以及一個(gè)問(wèn)題。然后使用斯坦福依賴解析器 [64] 將問(wèn)題解析成文本場(chǎng)景圖。這些場(chǎng)景圖獨(dú)立地使用GGNN [78] 進(jìn)行處理，該模型已被修改以包含注意機(jī)制。然后，使用反映場(chǎng)景圖中兩個(gè)節(jié)點(diǎn)彼此相關(guān)性的注意機(jī)制，將原始特征向量組合在一起。Khademi [81]采用了多模態(tài)方法來(lái)處理VQA問(wèn)題，他使用密集區(qū)域字幕與提取的視覺(jué)特征一起使用。給定一個(gè)查詢和輸入圖像，模型將使用Faster-RCNN對(duì)象檢測(cè)器提取視覺(jué)區(qū)域，并使用ResNet生成一組特征，并將邊界框信息編碼到這些特征中。還使用現(xiàn)成的密集區(qū)域字幕模型創(chuàng)建一組字幕和關(guān)聯(lián)的邊界框。使用GRU編碼字幕和邊界框信息。每組特征都被轉(zhuǎn)換成圖形（視覺(jué)和文本），在特征之間存在出站和入站邊，如果標(biāo)準(zhǔn)化邊界框中心之間的歐幾里得距離小于γ = 0.5，則存在邊。兩個(gè)圖形都通過(guò)GGNN進(jìn)行處理，更新后的特征被用于更新外部空間存儲(chǔ)單元，從而使網(wǎng)絡(luò)成為圖形存儲(chǔ)網(wǎng)絡(luò)（在第III-D節(jié)中描述）。在傳播節(jié)點(diǎn)特征之后，外部空間記憶網(wǎng)絡(luò)的最終狀態(tài)被轉(zhuǎn)換為一個(gè)完整的圖形，其中每個(gè)位置都是一個(gè)節(jié)點(diǎn)。這個(gè)最終圖形由GGNN處理，生成最終答案。該論文中提出的多模態(tài)方法在基準(zhǔn)測(cè)試中表現(xiàn)出極高的效果，提出的MN-GMN體系結(jié)構(gòu) [81] 在與可比較的模型的比較中表現(xiàn)出色（見(jiàn)表IV）。
MORN [66]是另一項(xiàng)旨在捕捉問(wèn)題和圖像之間復(fù)雜多模態(tài)關(guān)系的工作。和許多最近的深度學(xué)習(xí)工作一樣，它采用了Transformer [26]架構(gòu)。模型由三個(gè)主要組件構(gòu)成，首先創(chuàng)建一個(gè)圖形化的視覺(jué)圖像，從檢測(cè)到的物體的完全連接圖開(kāi)始，使用GCN來(lái)匯集視覺(jué)特征。模型的第二部分從輸入問(wèn)題中創(chuàng)建一個(gè)文本場(chǎng)景圖。最后，模型的第三個(gè)組件是一個(gè)關(guān)系多模態(tài)Transformer，用于對(duì)齊表示。 Sharma等人 [96]也采用了視覺(jué)語(yǔ)言多模態(tài)方法，但是放棄了使用文本語(yǔ)義圖，而是選擇使用單詞嵌入。作者利用了一種新穎的基于GGNN的架構(gòu)，該架構(gòu)處理代表視覺(jué)特征的節(jié)點(diǎn)的無(wú)向完全圖。節(jié)點(diǎn)被賦予兩個(gè)節(jié)點(diǎn)之間存在關(guān)系的概率權(quán)重。與其他VQA工作 [81]一樣，問(wèn)題被限制在14個(gè)單詞以內(nèi)，每個(gè)單詞都被轉(zhuǎn)換為GloVe嵌入 [97]。少于14個(gè)單詞的問(wèn)題被用零向量進(jìn)行填充。然后使用GRU應(yīng)用于單詞嵌入來(lái)生成問(wèn)題嵌入。基于LSTM的注意機(jī)制同時(shí)考慮問(wèn)題向量和構(gòu)成場(chǎng)景圖節(jié)點(diǎn)的視覺(jué)表示。這個(gè)模塊在探索新的視覺(jué)特征時(shí)考慮了先前關(guān)注的區(qū)域。最后，使用基于LSTM的語(yǔ)言生成器來(lái)生成最終答案。 Zhang等人 [41]放棄了使用文本場(chǎng)景圖，而是利用單詞向量將有關(guān)圖像的信息嵌入語(yǔ)義圖中。使用GNN，他們能夠創(chuàng)建表示節(jié)點(diǎn)、邊緣和表示全局狀態(tài)的圖像特征向量的豐富特征向量。他們通過(guò)對(duì)單詞向量進(jìn)行平均處理，將問(wèn)題包含在圖像特征中，從而使GNN能夠?qū)D像進(jìn)行推理。雖然[96]和[41]都取得了良好的結(jié)果，但是僅使用單詞或句子級(jí)別的嵌入，而不使用文本場(chǎng)景圖，它們未能在文本領(lǐng)域建模關(guān)系。這就去除了模型僅在文本領(lǐng)域推理的能力。
Li等人[98]和Nuthalapati等人[99]采用了不同于傳統(tǒng)多模態(tài)方法的視覺(jué)信息處理方式。Li等人[98]受[25]啟發(fā)，使用語(yǔ)義和空間圖來(lái)表示圖像。除了這些顯式的圖外，他們還引入了一種隱式圖，即在檢測(cè)到的物體之間建立的全連接圖，由GAT設(shè)置邊權(quán)。然后，使用多模態(tài)融合將關(guān)系感知視覺(jué)特征與問(wèn)題向量組合。融合輸出隨后通過(guò)MLP預(yù)測(cè)答案。Nuthalapati等人[99]采用了雙場(chǎng)景圖方法，使用視覺(jué)和語(yǔ)義圖。這些圖被合并成一個(gè)單獨(dú)的圖嵌入，使用一種新穎的GAT架構(gòu)[80]，該架構(gòu)能夠關(guān)注邊緣和節(jié)點(diǎn)。圖形被豐富了在問(wèn)題中出現(xiàn)但在圖中不存在的負(fù)面實(shí)體。然后進(jìn)行修剪，以刪除距離問(wèn)題中提到的特征K跳之外的節(jié)點(diǎn)和邊緣。最后使用解碼器來(lái)回答輸入的問(wèn)題。

基于知識(shí)/事實(shí)的 VQA
基于知識(shí)或事實(shí)的VQA是利用知識(shí)圖譜（例如WikiData [53]）中的外部知識(shí)來(lái)回答關(guān)于圖像的問(wèn)題的挑戰(zhàn)性任務(wù)。這個(gè)任務(wù)的主要挑戰(zhàn)是創(chuàng)建一個(gè)能夠利用三種媒介（圖像、問(wèn)題和事實(shí)）來(lái)生成適當(dāng)答案的模型。MUCKO [100]的架構(gòu)圖如圖4所示（獲得了重復(fù)使用的許可），作為處理FVQA的模型的代表性例子。在[101]中，作者提出了一種基于GCN的FVQA架構(gòu)。除了問(wèn)題和答案集之外，還包括事實(shí)知識(shí)庫(kù) $KB = {f_1，f_2，...，f_{|KB|}}$ 。每個(gè)事實(shí) $f =（x，r，y）$ 由圖像中基于視覺(jué)概念的一個(gè) $(x)$ ，一個(gè)屬性或短語(yǔ) $(y)$ 和連接兩者的關(guān)系 $r$ 組成。關(guān)系以13種不同的預(yù)定義方式存在于概念和屬性之間。他們的工作首先通過(guò)使用問(wèn)題和事實(shí)中的單詞的GloVe嵌入[97]將搜索空間縮小到最有可能包含正確答案的100個(gè)事實(shí)，然后將其進(jìn)一步縮小為最相關(guān)的事實(shí) $f_{rel}$ 。這些最相關(guān)的事實(shí)被轉(zhuǎn)化為圖形，其中 $f_{rel}$ 中的所有視覺(jué)概念和屬性形成節(jié)點(diǎn)。如果兩個(gè)節(jié)點(diǎn)由frel中的事實(shí)相關(guān)，則連一條邊。然后使用GCN在圖形上進(jìn)行“推理”，以預(yù)測(cè)最終答案。通過(guò)使用消息傳遞架構(gòu)，作者能夠更新節(jié)點(diǎn)的特征表示，然后將其饋入MLP，預(yù)測(cè)對(duì)應(yīng)于實(shí)體是否包含答案的二進(jìn)制標(biāo)簽。
Zhu等人[100]采用多模態(tài)圖的方法來(lái)表示圖像，其中包括視覺(jué)、語(yǔ)義和知識(shí)圖。在構(gòu)建圖之后，應(yīng)用GCN到每個(gè)模態(tài)以創(chuàng)建更豐富的特征嵌入。這些嵌入然后以跨模態(tài)的方式進(jìn)行處理。Visual-Fact聚合和Semantic-Fact聚合操作產(chǎn)生互補(bǔ)的信息，然后與FactFact卷積層一起使用。這個(gè)最后一層考慮到所有三種模態(tài)，并產(chǎn)生考慮全局上下文的答案。作者在[58]中繼續(xù)了他們的工作，將跨模態(tài)機(jī)制更改為新穎的GRUC（基于圖的讀取、更新和控制）機(jī)制。GRUC以并行管道運(yùn)作。一個(gè)管道從知識(shí)圖的概念開(kāi)始，從視覺(jué)圖中反復(fù)合并知識(shí)。另一個(gè)從同樣的知識(shí)圖概念開(kāi)始，但合并語(yǔ)義知識(shí)。在經(jīng)過(guò)反復(fù)操作后，兩個(gè)管道的輸出與問(wèn)題和原始事實(shí)節(jié)點(diǎn)一起融合。這個(gè)融合特征然后用于預(yù)測(cè)最終的答案。跨模態(tài)注意機(jī)制的改變使得與MUCKO[100]相比，在F-VQA基準(zhǔn)測(cè)試中獲得了顯著的改進(jìn)。
Liu et al. [102]提出了一種多模態(tài)方法，但只使用了語(yǔ)義和知識(shí)模態(tài)。他們基于認(rèn)知科學(xué)中的雙過(guò)程理論提出了一個(gè)基于兩個(gè)系統(tǒng)的FVQA解決方案。他們的方法利用BERT編碼器表示輸入問(wèn)題和基于Faster-RCNN [59]的特征提取器表示圖像特征。第一個(gè)系統(tǒng)基于Transformer架構(gòu)[26]，將這兩個(gè)表示連接成一個(gè)多模態(tài)表示。第二個(gè)系統(tǒng)隨后使用SPICE將稠密區(qū)域標(biāo)題轉(zhuǎn)換為文本場(chǎng)景圖（Textual Scene Graph），并使用問(wèn)題輸入生成知識(shí)圖。然后，使用消息傳遞GNN來(lái)確定重要節(jié)點(diǎn)，并使用注意力加權(quán)在它們之間聚合信息。然后，通過(guò)將整個(gè)語(yǔ)義圖形與具有關(guān)聯(lián)關(guān)系的節(jié)點(diǎn)組合成聯(lián)合表示，學(xué)習(xí)每個(gè)知識(shí)圖節(jié)點(diǎn)的聯(lián)合表示。這個(gè)聯(lián)合表示然后用于預(yù)測(cè)最終答案。與多模態(tài)方法不同，SGEITL [104]使用圖像的語(yǔ)義圖，然后遵循Yang等人的方法[40]，向圖中引入跳過(guò)邊，基本上使它成為一個(gè)完整圖。然后，這個(gè)圖經(jīng)過(guò)一個(gè)多跳圖變換器，該變換器基于它們之間的距離屏蔽節(jié)點(diǎn)之間的注意力，確保只有附近的節(jié)點(diǎn)被關(guān)注。通過(guò)他們的工作，他們證明結(jié)構(gòu)信息在解決復(fù)雜的VQA任務(wù)時(shí)是有用的。
在他們的TRiG模型中，高等等人 [105] 倡導(dǎo)采取一種替代的方法來(lái)解決FVQA問(wèn)題，而不是在某種多模態(tài)空間中生成答案，他們建議使用文本空間。他們認(rèn)為這可以防止進(jìn)一步與外部知識(shí)融合，而且由于大多數(shù)數(shù)據(jù)都是以文本形式存在的，因此在該領(lǐng)域中工作是有意義的。因此，TRiG具有三個(gè)組件。它首先使用現(xiàn)成的圖像字幕工具將圖像轉(zhuǎn)換為字幕。然后，該模型從維基百科文章的知識(shí)庫(kù)中找到前K個(gè)相關(guān)事實(shí)，然后使用T5支撐的Transformer [106] 將<問(wèn)題、視覺(jué)背景、知識(shí)>三元組融合和解碼成答案。
文本VQA
TextVQA是VQA的一個(gè)子任務(wù)，其中答案需要模型能夠讀取出現(xiàn)在圖像中的文本。通常這包括從建筑物上讀取品牌名稱或書籍封面上的標(biāo)題等任務(wù)。這些信息可以與外部知識(shí)庫(kù)相結(jié)合，使模型能夠通過(guò)讀取商店名稱并在知識(shí)庫(kù)中搜索來(lái)回答問(wèn)題，例如“這家商店是美國(guó)品牌嗎？” [107]。高等人專注于圖像中的文本及其如何更好地利用以提高VQA的準(zhǔn)確性。他們使用了一個(gè)由完全連接的視覺(jué)、語(yǔ)義和數(shù)字子圖組成的新型多模態(tài)圖。每個(gè)子圖表示在圖像中找到的唯一模態(tài)：視覺(jué)實(shí)體（由圖像特征提取器表示）、發(fā)現(xiàn)的文本的語(yǔ)義含義（最初由OCR發(fā)現(xiàn)），以及數(shù)字值及其語(yǔ)義含義。該論文提出了一種模型，使用相關(guān)性評(píng)分跨模態(tài)聚合信息。一旦三個(gè)模態(tài)被聚合，便會(huì)部署一種注意力機(jī)制來(lái)幫助預(yù)測(cè)最終答案。專注于不同模態(tài)證明是一種有用的方法，該模型在基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異（見(jiàn)表VI）。

另一項(xiàng)利用多模態(tài)圖的工作是梁等人的研究 [108]。他們的工作使用圖像特征和場(chǎng)景文本特征（由OCR提取）生成了一個(gè)類似于[25]的空間關(guān)系圖。圖經(jīng)過(guò)多頭注意力處理后，再通過(guò)使用注意權(quán)重的GNN進(jìn)行處理。然后使用多模態(tài)融合將節(jié)點(diǎn)特征與問(wèn)題嵌入和位置特征相結(jié)合。這個(gè)融合操作的輸出被用來(lái)預(yù)測(cè)最終的答案。

圖像檢索

圖像檢索是從數(shù)據(jù)庫(kù)中找到圖像的任務(wù)，給定一些查詢條件。這些查詢條件可以采用許多形式，包括相似的圖像、自然語(yǔ)言查詢，甚至是草圖。常用的方法是將數(shù)據(jù)庫(kù)圖像表示為在某個(gè)空間中，其中與查詢最接近的圖像是與查詢之間距離最小的圖像。當(dāng)這個(gè)空間用圖表示時(shí)，GNN對(duì)于共享特征和獲取更多全局上下文的特征變得非常有價(jià)值。Johnson等人 [24] 表明，場(chǎng)景圖可以用作圖像檢索系統(tǒng)的輸入。通過(guò)允許最終用戶創(chuàng)建一個(gè)場(chǎng)景圖，其中節(jié)點(diǎn)表示對(duì)象、屬性和關(guān)系，他們能夠通過(guò)場(chǎng)景圖接地過(guò)程返回適當(dāng)?shù)膱D像。這涉及將每個(gè)場(chǎng)景圖對(duì)象節(jié)點(diǎn)與由對(duì)象檢測(cè)器預(yù)測(cè)的邊界框進(jìn)行匹配，并使用條件隨機(jī)場(chǎng)（CRF）以概率的形式表示。使用場(chǎng)景圖作為搜索查詢而不是自然語(yǔ)言的優(yōu)點(diǎn)在于，它們?cè)趶?fù)雜性方面具有很好的可擴(kuò)展性。一旦基本的場(chǎng)景圖被構(gòu)建，通過(guò)添加額外的節(jié)點(diǎn)來(lái)擴(kuò)展它并使其更復(fù)雜是很簡(jiǎn)單的。另一個(gè)優(yōu)點(diǎn)是它減少了將搜索查詢映射到圖像所需的操作。在[24]的基礎(chǔ)上，Yoon等人提出了IRSGS（帶場(chǎng)景圖相似性的圖像檢索）[56]，該方法利用一個(gè)語(yǔ)義圖，稱為場(chǎng)景圖。給定一個(gè)查詢圖像，模型將生成一個(gè)語(yǔ)義圖并將其與數(shù)據(jù)庫(kù)中圖像的圖進(jìn)行相似性比較。這個(gè)圖形比較是通過(guò)使用GNN生成的圖嵌入的內(nèi)積來(lái)實(shí)現(xiàn)的（可以是GCN [109] 或GIN [110]）。該論文的一個(gè)重要貢獻(xiàn)是Surrogate Relevance的概念，它是正在比較的圖像標(biāo)題之間的相似性。Surrogate Relevance使用標(biāo)題的Sentence-BERT嵌入之間的內(nèi)積計(jì)算。這個(gè)度量被用作模型的訓(xùn)練信號(hào)，以調(diào)整由GNN生成的特征嵌入。模型背后的圖形對(duì)比允許這項(xiàng)工作與[24]相比更好地?cái)U(kuò)展到大型圖像數(shù)據(jù)庫(kù)。使用Surrogate Relevance允許這項(xiàng)工作在用戶查詢與用于支持相關(guān)度度量的標(biāo)題風(fēng)格相匹配時(shí)，潛在地?cái)U(kuò)展到匹配用戶查詢。
劉等人 [71] 使用表示為特征嵌入的圖像的K最近鄰圖，提出了使用GCN以及基于圖像相似性的新型損失函數(shù)。使用GCN增強(qiáng)特征嵌入，以考慮整個(gè)圖像數(shù)據(jù)庫(kù)的全局上下文。通過(guò)使用特征嵌入的內(nèi)積計(jì)算圖像之間的相似度，相似度越高，檢索候選項(xiàng)越好。作者的新型損失函數(shù)旨在將相似的圖像在嵌入空間中拉近，將不相似的圖像遠(yuǎn)離。與[56]相比，通過(guò)使用內(nèi)積，相似性度量更具確定性。然而，與[56]不同的是，它不能擴(kuò)展到與基于文本的圖像檢索與用戶查詢一起工作。張等人 [111] 也使用K最近鄰圖，但重點(diǎn)是改進(jìn)基于內(nèi)容的圖像檢索中的重新排序過(guò)程。應(yīng)用GNN來(lái)聚合由修改后的鄰接矩陣創(chuàng)建的特征。使用GNN允許重新排序過(guò)程降低置信度低的節(jié)點(diǎn)的重要性。
DGCQ模型 [112] 不是基于純K最近鄰圖，而是基于向量量化，這是一種信息論中用于降低向量空間基數(shù)的過(guò)程。它本質(zhì)上可以被認(rèn)為是一種多對(duì)一聚類技術(shù)，其中一個(gè)維數(shù)為 $d$ 的向量空間中的向量 $x$ 被映射到構(gòu)成碼本 $q(x) \in C = {c_i; i \in I}$ 的代碼詞 $c_i$ 集合，其中 $I = 1...(k?1)$ 。通過(guò)使用向量量化，該模型學(xué)習(xí)可以與圖像特征結(jié)合形成地標(biāo)圖的代碼詞。這個(gè)圖形基于相似性圖，除了它還有通過(guò)量化過(guò)程學(xué)習(xí)的節(jié)點(diǎn)。一旦地標(biāo)圖被構(gòu)建，GCN被用來(lái)傳播特征，目的是將相似的圖像在特征空間中拉近。使用向量量化允許地標(biāo)圖存在于較低的維度空間中，在計(jì)算要將哪些圖像從圖中返回作為候選項(xiàng)時(shí)減少計(jì)算量。[57] 的作者采用多模態(tài)方法。他們使用GraphSAGE [77] 來(lái)有效地學(xué)習(xí)包含來(lái)自圖形連接的視覺(jué)和概念信息的多模態(tài)節(jié)點(diǎn)嵌入。連接節(jié)點(diǎn)之間的距離減少，而不連接節(jié)點(diǎn)之間的距離增加。通過(guò)使用代表圖像的圖節(jié)點(diǎn)以及代表元數(shù)據(jù)標(biāo)簽的節(jié)點(diǎn)，他們的模型能夠提供基于內(nèi)容的圖像檢索以及標(biāo)簽預(yù)測(cè)。在推理時(shí)，顯示給模型的圖像可以通過(guò)它們的K個(gè)最近圖像附加到圖中，附加到相關(guān)標(biāo)簽，或兩者都附加。與之前的工作 [71]、[56]、[24]不同，Misraa等人 [57] 在圖節(jié)點(diǎn)中使用多模態(tài)嵌入。
Schuster等人 [63] 繼續(xù)了Johnson等人 [24] 的工作，通過(guò)創(chuàng)建一個(gè)自然語(yǔ)言解析器將查詢轉(zhuǎn)換成一個(gè)可以被他們的工作處理的場(chǎng)景圖，使他們能夠超越基于內(nèi)容的圖像檢索并進(jìn)入基于文本的圖像檢索。他們的解析器使用Stanford Dependency Parser [64] 創(chuàng)建依賴樹(shù)，然后修改樹(shù)。首先執(zhí)行量化修飾符，確保名詞是短語(yǔ)的頭部。然后是代詞解析，使兩個(gè)對(duì)象之間的關(guān)系更加明確。最后，處理復(fù)數(shù)名詞。這涉及到在給定數(shù)字修飾符時(shí)復(fù)制名詞實(shí)例。然后，將文本場(chǎng)景圖映射到圖像，遵循 [24] 的方法。Cui等人 [55] 也處理基于文本的圖像檢索。他們提出了一種利用GCN在視覺(jué)和文本信息上提供跨模態(tài)推理的方法。輸入特征被分成通道，形成完整的圖，并經(jīng)過(guò)圖卷積。一旦文本和視覺(jué)特征被投影到一個(gè)共同的空間中，它們的距離使用余弦相似度進(jìn)行測(cè)量。然后將這些相似度得分存儲(chǔ)在表示視覺(jué)和文本輸入之間相似性的矩陣中。
Zhang等人 [113] 處理了一項(xiàng)具有挑戰(zhàn)性的任務(wù)，即將文本和圖像組合到圖像檢索中，其中給定一個(gè)參考圖像和修改查詢，圖像檢索系統(tǒng)必須找到一個(gè)類似于參考圖像的圖像，其中包含查詢中概述的修改。這一新興任務(wù)的主要挑戰(zhàn)在于其跨模態(tài)性質(zhì)。作者通過(guò)首先生成參考圖像的空間圖和修改查詢的文本特征來(lái)應(yīng)對(duì)這一挑戰(zhàn)。然后將這些特征連接起來(lái)，再將圖形通過(guò)GAT進(jìn)行處理，其注意力機(jī)制已被改變以考慮圖形的方向性和其編碼的空間數(shù)據(jù)。一組形成全局語(yǔ)義推理（GSR）單元的GRU然后被用來(lái)創(chuàng)建參考圖像的最終嵌入。在目標(biāo)圖像上使用相同的過(guò)程，但不包括文本特征的連接。交叉模態(tài)損失函數(shù)和對(duì)抗損失函數(shù)結(jié)合在一起，以確保由相同類別的GSR輸出的特征更加接近。Chaudhuri等人 [73] 采用了一個(gè)Siamese-based網(wǎng)絡(luò)架構(gòu)，其中兩個(gè)相似的輸入進(jìn)入兩個(gè)單獨(dú)的網(wǎng)絡(luò)，共享權(quán)重。這種網(wǎng)絡(luò)架構(gòu)通常使用對(duì)比損失或三元組損失來(lái)確保這些網(wǎng)絡(luò)的輸出相似。作者在區(qū)域鄰接圖上采用了一種新穎的Siamese-GCN，該圖是通過(guò)連接相鄰的分割區(qū)域并加權(quán)邊來(lái)形成的，考慮到區(qū)域質(zhì)心之間的距離和角度。他們將其技術(shù)應(yīng)用于高分辨率遙感圖像的基于內(nèi)容的圖像檢索。通過(guò)使用具有對(duì)比損失的SiameseGCN，作者能夠?qū)W習(xí)一個(gè)嵌入，將相似的圖像聚在一起并將不相似的圖像分開(kāi)。然后在[114]中，作者添加了一系列注意力機(jī)制。他們實(shí)現(xiàn)了節(jié)點(diǎn)級(jí)和邊級(jí)注意力機(jī)制（類似于GAT [80]的樣式）。然后將這些注意力機(jī)制合并到SiameseGCN中，以改進(jìn)他們以前的工作。
另一個(gè)采用孿生網(wǎng)絡(luò)設(shè)計(jì)的工作是張等人的[115]。他們使用三部分網(wǎng)絡(luò)設(shè)計(jì)來(lái)執(zhí)行零樣本基于草圖的圖像檢索，其中采用孿生編碼網(wǎng)絡(luò)使用ResNet50創(chuàng)建圖像和關(guān)聯(lián)草圖的特征，將這些特征串聯(lián)在一起以創(chuàng)建節(jié)點(diǎn)特征。節(jié)點(diǎn)之間的相似度是通過(guò)一個(gè)由MLP建模的度量函數(shù)計(jì)算的，并且這個(gè)操作用于填充相似度圖的鄰接矩陣。然后在相似性圖上應(yīng)用GCN來(lái)創(chuàng)建草圖-圖像對(duì)的融合嵌入。作者選擇使用條件變分自編碼器[116]來(lái)重建GCN嵌入中的語(yǔ)義信息，而不是使用MLP。這樣做使模型能夠?yàn)槲匆?jiàn)類別的草圖生成語(yǔ)義信息，有助于模型的零樣本部分。

討論與結(jié)論

在本節(jié)中，我們借鑒了Battaglia等人的觀點(diǎn)[27]，討論了如何通過(guò)GNN的視角來(lái)看待流行的Transformer[26]。然后，我們討論了如果將圖像生成技術(shù)應(yīng)用于為圖像字幕創(chuàng)建新的訓(xùn)練數(shù)據(jù)，那么其依賴于一致結(jié)構(gòu)可能會(huì)帶來(lái)挑戰(zhàn)。本節(jié)總結(jié)了本文，并概述了基于圖的二維圖像理解面臨的挑戰(zhàn)和未來(lái)研究方向。

為什么需要GNN，既然有Transformer了
近年來(lái)，Transformer架構(gòu)[26]的流行度迅速上升。它最初是在自然語(yǔ)言處理領(lǐng)域提出的，并很快被應(yīng)用于計(jì)算機(jī)視覺(jué)任務(wù)[46]。隨后的研究擴(kuò)展了這種架構(gòu)，使其可以直接處理圖像[117]，[118]，使其成為常見(jiàn)視覺(jué)任務(wù)的骨干。該架構(gòu)可以應(yīng)用于廣泛的應(yīng)用程序，使其在深度學(xué)習(xí)中占據(jù)主導(dǎo)地位。社區(qū)已經(jīng)做出一些努力，將基于注意力的方法與GNNs統(tǒng)一起來(lái)。Battaglia等人[27]提出了一個(gè)更通用的圖形網(wǎng)絡(luò)，其中包括轉(zhuǎn)換器和GNN。他們提出了一個(gè)觀點(diǎn)，即可以將Transformer視為在完全圖上運(yùn)行的神經(jīng)架構(gòu)。將GNN和Transformer視為圖形網(wǎng)絡(luò)表明，它們具有許多相似之處。兩種架構(gòu)都采用一組值，并決定在轉(zhuǎn)換它們以更新值時(shí)應(yīng)考慮多少不同的值，GNN忽略未連接的節(jié)點(diǎn)，而Transformer縮放輸入的重要性。值得注意的是，如果GNN處理的圖是一個(gè)完全圖，則圖形網(wǎng)絡(luò)將允許所有節(jié)點(diǎn)的消息傳播到正在更新的節(jié)點(diǎn)。因此，可以將Transformer視為在完全圖上操作的特殊情況GNN。雖然GNN使用讀取模塊利用基礎(chǔ)結(jié)構(gòu)，但Transformer基于任務(wù)學(xué)習(xí)一個(gè)基礎(chǔ)結(jié)構(gòu)。
將Transformer應(yīng)用于任務(wù)時(shí)，會(huì)從零開(kāi)始學(xué)習(xí)一個(gè)圖形結(jié)構(gòu)。與此同時(shí)，視覺(jué)語(yǔ)言任務(wù)中存在許多自然出現(xiàn)的圖形結(jié)構(gòu)。這種多種圖形類型允許采取不同的圖形結(jié)構(gòu)來(lái)表示圖像，從圖像的語(yǔ)義結(jié)構(gòu)到與整個(gè)訓(xùn)練集相關(guān)的層次結(jié)構(gòu)。圖形在任務(wù)的語(yǔ)言組件中也自然出現(xiàn)，語(yǔ)句依賴樹(shù)與語(yǔ)義場(chǎng)景圖密切相關(guān)（當(dāng)場(chǎng)景圖被作為多部分圖進(jìn)行分析時(shí)，如[61]所述）。當(dāng)數(shù)據(jù)具有清晰的圖形表示時(shí)，應(yīng)該利用它們而不是忽略它們，而不是使用更通用的體系結(jié)構(gòu)學(xué)習(xí)圖形結(jié)構(gòu)。利用現(xiàn)有的圖形結(jié)構(gòu)可以使用適當(dāng)?shù)臍w納偏差部署圖形網(wǎng)絡(luò)。這也會(huì)導(dǎo)致更少的計(jì)算，因?yàn)橄⒉粫?huì)在所有可能的節(jié)點(diǎn)連接之間傳遞。
當(dāng)可以利用多個(gè)圖時(shí)，與使用單個(gè)圖相比，利用多個(gè)圖是有優(yōu)勢(shì)的。如表III所示，只使用單個(gè)圖類型的架構(gòu)在圖像字幕生成任務(wù)中表現(xiàn)不佳，而使用多個(gè)圖的架構(gòu)則表現(xiàn)更好。ARL[94]、Sub-GC[60]和Topic[69]均使用單個(gè)圖（空間圖、語(yǔ)義圖、相似度圖），它們都在基準(zhǔn)測(cè)試中表現(xiàn)不佳。雖然Topic在BLEU、METEOR和ROGUE方面表現(xiàn)良好，但在專門針對(duì)圖像字幕生成的指標(biāo)（SPICE和CIDEr）下評(píng)估時(shí)，與可比較的模型相比表現(xiàn)不佳。多圖方法更有利的主題也在VQA、FVQA和文本VQA任務(wù)中得到體現(xiàn)，多圖方法勝過(guò)單一圖形的對(duì)應(yīng)方法。

潛在擴(kuò)散和圖像字幕的未來(lái)
目前，圖像字幕技術(shù)受到其訓(xùn)練數(shù)據(jù)的限制。雖然COCO在計(jì)算機(jī)視覺(jué)社區(qū)中廣受歡迎，因?yàn)槠鋸V泛的場(chǎng)景和對(duì)現(xiàn)實(shí)世界的適應(yīng)性，但它也有其缺點(diǎn)。僅在其上訓(xùn)練的字幕系統(tǒng)將永遠(yuǎn)不會(huì)理解特定的藝術(shù)風(fēng)格或超出COCO數(shù)據(jù)集涵蓋的80個(gè)類別之外的對(duì)象。像DALLE·2 [119]這樣的圖像生成技術(shù)的出現(xiàn)為圖像字幕系統(tǒng)提供了機(jī)會(huì)，使它們超越80個(gè)類別的限制，并開(kāi)始理解圖像的各種風(fēng)格要素。該領(lǐng)域的工作還處于初步階段[120]，[121]，但之前的非生成式無(wú)監(jiān)督方法對(duì)于圖像字幕非常有前途[18]。我們推測(cè)，基于潛在擴(kuò)散的字幕可能是一個(gè)有前途的研究方向。但是，為了使這種方法有效地工作，圖像生成技術(shù)將需要進(jìn)一步發(fā)展。目前，DALLE·2 [119]和類似系統(tǒng)并不能像需要它們能夠替換字幕系統(tǒng)的訓(xùn)練數(shù)據(jù)那樣深入理解結(jié)構(gòu)。盡管它們令人印象深刻，但當(dāng)提示要求生成在現(xiàn)實(shí)生活中不太可能的內(nèi)容時(shí)，它們有時(shí)會(huì)難以正確組裝圖像。當(dāng)被要求生成“一只猴子騎在北極熊背上”的圖像時(shí)，DALLE·2 [119]有時(shí)會(huì)難以理解兩個(gè)動(dòng)物之間的空間關(guān)系，導(dǎo)致出現(xiàn)圖5中的樣本結(jié)果。
在圖像中發(fā)現(xiàn)錯(cuò)誤關(guān)系的例子不僅僅是在訓(xùn)練數(shù)據(jù)中想象不太可能存在的物體之間建立關(guān)系。Conwell和Ullman [122] 進(jìn)行了一項(xiàng)參與者研究，要求169人選擇他們認(rèn)為與給定提示很好匹配的生成圖像。他們發(fā)現(xiàn)，在研究中生成的圖像中，只有22％與原始提示匹配。作者得出結(jié)論：“當(dāng)前的圖像生成模型甚至還沒(méi)有掌握涉及簡(jiǎn)單物體和主體的基本關(guān)系”[122]。雖然潛在擴(kuò)散方法可能在圖像字幕的未來(lái)發(fā)揮作用，但在實(shí)現(xiàn)這一點(diǎn)之前，它們需要更深入地理解結(jié)構(gòu)。為了讓圖形網(wǎng)絡(luò)[27]適用于擴(kuò)散生成的訓(xùn)練數(shù)據(jù)，圖像和字幕/提示中的結(jié)構(gòu)必須一致。監(jiān)督學(xué)習(xí)方法需要大量非常干凈的訓(xùn)練數(shù)據(jù)才能發(fā)揮良好的作用，因此如果圖像數(shù)據(jù)中的基礎(chǔ)結(jié)構(gòu)不符合預(yù)期，圖形網(wǎng)絡(luò)[27]可能會(huì)遇到困難。

最終說(shuō)明
像圖像字幕生成和視覺(jué)問(wèn)答這樣的視覺(jué)-語(yǔ)言任務(wù)為視力障礙或重度視力障礙的人士開(kāi)發(fā)可訪問(wèn)性技術(shù)提供了重大機(jī)會(huì)。在網(wǎng)站和應(yīng)用程序上普及自動(dòng)alt-text生成，并實(shí)現(xiàn)對(duì)在線共享圖像進(jìn)行查詢，這些領(lǐng)域的研究具有重大影響。然而，目前的數(shù)據(jù)集訓(xùn)練的模型容易受到視力正常人類的偏見(jiàn)。VQA數(shù)據(jù)集中提出的問(wèn)題和圖像字幕數(shù)據(jù)集中給出的字幕不一定適合這種技術(shù)的潛在最終用戶的需求。在該領(lǐng)域中，很多人談?wù)搶⒓夹g(shù)應(yīng)用于幫助各種程度的視力障礙患者，但實(shí)際上很少采取行動(dòng)。雖然發(fā)布經(jīng)過(guò)訓(xùn)練的模型是有希望的，但是將這些模型在研究社區(qū)之外提供給其他人也將是有益的。該社區(qū)可朝著另一個(gè)方向發(fā)展，即策劃一組由那些需要幫助的人，即視力障礙患者，提出的問(wèn)題和圖像。該數(shù)據(jù)集還可以包括被視力障礙者認(rèn)為重要的圖像說(shuō)明。這些說(shuō)明的包含將產(chǎn)生優(yōu)先考慮視力障礙者所需信息的字幕，而不是像在現(xiàn)有的圖像字幕數(shù)據(jù)集COCO [33]或Flickr30k [34]中訓(xùn)練的模型所生成的那樣，模仿視力正常人類的字幕風(fēng)格。目前，基于Transformer的大型模型是視覺(jué)-語(yǔ)言任務(wù)中的最先進(jìn)技術(shù) [123]， [124]， [125]。鑒于其訓(xùn)練時(shí)的模型大小和計(jì)算能力，與本文討論的模型進(jìn)行比較可能會(huì)很困難。然而，有一些需要注意的要點(diǎn)。
在圖像字幕生成方面，基于Transformer的M2模型被基于GNN的體系結(jié)構(gòu)（即Dual-GCN [70]）超越。這使得作者認(rèn)為使用強(qiáng)制的圖結(jié)構(gòu)比使用自注意力處理檢測(cè)到的對(duì)象之間的所有關(guān)系具有更強(qiáng)的歸納偏差。Dual-GCN [70]使用全局上下文圖（考慮整個(gè)數(shù)據(jù)集）和本地上下文圖（圖像級(jí)別關(guān)系），這種雙重圖方法被證明非常有效，未來(lái)的工作可以以此為基礎(chǔ)展開(kāi)研究。當(dāng)前實(shí)現(xiàn)SOTA的技術(shù)狀態(tài)是由工業(yè)實(shí)驗(yàn)室開(kāi)發(fā)的基于Transformer的大型模型主導(dǎo)，這使得與本文討論的模型進(jìn)行比較變得困難，考慮到訓(xùn)練使用的模型大小和計(jì)算能力。然而，有一些要點(diǎn)需要注意。對(duì)于FVQA和圖像檢索，基于圖形的方法具有更強(qiáng)的歸納偏差用于推理任務(wù)的階段。這兩個(gè)任務(wù)都需要處理圖形數(shù)據(jù)（在FVQA中是知識(shí)圖形，在圖像檢索中是搜索空間的某些圖形表示）。眾所周知，Transformer在稀疏圖（如知識(shí)圖）或大型圖（如在圖像檢索中使用的圖）上的表現(xiàn)不佳。
使用GNN進(jìn)行圖像字幕技術(shù)的采用已經(jīng)顯示出了很大的前景。由于這種方法相對(duì)較新，因此在該領(lǐng)域有大量的機(jī)會(huì)進(jìn)行進(jìn)一步研究。如第IV節(jié)所示，大多數(shù)圖像字幕技術(shù)使用GCN或GGNN架構(gòu)。隨著GNN的發(fā)展和采用新的更具表現(xiàn)力的技術(shù)，社區(qū)應(yīng)該放棄傳統(tǒng)的消息傳遞式網(wǎng)絡(luò)，轉(zhuǎn)向采用這些新技術(shù)。例如，GAT [80]模型可能比使用的技術(shù)提供更多的優(yōu)勢(shì)，因?yàn)樗鼘⒆宰⒁鈾C(jī)制納入了架構(gòu)中，這是一種經(jīng)過(guò)證明可以產(chǎn)生令人印象深刻的結(jié)果的技術(shù)，因?yàn)門ransformer的流行。

在本次調(diào)查中討論的視覺(jué)語(yǔ)言任務(wù)中，所有使用的GNN都是基于同質(zhì)性的概念構(gòu)建的，即相似的節(jié)點(diǎn)由一條邊連接。但這并不總是適用的，例如，語(yǔ)義圖連接了在語(yǔ)義上相關(guān)但不相似的對(duì)象。一些詳細(xì)說(shuō)明的圖是同質(zhì)的（例如圖像圖），但許多其他圖不是。這使我們推測(cè)，對(duì)于處理的圖表現(xiàn)出多少同質(zhì)性或異質(zhì)性，應(yīng)用尊重這些屬性的GNN體系結(jié)構(gòu)可能有很多研究機(jī)會(huì)。

未來(lái)的研究方向之一是研究不同圖形表示的組合（包括在圖像級(jí)別和數(shù)據(jù)集級(jí)別），以識(shí)別能夠很好地一起工作的組合。使用不同的圖形表示將允許更好地利用本地和全局特征。將外部知識(shí)納入圖像字幕生成可能會(huì)提供有趣的研究方向。通常指出，圖像字幕生成是一項(xiàng)對(duì)視力受損人士有用的輔助技術(shù)。但是，這假定用戶是一個(gè)具有發(fā)達(dá)世界理解能力的成年人。圖像字幕生成系統(tǒng)可能難以應(yīng)用于兒科可訪問(wèn)性設(shè)置中。讓模型更詳細(xì)地解釋世界可能會(huì)有用。另一個(gè)潛在的未來(lái)研究方向是統(tǒng)一本文討論的三個(gè)任務(wù)。開(kāi)發(fā)一個(gè)能夠在所有三個(gè)任務(wù)中表現(xiàn)出色的單一統(tǒng)一模型將標(biāo)志著一個(gè)重要的突破。為了實(shí)現(xiàn)這一點(diǎn)，模型必須具有一個(gè)公共的中間空間，用于將文本空間和圖像空間映射。我們認(rèn)為，由于它們的表達(dá)能力，這個(gè)空間最可能是基于圖形的。然而，由于高等等人[105]表明，在VQA中，文本空間中的推理優(yōu)于基于圖形的推理，因此文本表示可能也很有用?？傊?，本文討論的諸如圖像字幕生成等視覺(jué)語(yǔ)言任務(wù)未來(lái)將有豐富的發(fā)展前景，并且有許多機(jī)會(huì)可以利用各種圖形結(jié)構(gòu)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Graph Neural Networks in Vision-Language Image Understanding: A Survey

Graph Neural Networks in Vision-Language Image Understanding: A Survey

摘要

引言

背景和定義

2D 視覺(jué)語(yǔ)言任務(wù)分類法

基本圖論概念

2D視覺(jué)語(yǔ)言任務(wù)中常見(jiàn)的圖類型

圖神經(jīng)網(wǎng)絡(luò)綜述

圖像字幕

視覺(jué)問(wèn)答

圖像檢索

討論與結(jié)論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Graph Neural Networks in Vision-Language Image Understanding: A Survey

摘要

引言

背景和定義

2D 視覺(jué)語(yǔ)言任務(wù)分類法

基本圖論概念

2D視覺(jué)語(yǔ)言任務(wù)中常見(jiàn)的圖類型

圖神經(jīng)網(wǎng)絡(luò)綜述

圖像字幕

視覺(jué)問(wèn)答

圖像檢索

討論與結(jié)論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av