Graph Neural Networks in Vision-Language Image Understanding: A Survey

論文地址:2303.03761.pdf (arxiv.org)

摘要

2D圖像理解是計(jì)算機(jī)視覺(jué)中的一個(gè)復(fù)雜問(wèn)題,但它是提供人類級(jí)別場(chǎng)景理解的關(guān)鍵。它不僅僅是識(shí)別圖像中的對(duì)象,而是試圖理解場(chǎng)景。解決這個(gè)問(wèn)題的解決方案構(gòu)成了一系列任務(wù)的基礎(chǔ),包括圖像字幕、視覺(jué)問(wèn)答和圖像檢索。圖表提供了一種自然的方法來(lái)表示圖像中對(duì)象之間的關(guān)系排列,因此在近年來(lái),圖神經(jīng)網(wǎng)絡(luò)(GNNs)已成為許多2D圖像理解流程的標(biāo)準(zhǔn)組件,特別是在VQA組任務(wù)中成為核心架構(gòu)組件。在本次調(diào)查中,我們回顧了這個(gè)快速發(fā)展的領(lǐng)域,提供了在2D圖像理解方法中使用的圖表類型分類、使用的GNN模型全面清單以及未來(lái)潛在發(fā)展的路線圖。據(jù)我們所知,這是第一份涵蓋以GNNs作為其主要架構(gòu)組件的圖像字幕、視覺(jué)問(wèn)答和圖像檢索技術(shù)的綜合性調(diào)查報(bào)告。

引言

近年來(lái),圖神經(jīng)網(wǎng)絡(luò)(GNNs)的研究迎來(lái)了爆炸性增長(zhǎng),每年都有一大批新的架構(gòu)在頂尖的機(jī)器學(xué)習(xí)會(huì)議和期刊上被提出[1],[2],[3],[4],[5],[6]。GNNs在非歐幾里得領(lǐng)域的學(xué)習(xí)能力使它們成為分析具有結(jié)構(gòu)重要性的數(shù)據(jù)的強(qiáng)大工具,從化學(xué)信息學(xué)[7]到網(wǎng)絡(luò)分析[8]。事實(shí)上,這些模型也可以應(yīng)用于傳統(tǒng)上與圖形無(wú)關(guān)的問(wèn)題,例如在LiDAR點(diǎn)云中進(jìn)行3D對(duì)象檢測(cè)[9]和形狀分析[10]?;贕NNs的方法在解決2D圖像理解領(lǐng)域的視覺(jué)語(yǔ)言任務(wù)方面越來(lái)越受歡迎,類似于其他領(lǐng)域[11],[12],[13],[14],[15]。雖然這個(gè)領(lǐng)域的進(jìn)展在[16]中得到了討論,但它是一個(gè)廣泛的調(diào)查。我們的工作專注于視覺(jué)語(yǔ)言,因此更廣泛地涵蓋了這些主題。我們認(rèn)為2D圖像理解是讓計(jì)算機(jī)以與人類相等或更高水平理解二維圖像的高層挑戰(zhàn)。能夠?qū)崿F(xiàn)這一點(diǎn)的模型應(yīng)該能夠推理圖像以描述它(圖像字幕)、解釋其方面(視覺(jué)問(wèn)答)或找到相似的圖像(圖像檢索)。這些都是人類可以相對(duì)容易完成的任務(wù),但對(duì)于深度學(xué)習(xí)模型來(lái)說(shuō)非常困難,并且需要大量的數(shù)據(jù)。這些任務(wù)也屬于視覺(jué)語(yǔ)言問(wèn)題的范疇,因?yàn)樗鼈円竽P蛯?duì)圖像像素和一種語(yǔ)言(通常是英語(yǔ))都有理解,模型可以用這種語(yǔ)言表達(dá)其理解。雖然已經(jīng)有大量的技術(shù)被應(yīng)用于這些問(wèn)題[17],[18],[19],[20],[21],[22],[23],但本調(diào)查重點(diǎn)討論基于圖形的方法。有多種圖表適用于此,但最常用和理解的是語(yǔ)義場(chǎng)景圖[24],[25]。該圖由表示視覺(jué)對(duì)象的節(jié)點(diǎn)和表示它們之間語(yǔ)義關(guān)系的邊構(gòu)成。語(yǔ)義圖以及更多的圖形類型將在第II-C節(jié)中討論。

除了對(duì)2D圖像理解任務(wù)中使用的圖形類型進(jìn)行分類之外,本文還提供了這些方法所需的必要概述。我們涵蓋了三個(gè)主要任務(wù),并概述了流行的GNN技術(shù)以及未來(lái)GNN工作的方向性見(jiàn)解。在本文的討論部分,我們認(rèn)為越來(lái)越受歡迎的Transformer架構(gòu)[26]實(shí)際上是GNN的一種特殊情況[27]。我們進(jìn)一步闡述這一觀點(diǎn),認(rèn)為在一系列任務(wù)中,GNN可能會(huì)提供更好的歸納偏差,因此不應(yīng)忽視GNN。我們的主要貢獻(xiàn)是:1)對(duì)2D圖像理解任務(wù)中使用的圖形類型進(jìn)行分類;2)對(duì)常見(jiàn)2D圖像理解任務(wù)的GNN方法進(jìn)行全面調(diào)查;3)為社區(qū)探索潛在的未來(lái)發(fā)展提供路線圖。本文的其余部分如下所述:第II節(jié)給出了所討論任務(wù)及其相應(yīng)數(shù)據(jù)集的分類法,以及介紹了整個(gè)過(guò)程中使用的不同圖形類型的概述。第III節(jié)概述了常用的GNN體系結(jié)構(gòu)。它還簡(jiǎn)要提到了GNN的當(dāng)前和未來(lái)研究方向,并標(biāo)注了適當(dāng)?shù)恼{(diào)查。本文的主體由第IV、V和VI節(jié)組成,分別詳細(xì)介紹了基于GNN的圖像字幕、VQA和圖像檢索方法。然后,我們用三部分討論總結(jié)了本文,其中第VII-A部分討論了GNN盡管Transformer架構(gòu)迅速被采用,仍然具有的優(yōu)勢(shì)。這之后是第VII-B部分,將潛在擴(kuò)散和圖像生成的新興領(lǐng)域與圖像字幕聯(lián)系起來(lái)。最后,第VII-C節(jié)總結(jié)了本文,并提供了未來(lái)工作的潛在方向。

背景和定義

本節(jié)將概述了解本調(diào)查所需的背景。我們首先簡(jiǎn)要定義了通用的圖,然后概述了該領(lǐng)域的分類法。最后,我們概述了各種不同類型的圖。

2D 視覺(jué)語(yǔ)言任務(wù)分類法

本文遵循了[28]、[29]、[30]、[31]的分類法,將它們結(jié)合起來(lái)以更全面地了解2D視覺(jué)語(yǔ)言任務(wù)(見(jiàn)圖1)。本節(jié)將簡(jiǎn)要概述現(xiàn)有的分類法,并強(qiáng)調(diào)本調(diào)查所關(guān)注的部分。同時(shí),我們還概述了在本文中討論的各種任務(wù)所使用的主要數(shù)據(jù)集,這些數(shù)據(jù)集在表格I中進(jìn)行了總結(jié)。雖然每個(gè)視覺(jué)語(yǔ)言任務(wù)都有其獨(dú)特的數(shù)據(jù)集,但它們都由Visual Genome [32]統(tǒng)一,這是一個(gè)廣泛的數(shù)據(jù)集,為一系列視覺(jué)語(yǔ)言任務(wù)提供了基礎(chǔ)的事實(shí)。作為最通用的數(shù)據(jù)集,它包含33,877個(gè)對(duì)象類別和68,111個(gè)屬性類別。在發(fā)布時(shí),這是包含圖像描述、對(duì)象、屬性、關(guān)系和問(wèn)題答案對(duì)的最大且最密集的數(shù)據(jù)集。此外,Visual Genome還包含區(qū)域圖、場(chǎng)景圖和問(wèn)題答案對(duì)。因此,它是一個(gè)非常廣泛的數(shù)據(jù)集,廣泛應(yīng)用于視覺(jué)認(rèn)知任務(wù),例如場(chǎng)景圖生成[40]和VQA [41]。
對(duì)于圖像字幕,我們遵循[28]的三種主要方法:1)基于檢索的字幕,2)基于模板的字幕,和3)基于深度學(xué)習(xí)的字幕?;跈z索的字幕建立在每個(gè)圖像都存在字幕并需要從現(xiàn)有字幕庫(kù)中檢索出的假設(shè)之上。這是早期圖像字幕方法[17]的基礎(chǔ),并且不需要深度學(xué)習(xí)即可產(chǎn)生良好的結(jié)果。然而,并非所有圖像都可能有適當(dāng)?shù)淖帜?。如果字幕是通用的,它們只能描述圖像的某些方面,可能會(huì)忽略其最重要的特征。相比之下,基于模板的字幕[42]使用預(yù)定義的字幕格式,并使用物體檢測(cè)來(lái)填充空白部分。這種方法適用于生成一致的字幕,但可能會(huì)導(dǎo)致非自然且明顯是由機(jī)器生成的字幕?,F(xiàn)代圖像字幕任務(wù)的方法基于深度學(xué)習(xí)模型。早期的工作專注于使用CNN編碼器饋送基于RNN的解碼器[43],然而更近期的深度學(xué)習(xí)方法已經(jīng)發(fā)展出了包括GNNs [25],[44]和Transformers [45],[46]在內(nèi)的各種技術(shù)。在本次調(diào)查中,我們專門關(guān)注基于深度學(xué)習(xí)的圖像字幕方法,并關(guān)注基于圖形的方法。深度學(xué)習(xí)方法通常在包含由五個(gè)人生成的字幕陪伴的一組圖像的COCO [33]或Flickr30k [34]上進(jìn)行訓(xùn)練。

VQA的分類通常是通過(guò)各個(gè)任務(wù)使用的數(shù)據(jù)集的視角來(lái)定義的[29],[30]。在這里,我們重點(diǎn)關(guān)注以下三個(gè)VQA任務(wù):1)標(biāo)準(zhǔn)的VQA任務(wù),即回答關(guān)于圖像的問(wèn)題;2)基于事實(shí)的VQA(FVQA)任務(wù),即回答需要外部知識(shí)才能回答的問(wèn)題;3)文本-VQA,即回答需要模型閱讀場(chǎng)景中的文本并將其與視覺(jué)數(shù)據(jù)相結(jié)合的問(wèn)題。每個(gè)不同的VQA任務(wù)都有自己專業(yè)化的數(shù)據(jù)集。最初的VQA數(shù)據(jù)集[35]和隨后更新的VQA 2.0 [47]數(shù)據(jù)集解決了根據(jù)圖像中的視覺(jué)信息回答問(wèn)題的原始任務(wù)。FVQA數(shù)據(jù)集[36]使用了來(lái)自ImageNet [48]和COCO [33]的圖像,以及來(lái)自DBPedia [49]、ConceptNet [50]和WebChild [51]的事實(shí)。使用各種模型從這些圖像中提取了三種形式的視覺(jué)概念。這些視覺(jué)概念包括對(duì)象(在圖像中識(shí)別的物品)、場(chǎng)景(例如房間標(biāo)簽的場(chǎng)景級(jí)特征)和動(dòng)作。問(wèn)題-答案對(duì)由人類注釋者生成,他們選擇了一個(gè)視覺(jué)概念和一個(gè)相應(yīng)的事實(shí)三元組,用它來(lái)生成一個(gè)問(wèn)題。最后,文本-KVQA數(shù)據(jù)集[39]是通過(guò)匯編來(lái)自Kaggle電影海報(bào)挑戰(zhàn)[52]和Google圖像搜索結(jié)果的圖像,其中結(jié)合了品牌名稱和后綴(如“商店”或“建筑物”)而構(gòu)建的。然后,將這些圖像交給人類注釋者,他們刪除了不含品牌名稱文本的圖像。結(jié)果是一個(gè)包含三個(gè)組:書籍、電影和場(chǎng)景的數(shù)據(jù)集,共有257K張圖像,伴隨著130萬(wàn)個(gè)問(wèn)題-答案對(duì)。每個(gè)圖像組都從相關(guān)來(lái)源獲得其自己的三元組知識(shí)庫(kù):WikiData [53]、IMBd和[52]。圖像檢索涉及多個(gè)任務(wù),所有這些任務(wù)都在現(xiàn)代方法中使用深度學(xué)習(xí)。我們遵循Alexander等人的分類法[31],并解決以下子任務(wù):基于文本的圖像檢索、基于內(nèi)容的圖像檢索、基于草圖的檢索、基于語(yǔ)義的檢索和基于注釋的檢索。用于圖像檢索的數(shù)據(jù)集數(shù)量龐大,社區(qū)尚未像圖像字幕使用COCO [33]那樣圍繞一個(gè)單一數(shù)據(jù)集。這在進(jìn)行系統(tǒng)之間的準(zhǔn)確比較時(shí)會(huì)帶來(lái)挑戰(zhàn),因?yàn)椴煌瑪?shù)據(jù)集所面臨的挑戰(zhàn)是不同的,這使得跨數(shù)據(jù)集的直接比較變得更加復(fù)雜。雖然存在特定于圖像檢索的數(shù)據(jù)集[54],但也有一些論文[55],[56],[57]使用了圖像字幕數(shù)據(jù)集[33],[34],這表明存在各種各樣的數(shù)據(jù)集用于圖像檢索。

基本圖論概念

無(wú)向圖。我們定義一個(gè)無(wú)向圖G為一個(gè)元組集合(V,E),即G=(V,E)。集合V包含n個(gè)頂點(diǎn)(有時(shí)稱為節(jié)點(diǎn)),它們由集合E中的邊連接,即如果v∈Vu∈V由一條邊連接,則e_{v,u}∈E。對(duì)于無(wú)向圖,我們有e_{v,u}=e_{u,v}。

有向圖。有向圖是一種圖,其中e_{v,u}的存在并不意味著e_{u,v}的存在。設(shè)An×n的二元鄰接矩陣,使得如果e_{v,u}∈E,則A_{v,u}=1。然后就可以得到對(duì)于有向(無(wú)向)圖,A是不對(duì)稱的(對(duì)稱的)。更一般地說(shuō),A可以是一個(gè)實(shí)值矩陣,其中A_{v,u}的值可以解釋為vu之間連接的強(qiáng)度。

鄰域。節(jié)點(diǎn)v∈V的鄰域N(v)是與v相連的V中的節(jié)點(diǎn)的子集。鄰居u可以直接連接到v,即(v,u)∈E,或者可以通過(guò)從vu遍歷r個(gè)邊間接連接。請(qǐng)注意,某些定義將v本身包括在鄰域中。

完全圖。完全圖是一個(gè)(有向或無(wú)向的)圖,在該圖中,每個(gè)節(jié)點(diǎn)與集合V中的每個(gè)其他節(jié)點(diǎn)都有一條邊相連。因此,完全圖是給定節(jié)點(diǎn)數(shù)的最大邊數(shù)的圖。 多部分圖。

多部分圖(也稱為K部分圖)是一種圖,其中節(jié)點(diǎn)可以分為K個(gè)不同的集合。對(duì)于場(chǎng)景理解任務(wù),這允許使用圖表示,其中一個(gè)節(jié)點(diǎn)集表示對(duì)象,另一個(gè)節(jié)點(diǎn)集表示對(duì)象之間的關(guān)系。

多模態(tài)圖。多模態(tài)圖是一種具有來(lái)自不同模態(tài)的節(jié)點(diǎn)特征的圖。這種方法通常在VQA中使用,其中混合了圖像和文本模態(tài)。多模態(tài)圖使得視覺(jué)特征與詞嵌入在圖中共存。

2D視覺(jué)語(yǔ)言任務(wù)中常見(jiàn)的圖類型

本節(jié)組織了在調(diào)查中討論的所有三個(gè)任務(wù)中使用的各種圖類型。一些圖,如語(yǔ)義和空間圖,在所有任務(wù)中都被使用[25],[41],[56],而其他一些則更具領(lǐng)域特定性,例如知識(shí)圖[58],[39]。圖2顯示了來(lái)自COCO數(shù)據(jù)集[33]的樣本圖像以及可用于描述它的各種類型的圖形。本節(jié)連同該圖形組織,以便將表示單個(gè)圖像的圖形和表示數(shù)據(jù)集部分的圖形分組在一起。
語(yǔ)義圖。有時(shí)被稱為場(chǎng)景圖,語(yǔ)義圖(如圖2c所示)是一種封裝場(chǎng)景內(nèi)視覺(jué)對(duì)象之間語(yǔ)義關(guān)系的圖形。在文獻(xiàn)中,“語(yǔ)義圖”和“場(chǎng)景圖”這些術(shù)語(yǔ)有時(shí)是可以互換使用的,具體取決于論文。但是,在本次調(diào)查中,我們使用“語(yǔ)義圖”這個(gè)術(shù)語(yǔ),因?yàn)橛泻芏喾椒梢詫⒁曈X(jué)場(chǎng)景描述為圖形,而“語(yǔ)義圖”標(biāo)簽更精確地描述了圖形所代表的內(nèi)容。語(yǔ)義圖有不同的類型。一種方法是定義一個(gè)有向圖,其中節(jié)點(diǎn)表示通過(guò)像Faster-RCNN[59]這樣的目標(biāo)檢測(cè)器提取的視覺(jué)對(duì)象,而邊表示它們之間的語(yǔ)義關(guān)系。這是Yao等人[25]的方法,在這種方法中,使用Visual Genome [32]等數(shù)據(jù)集,模型預(yù)測(cè)語(yǔ)義關(guān)系以形成圖中的邊。另一方面,語(yǔ)義圖可以被看作是多部分圖[60],[61],[44],[62](如圖2d所示),其中屬性節(jié)點(diǎn)描述它們連接到的對(duì)象節(jié)點(diǎn)。他們還通過(guò)使用節(jié)點(diǎn)而不是邊特征來(lái)改變關(guān)系的表示方式。這產(chǎn)生了一個(gè)語(yǔ)義圖,其具有三種節(jié)點(diǎn)類型:視覺(jué)對(duì)象,對(duì)象屬性和對(duì)象間關(guān)系。這個(gè)定義遵循了由Johnson等人[24]定義的“場(chǎng)景圖”的定義。最后,還存在另一種形式的語(yǔ)義圖,即文本語(yǔ)義圖[44],[63](如圖2f所示)。與視覺(jué)語(yǔ)義圖不同,文本語(yǔ)義圖不是從圖像本身生成的,而是從其標(biāo)題生成的。具體來(lái)說(shuō),標(biāo)題通過(guò)斯坦福依存解析器[64]進(jìn)行解析,這是一種廣泛使用的[65],[66]概率句子解析器。給定標(biāo)題,解析器將返回其語(yǔ)法結(jié)構(gòu),標(biāo)識(shí)其中的組件,例如名詞、動(dòng)詞和形容詞,并標(biāo)記它們之間的關(guān)系。然后將其從樹(shù)形結(jié)構(gòu)修改為圖形,遵循[67]中概述的技術(shù)。

空間圖。Yao等人[25]將空間圖(圖2g)定義為表示物體之間空間關(guān)系的圖。由物體探測(cè)器檢測(cè)到的視覺(jué)對(duì)象形成節(jié)點(diǎn),節(jié)點(diǎn)之間的邊表示兩個(gè)對(duì)象之間可能發(fā)生的11種預(yù)定義空間關(guān)系之一。其中包括內(nèi)部(標(biāo)記為“1”),覆蓋(標(biāo)記為“2”),重疊(標(biāo)記為“3”)以及基于兩個(gè)對(duì)象的質(zhì)心之間的角度的八個(gè)位置關(guān)系(標(biāo)記為“4”-“11”)。這些圖是有方向的,但并不總是完整的,因?yàn)橛行┣闆r下兩個(gè)物體之間的空間關(guān)系較弱,因此在空間圖中沒(méi)有通過(guò)邊連接它們。Guo等人[61]定義了一種類似的圖形,稱為幾何圖形。它被定義為一個(gè)無(wú)向圖,編碼物體之間的相對(duì)空間位置,包括重疊和相對(duì)距離,這些距離滿足一定的閾值。

分層空間圖。這些圖是在空間圖的基礎(chǔ)上建立的,但節(jié)點(diǎn)之間的關(guān)系側(cè)重于圖像中檢測(cè)到的對(duì)象之間空間關(guān)系的層次結(jié)構(gòu)。Yao等人提出使用樹(shù)(即每對(duì)節(jié)點(diǎn)由一條路徑連接的圖)來(lái)定義分層圖像表示。首先使用 Faster-RCNN 將圖像(I)分成區(qū)域(R = {r_i}^K_{i=1}),每個(gè)區(qū)域進(jìn)一步分成實(shí)例分割(M = {m_i}^K_{i=1})。這給出了一個(gè)三層樹(shù)形結(jié)構(gòu)(T =(I,R,M,E_{tree}),其中E_{tree}是連接邊的集合),用于表示圖像,如圖2e所示。He等人使用分層空間圖,其中關(guān)系代表“父母”、“孩子”和“鄰居”關(guān)系,具體取決于邊界框的交集與聯(lián)合的比例。

相似性圖。Kan等人提出的相似性圖(圖2h)是通過(guò)計(jì)算由Faster-RCNN [59]提取的兩個(gè)視覺(jué)特征的點(diǎn)積來(lái)生成的。然后使用這些點(diǎn)積形成鄰接矩陣A的值,因?yàn)樵摬僮鞑蹲絻蓚€(gè)向量之間的相似性,點(diǎn)積越高,兩個(gè)向量就越接近。Faster-RCNN提取一組n個(gè)視覺(jué)特征,其中每個(gè)特征x(v)與一個(gè)節(jié)點(diǎn)v相關(guān)聯(lián),而兩個(gè)節(jié)點(diǎn)vu之間的邊的值由A_{u,v} = σ(x(v)^TMx(u))給出,其中σ(·)是非線性函數(shù),M是學(xué)習(xí)的權(quán)重矩陣。 [69]的作者建議,以這種方式生成圖可以通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式發(fā)現(xiàn)對(duì)象之間的關(guān)系,而不是依賴于像Visual Genome [32]這樣的數(shù)據(jù)集上訓(xùn)練的模型。

圖像圖/ K-最近鄰圖。Dong等人在他們的2021年圖像字幕工作中,通過(guò)對(duì)圖像進(jìn)行Faster-RCNN [59]的對(duì)象向量求平均值,將圖像轉(zhuǎn)換為潛在的特征空間。然后,在歐幾里得距離的K個(gè)最接近的訓(xùn)練數(shù)據(jù)或搜索空間中,這些圖像被轉(zhuǎn)換成一個(gè)完整的無(wú)向圖,如圖2i所示。這與Liu等人 [71]使用的K最近鄰圖的方法類似。

主題圖。Kan等人提出的主題圖是一個(gè)無(wú)向圖,其中節(jié)點(diǎn)表示GPU-DMM [72]提取的主題。主題是表示整個(gè)標(biāo)題集中共享知識(shí)的潛在特征。將它們建模成一個(gè)圖(如圖2j所示),通過(guò)計(jì)算兩個(gè)節(jié)點(diǎn)的點(diǎn)積得到邊,可以對(duì)標(biāo)題中表示的知識(shí)進(jìn)行建模。

區(qū)域相鄰圖。在[73]中定義的區(qū)域相鄰圖使用超像素分割。超像素形成圖的節(jié)點(diǎn),并添加邊以連接相鄰區(qū)域?qū)ΑH缓?,將邊加?quán)以表示兩個(gè)相鄰區(qū)域的兼容性。

知識(shí)圖。知識(shí)圖或事實(shí)圖是信息的基于圖的表示形式。雖然這些圖的結(jié)構(gòu)沒(méi)有達(dá)成共識(shí)[74],但它們通常采用三元組的形式。它們?cè)诟鞣N任務(wù)中被用于提供進(jìn)行“推理”所需的信息。因此,知識(shí)圖使得FVQA任務(wù)成為可能。

圖神經(jīng)網(wǎng)絡(luò)綜述

在過(guò)去的幾年中,文獻(xiàn)中提出了大量的圖神經(jīng)網(wǎng)絡(luò)架構(gòu)。Wu等人[75]提出了一個(gè)包含四個(gè)不同組的分類法:循環(huán)GNN,卷積GNN,自編碼器GNN和時(shí)空GNN。本文討論的應(yīng)用主要利用卷積GNN,其他架構(gòu)的綜合概述可參考[75]。GNN,特別是傳統(tǒng)的圖卷積網(wǎng)絡(luò),具有深厚的關(guān)系歸納偏差[27]。它們基于同質(zhì)性的假設(shè),即相連的節(jié)點(diǎn)相似。

圖卷積網(wǎng)絡(luò)(GCNs) 一種常見(jiàn)的卷積GNN架構(gòu)是由Gilmer等人提出的消息傳遞神經(jīng)網(wǎng)絡(luò)(MPNNs)。雖然這種架構(gòu)已經(jīng)被證明具有局限性[76],但它構(gòu)成了GNN的一個(gè)很好的抽象。Gilmer等人將MPNNs描述為由消息函數(shù)、更新函數(shù)和讀出函數(shù)組成。這些函數(shù)將根據(jù)網(wǎng)絡(luò)的應(yīng)用而變化,但是是可學(xué)習(xí)的、可微分的和置換不變的。消息和更新函數(shù)將運(yùn)行T個(gè)時(shí)間步,傳遞圖中連接節(jié)點(diǎn)之間的消息。這些用于更新節(jié)點(diǎn)的隱藏特征向量,然后用于更新節(jié)點(diǎn)特征向量,進(jìn)而在讀取函數(shù)中使用。
消息定義如下:
\bar{m}(t+1)v = \sum{u\in N(v)}M^t(\bar{h}(t)_v, \bar{h}(t)u, \bar{e}{v,u})

其中,下一個(gè)時(shí)間步長(zhǎng)的節(jié)點(diǎn)v的消息\bar{m}(t+1)_v由其當(dāng)前隱藏狀態(tài)\bar{h}(t)_v與其鄰居\bar{h}(t)u以及任何邊特征\bar{e}{v,u}在多層感知器(MLP)Mt(·)中組合而成。由于消息是所有連接節(jié)點(diǎn)的聚合,因此求和是對(duì)連接到節(jié)點(diǎn)u的節(jié)點(diǎn)u ∈ N(v)即v的鄰域進(jìn)行的。然后,將這些消息用于通過(guò)組合節(jié)點(diǎn)當(dāng)前狀態(tài)和消息在MLP Ut中更新隱藏向量。

\bar{h}(t+1)_v = U_t(\bar{h}_v^t, \bar{m}(t+1)_v)

一旦消息傳遞階段運(yùn)行了T個(gè)時(shí)間步長(zhǎng),就會(huì)進(jìn)行讀取階段,使用讀取函數(shù)R(·)。此階段利用考慮圖上節(jié)點(diǎn)的更新特征向量的MLP進(jìn)行預(yù)測(cè),定義為:

\hat{y} = R({\bar{h}^T_v | \bar{v} \in G})

為了使GCN架構(gòu)適用于大型圖形,GraphSAGE [77]架構(gòu)改變了消息函數(shù)。不再?gòu)墓?jié)點(diǎn)的整個(gè)鄰域中獲取消息,而是使用隨機(jī)樣本。這減少了需要處理的消息數(shù)量,從而導(dǎo)致該架構(gòu)在大型圖形上工作良好。

門控圖神經(jīng)網(wǎng)絡(luò) 門控圖神經(jīng)網(wǎng)絡(luò)(GGNN)[78]的核心思想是將消息傳遞架構(gòu)(公式2)中的更新函數(shù)替換為門控循環(huán)單元(GRU)[79]。GRU是一種循環(huán)神經(jīng)網(wǎng)絡(luò),具有更新和重置門,控制哪些數(shù)據(jù)可以流經(jīng)網(wǎng)絡(luò)(并被保留),哪些數(shù)據(jù)不能(因此被遺忘)。

\overline{h}(t+1)_v = GRU(\overline{h}(t)v, \sum{w\in N(v)}W\overline{h}(t)_w)

GGNN還使用可學(xué)習(xí)的權(quán)重矩陣替換公式1中的消息函數(shù)。使用GRU和反向傳播通過(guò)時(shí)間使得GGNN能夠在序列數(shù)據(jù)上操作。但是,由于架構(gòu)的循環(huán)性質(zhì),對(duì)于大型圖形運(yùn)行GGNN可能會(huì)變得不可行。

Graph Attention Networks(GATs) 源自于流行的Transformer架構(gòu)中的多頭注意力機(jī)制[26]。GATs將常見(jiàn)的GCN擴(kuò)展為包括這種注意力屬性。使用一個(gè)注意力函數(shù),通常是由一個(gè)MLP模型建模,這個(gè)架構(gòu)計(jì)算兩個(gè)節(jié)點(diǎn)之間的注意權(quán)重。這個(gè)過(guò)程使用K個(gè)注意頭并行重復(fù)K次。然后對(duì)注意力得分進(jìn)行平均以得到最終的權(quán)重。

自注意力是由函數(shù) a(\textbf{h}_v^t, \textbf{h}_w^t) 計(jì)算的(通常是一個(gè) MLP),用于關(guān)注一個(gè)節(jié)點(diǎn)及其鄰居。一旦圖中每個(gè)節(jié)點(diǎn)對(duì)的注意力都被計(jì)算出來(lái),得分就通過(guò) softmax 函數(shù)傳遞,以給出規(guī)范化的注意力系數(shù)。然后,通過(guò)在 K 個(gè)不同的注意頭上重復(fù)此過(guò)程,并使用不同的初始化權(quán)重,將其擴(kuò)展到多頭注意力。最終節(jié)點(diǎn)表示通過(guò)將 K 個(gè)注意頭連接或平均(表示為 ‖)在一起實(shí)現(xiàn)。

公式

圖形內(nèi)存網(wǎng)絡(luò) 近年來(lái),出現(xiàn)了圖形內(nèi)存網(wǎng)絡(luò)的發(fā)展,這些網(wǎng)絡(luò)可以概念化地認(rèn)為是具有內(nèi)部和外部記憶的模型。當(dāng)有多個(gè)圖形重疊相同的空間信息時(shí),例如在[81]中,使用某種形式的外部存儲(chǔ)器可以允許對(duì)節(jié)點(diǎn)更新進(jìn)行聚合,并且圖形經(jīng)歷了消息傳遞。這本質(zhì)上允許以超越更簡(jiǎn)單的匯集操作的方式組合來(lái)自多個(gè)圖形的特征。在Khademi [81]的情況下,通過(guò)相同的圖像構(gòu)建了兩個(gè)圖形,但可能具有不同的節(jié)點(diǎn)。這些圖形使用GGNN進(jìn)行更新。使用具有注意機(jī)制的神經(jīng)網(wǎng)絡(luò)構(gòu)建外部空間存儲(chǔ)器以匯總圖形更新過(guò)程中的信息。空間記憶的最終狀態(tài)用于執(zhí)行最終任務(wù)。

現(xiàn)代圖形神經(jīng)網(wǎng)絡(luò)架構(gòu) 近年來(lái),消息傳遞GNN的限制變得越來(lái)越明顯,從它們?cè)诰W(wǎng)絡(luò)深度增加時(shí)過(guò)度平滑輸入特征的傾向[82],到它們?cè)诋愘|(zhì)性設(shè)置[83]中的不令人滿意的性能,即,當(dāng)輸入圖形中相鄰的節(jié)點(diǎn)不相似時(shí)。此外,基于消息傳遞機(jī)制的GNN的表達(dá)能力被證明受到著名的WeisfeilerLehman同構(gòu)測(cè)試的限制[76],這意味著它們生成不同結(jié)構(gòu)的輸入圖形的不同表示能力存在固有的限制。受到想要克服這些問(wèn)題的愿望的推動(dòng),研究人員現(xiàn)在開(kāi)始探索遠(yuǎn)離標(biāo)準(zhǔn)消息傳遞體系結(jié)構(gòu)的替代模型。在這方面的努力包括許多其他內(nèi)容,例如高階消息傳遞架構(gòu)[84],單元復(fù)合網(wǎng)絡(luò)[85],基于擴(kuò)散過(guò)程的網(wǎng)絡(luò)[86],[2],[83]。據(jù)我們所知,尚未探索將這些體系結(jié)構(gòu)應(yīng)用于本文中討論的2D圖像理解任務(wù)。因此,我們將讀者引用參考文獻(xiàn)中的文章,以獲得有關(guān)各自體系結(jié)構(gòu)的詳細(xì)信息。

圖像字幕

圖像字幕生成是一項(xiàng)具有挑戰(zhàn)性的任務(wù),旨在產(chǎn)生自然語(yǔ)言描述圖像的文本。除了是一個(gè)有趣的技術(shù)挑戰(zhàn)外,它還提供了開(kāi)發(fā)針對(duì)嚴(yán)重視力受損(正式稱為“盲”)和視力受損用戶(正式稱為“視力受損”)的輔助技術(shù)的機(jī)會(huì)。此外,它在從圖像索引到監(jiān)視等問(wèn)題上都有應(yīng)用。圖像字幕生成技術(shù)有三種形式:1)基于檢索的字幕生成,其中從一組現(xiàn)有字幕中檢索出一個(gè)字幕;2)基于模板的字幕生成,其中使用從圖像中提取的信息填充預(yù)先存在的模板;3)基于深度學(xué)習(xí)的圖像字幕生成,其中神經(jīng)網(wǎng)絡(luò)的任務(wù)是從輸入圖像生成字幕。我們提議細(xì)化此分類法,以區(qū)分基于圖神經(jīng)網(wǎng)絡(luò)的方法和傳統(tǒng)的基于深度學(xué)習(xí)的圖像字幕生成。下面的章節(jié)詳細(xì)介紹了最近幾年中一些基于圖神經(jīng)網(wǎng)絡(luò)的圖像字幕生成方法。圖3說(shuō)明了通用的基于圖神經(jīng)網(wǎng)絡(luò)的圖像字幕生成架構(gòu)的結(jié)構(gòu)。
GNN-based方法的圖像字幕生成都采用了深度學(xué)習(xí)圖像字幕生成技術(shù)中常用的傳統(tǒng)編碼器-解碼器方法。首先對(duì)圖像進(jìn)行物體檢測(cè),其輸出被用于創(chuàng)建編碼。這些編碼然后經(jīng)過(guò)解碼,傳統(tǒng)上使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM),生成字幕。通過(guò)將GNN結(jié)構(gòu)加入,研究人員能夠通過(guò)將空間和語(yǔ)義信息融入嵌入中來(lái)增強(qiáng)圖像的編碼表示。隨著圖像字幕任務(wù)的發(fā)展,用于評(píng)估提出架構(gòu)性能的評(píng)估指標(biāo)也在不斷發(fā)展。最初,圖像字幕主要依賴于機(jī)器翻譯評(píng)估技術(shù),如BLEU [88]、ROUGE [89]和METEOR [90],因?yàn)闆](méi)有專門的圖像字幕評(píng)估指標(biāo)。然而,隨著CIDEr [91]和SPICE [67]的引入,情況發(fā)生了改變。性能指標(biāo)詳見(jiàn)表II。第一個(gè)使用GNN來(lái)改進(jìn)圖像字幕的架構(gòu)是由Yao等人[25]提出的。在他們的工作中,他們建議使用GCN來(lái)改善圖像中物體的特征嵌入。首先,他們將更快的RCNN物體檢測(cè)器 [59]應(yīng)用于圖像,以提取表示物體的特征向量。這些特征向量然后用于創(chuàng)建兩個(gè)圖:一個(gè)雙向空間圖編碼對(duì)象之間的空間關(guān)系,一個(gè)有向語(yǔ)義圖編碼對(duì)象之間的語(yǔ)義關(guān)系。然后在兩個(gè)圖上應(yīng)用GCN,增強(qiáng)圖形的特征向量經(jīng)過(guò)均值池化。最后由LSTM解碼生成字幕。由于整個(gè)圖被用于生成字幕,可能導(dǎo)致稠密圖中包含冗余或低價(jià)值信息的情況出現(xiàn)。
Zhong等人[60]專注于語(yǔ)義場(chǎng)景圖,并解決了包含大量檢測(cè)對(duì)象的場(chǎng)景中應(yīng)包括哪些節(jié)點(diǎn)和邊緣的問(wèn)題。由于語(yǔ)義場(chǎng)景圖可以變得相對(duì)較大,這對(duì)于包含大量檢測(cè)對(duì)象的場(chǎng)景是具有挑戰(zhàn)性的。該問(wèn)題通過(guò)將語(yǔ)義圖分解成覆蓋圖像各個(gè)部分的各種子圖來(lái)解決。然后使用訓(xùn)練的函數(shù)對(duì)它們進(jìn)行打分,以確定子圖與參考語(yǔ)句的相似度。這使得可以從主場(chǎng)景圖中選擇生成有用標(biāo)題的子圖。起始的語(yǔ)義圖是由MotifNet[92](常見(jiàn)的現(xiàn)成語(yǔ)義圖生成器)生成的。Zhong等人[60]使用GCN來(lái)匯總所提出子圖的鄰域信息。與Yao等人不同,[60]僅使用語(yǔ)義圖。他們關(guān)注語(yǔ)言和語(yǔ)義圖之間的聯(lián)系,而不使用空間信息。Song等人[93]的研究也利用了語(yǔ)義圖,并研究了如何利用隱式和顯式特征生成準(zhǔn)確和高質(zhì)量的圖像標(biāo)題。作者將隱式特征定義為表示對(duì)象之間全局交互的特征,將顯式特征定義為在語(yǔ)義圖上定義的特征。對(duì)于后者,[93]僅使用單個(gè)語(yǔ)義圖,但不像其他作品[60]中那樣直接通過(guò)MotifNet[92]預(yù)測(cè)圖。它的構(gòu)建始于空間圖。在目標(biāo)檢測(cè)之后,在對(duì)象之間生成一個(gè)全連接有向圖(其中節(jié)點(diǎn)由對(duì)象特征向量表示)。然后在兩個(gè)步驟中刪除該圖的邊緣。首先,刪除在重疊區(qū)域(以交集/聯(lián)合度量)為零且l2距離小于任何對(duì)象的邊界框的最長(zhǎng)邊的對(duì)象之間的邊緣。其余的邊緣用于確定哪些對(duì)象對(duì)的關(guān)系被MotifNet[92]檢測(cè)到。保留概率足夠高的關(guān)系,而其他關(guān)系則被刪除。這會(huì)產(chǎn)生一個(gè)語(yǔ)義圖,間接包含了空間信息,超越了[60]的語(yǔ)義圖。然后,GGNN處理最終的圖,其輸出是顯式特征的表示。隱式特征由Transformer編碼器[26]生成。整個(gè)圖像以及檢測(cè)到的對(duì)象邊界框中的區(qū)域都被編碼。然后將這些特征與顯式特征一起作為輸入,輸入到LSTM語(yǔ)言解碼器中,以生成最終的標(biāo)題。這項(xiàng)工作展示了在GNN與Transformer相結(jié)合的情況下,利用它們不同的歸納偏置來(lái)最佳地建模不同的交互作用是可能取得成功的(見(jiàn)表III)。然而,隱式和顯式關(guān)系仍局限于單個(gè)圖像。進(jìn)一步的工作可以考慮在整個(gè)數(shù)據(jù)集中某些關(guān)系的頻率。
Guo等人[61]與Yao等人[25]的工作非常相似,利用了包含語(yǔ)義和空間圖的雙重圖結(jié)構(gòu)。然而,他們觀察到圖像可以由一組視覺(jué)語(yǔ)義單元(VSU)向量表示,這些向量表示一個(gè)對(duì)象、其屬性和其關(guān)系。這些VSU被組合成一個(gè)語(yǔ)義圖,將關(guān)系表示為節(jié)點(diǎn)而不是邊特征,并添加連接到對(duì)象的屬性節(jié)點(diǎn),因此使其成為多部分圖。這樣做使得圖形更接近于生成的標(biāo)題,因?yàn)閷?duì)象映射到名詞,關(guān)系映射到動(dòng)詞和介詞,最后屬性映射到形容詞。作者認(rèn)為,這種方法使模型能夠顯式地學(xué)習(xí)關(guān)系并直接對(duì)其進(jìn)行建模。正如[61]所說(shuō),圖像的場(chǎng)景圖與圖像標(biāo)題有密切的映射關(guān)系。表示對(duì)象的節(jié)點(diǎn)直接映射到名詞,表示關(guān)系的邊特征(在[25]的情況下)或節(jié)點(diǎn)(在[61]的情況下)清晰地映射到介詞,表示屬性的節(jié)點(diǎn)映射到形容詞。編碼器生成的圖結(jié)構(gòu)與解碼器輸出的最終句子之間的這種強(qiáng)關(guān)系進(jìn)一步支持許多圖像字幕系統(tǒng)使用的圖像-圖形-句子體系結(jié)構(gòu)的使用。
Zhou等人 [62] 在Faster-RCNN [59]圖像特征提取器旁邊使用LSTM,并添加了視覺(jué)自注意機(jī)制。作者們采用了一個(gè)多部分的語(yǔ)義場(chǎng)景圖,遵循了 [24],[61] 的風(fēng)格。具體而言,他們建議使用三個(gè)GCN來(lái)為每個(gè)對(duì)象、屬性和關(guān)系節(jié)點(diǎn)創(chuàng)建上下文感知特征向量。生成的上下文感知節(jié)點(diǎn)通過(guò)與自我注意力圖進(jìn)行融合,使模型能夠控制字幕的粒度。最后,作者測(cè)試了兩種基于LSTM的語(yǔ)言生成器的訓(xùn)練方法,第一種是傳統(tǒng)的監(jiān)督方法,使用交叉熵?fù)p失,第二種是基于強(qiáng)化學(xué)習(xí)的方法,使用CIDEr [91]作為獎(jiǎng)勵(lì)函數(shù)。通過(guò)在架構(gòu)中使用上下文依賴的GCN,以特別考慮對(duì)象、屬性和關(guān)系節(jié)點(diǎn),SASG能夠在與類似模型的競(jìng)爭(zhēng)中取得具有競(jìng)爭(zhēng)力的結(jié)果,如表III所示。
《場(chǎng)景圖自動(dòng)編碼器》是另一篇利用多部分語(yǔ)義圖的論文。在這篇論文中,楊等人[44]將標(biāo)題轉(zhuǎn)換為多部分文本語(yǔ)義圖,使用了與SPICE度量[67]類似的過(guò)程(在表II中有詳細(xì)描述)。圖中的節(jié)點(diǎn)被轉(zhuǎn)換為單詞嵌入,然后通過(guò)GCN轉(zhuǎn)換為特征嵌入,每種節(jié)點(diǎn)類型都有自己獨(dú)立的GCN和參數(shù)。這些特征嵌入與字典結(jié)合起來(lái),以便在生成句子之前重新編碼。通過(guò)反向傳播來(lái)自句子再生的交叉熵?fù)p失,更新字典權(quán)重。通過(guò)包含字典,作者能夠從標(biāo)題中學(xué)習(xí)歸納偏差。這使生成的字幕能夠從“man on motorcycle”變?yōu)椤癿an riding motorcycle”。在給定圖像的情況下,SGAE使用Faster-RCNN [59]和MotifNet [92]生成一個(gè)多部分視覺(jué)語(yǔ)義圖,類似于[24],[61]。這些視覺(jué)特征通過(guò)多模式GCN與單詞嵌入結(jié)合起來(lái),然后使用先前學(xué)習(xí)的字典進(jìn)行重新編碼。這些特征然后用于生成最終的句子。
Wang等人 [94] 沒(méi)有使用多個(gè)圖,而是使用一個(gè)完全連接的空間圖和一個(gè)注意力機(jī)制來(lái)學(xué)習(xí)不同區(qū)域之間的關(guān)系。該圖由代表圖像內(nèi)區(qū)域空間信息的節(jié)點(diǎn)組成。形成圖后,通過(guò)GGNN [78] 學(xué)習(xí)與邊緣相關(guān)的權(quán)重。一旦學(xué)習(xí)完畢,這些邊緣權(quán)重對(duì)應(yīng)于兩個(gè)節(jié)點(diǎn)之間存在關(guān)系的概率。姚等人 [68] 的工作是基于他們的GCNLSTM [25] 的,提出了一種使用新型層次解析(HIP)架構(gòu)的圖像編碼器。與大多數(shù)現(xiàn)代圖像字幕論文 [25],[60],[70] 中傳統(tǒng)的場(chǎng)景圖結(jié)構(gòu)不同,姚等人 [68] 采用了使用樹(shù)形結(jié)構(gòu)的新方法(在第 II-C 節(jié)中討論),利用了圖像中對(duì)象的層次結(jié)構(gòu)。與他們以前的工作專注于語(yǔ)義和空間關(guān)系不同,這項(xiàng)工作涉及圖像內(nèi)部的分層結(jié)構(gòu)。這種分層關(guān)系可以視為語(yǔ)義和空間信息的結(jié)合 - 因此合并了先前使用的兩個(gè)圖。代表樹(shù)上頂點(diǎn)的特征向量通過(guò)使用TreeLSTM [95] 得到改善。由于樹(shù)是圖的一種特殊情況,因此作者還展示了他們先前的工作GCN-LSTM [25]可用于在解碼之前使用樹(shù)來(lái)創(chuàng)建增強(qiáng)的嵌入。他們證明了包含層次傳遞可以提高所有基準(zhǔn)測(cè)試的分?jǐn)?shù),與不使用分層關(guān)系的GCN-LSTM [25]相比。
Wang等人 [94] 沒(méi)有使用多個(gè)圖,而是使用一個(gè)完全連接的空間圖和一個(gè)注意力機(jī)制來(lái)學(xué)習(xí)不同區(qū)域之間的關(guān)系。該圖由代表圖像內(nèi)區(qū)域空間信息的節(jié)點(diǎn)組成。形成圖后,通過(guò)GGNN [78] 學(xué)習(xí)與邊緣相關(guān)的權(quán)重。一旦學(xué)習(xí)完畢,這些邊緣權(quán)重對(duì)應(yīng)于兩個(gè)節(jié)點(diǎn)之間存在關(guān)系的概率。姚等人 [68] 的工作是基于他們的GCNLSTM [25] 的,提出了一種使用新型層次解析(HIP)架構(gòu)的圖像編碼器。與大多數(shù)現(xiàn)代圖像字幕論文 [25],[60],[70] 中傳統(tǒng)的場(chǎng)景圖結(jié)構(gòu)不同,姚等人 [68] 采用了使用樹(shù)形結(jié)構(gòu)的新方法(在第 II-C 節(jié)中討論),利用了圖像中對(duì)象的層次結(jié)構(gòu)。與他們以前的工作專注于語(yǔ)義和空間關(guān)系不同,這項(xiàng)工作涉及圖像內(nèi)部的分層結(jié)構(gòu)。這種分層關(guān)系可以視為語(yǔ)義和空間信息的結(jié)合 - 因此合并了先前使用的兩個(gè)圖。代表樹(shù)上頂點(diǎn)的特征向量通過(guò)使用TreeLSTM [95] 得到改善。由于樹(shù)是圖的一種特殊情況,因此作者還展示了他們先前的工作GCN-LSTM [25]可用于在解碼之前使用樹(shù)來(lái)創(chuàng)建增強(qiáng)的嵌入。他們證明了包含層次傳遞可以提高所有基準(zhǔn)測(cè)試的分?jǐn)?shù),與不使用分層關(guān)系的GCN-LSTM [25]相比。
像 [46] 一樣,Cornia 等人提出的 M2 網(wǎng)格存儲(chǔ) Transformer 也使用了越來(lái)越流行的 Transformer 架構(gòu) [26]。與其他一些論文 [25]、[68]、[44]、[46] 不同的是,它使用一組自注意力層對(duì)所有圖像區(qū)域進(jìn)行編碼,而不是利用一些預(yù)定義的圖像特征結(jié)構(gòu)(如空間圖、語(yǔ)義圖等)。Transformer 中的標(biāo)準(zhǔn)鍵和值被編輯以包括可學(xué)習(xí)的持久性記憶向量的連接。這使得架構(gòu)能夠編碼先驗(yàn)知識(shí),例如“雞蛋”和“吐司”組成了“早餐”的概念。在解碼器輸出的解碼時(shí),也使用一組自注意層。每個(gè)解碼器層通過(guò)門控交叉注意機(jī)制與每個(gè)編碼器層相連,形成了論文中的“meshed”概念。解碼器塊的輸出用于生成最終的輸出字幕。

類似于 [46],[69] 的作者提出使用一種新穎的相似性(在論文中稱為語(yǔ)義)和主題圖。該圖是建立在點(diǎn)積相似度的基礎(chǔ)上的,不需要像 MotifNet [92] 這樣的圖提取模型。相反,從 Faster-RCNN 對(duì)象檢測(cè)器 [59] 中提取了一組頂點(diǎn) V = {v_i \in \mathbb{R}^{d_{obj}}}{i=1}^{n{obj}} 作為 ResNet 特征。然后使用 V 中特征向量之間的點(diǎn)積來(lái)填充鄰接矩陣中的邊,其中 a_{ij}=\sigma(v_i^TMv_j)。一旦構(gòu)建完兩個(gè)圖,就會(huì)對(duì)兩個(gè)圖都應(yīng)用 GCN 來(lái)豐富節(jié)點(diǎn)的局部上下文。然后,應(yīng)用圖自注意機(jī)制以確保節(jié)點(diǎn)不僅僅考慮其直接鄰居。改進(jìn)后的圖然后通過(guò) LSTM 進(jìn)行解碼以生成字幕。
Dong等人[70]繼承了[25]的思路,使用空間圖來(lái)展示輸入圖像中檢測(cè)到的物體之間的有向關(guān)系。局部上,通過(guò)CNN提取物體特征,將每個(gè)頂點(diǎn)關(guān)聯(lián)到一個(gè)向量。該過(guò)程對(duì)數(shù)據(jù)集中的每個(gè)圖像都進(jìn)行了處理。除了這個(gè)圖之外,作者還引入了一個(gè)圖像級(jí)別的圖。具體來(lái)說(shuō),每個(gè)圖像由一個(gè)特征向量表示,該向量是與其相關(guān)聯(lián)的一組物體特征向量的平均值。相應(yīng)圖像的圖形由K個(gè)距離輸入圖像最近的圖像組成,這些圖像形成了一個(gè)完全連接的無(wú)向圖。局部空間圖和更全局的圖像級(jí)別圖都通過(guò)GCN進(jìn)行處理,以創(chuàng)建更豐富的嵌入,用于生成字幕。這種方法表現(xiàn)非常出色,Dual-GCN在BLEU、METEOR和ROGUE指標(biāo)上優(yōu)于可比較的模型(見(jiàn)表III)。

視覺(jué)問(wèn)答

VQA是一項(xiàng)具有挑戰(zhàn)性的任務(wù),需要設(shè)計(jì)和實(shí)現(xiàn)模型以回答給定圖像的自然語(yǔ)言問(wèn)題。這些答案可以從簡(jiǎn)單的是/否回答到更自然、更長(zhǎng)的回答。問(wèn)題的復(fù)雜程度也各不相同。隨著該領(lǐng)域的發(fā)展,出現(xiàn)了更具體的VQA任務(wù)。第一個(gè)出現(xiàn)的是FVQA,有時(shí)也稱為知識(shí)視覺(jué)問(wèn)答(KVQA),需要外部知識(shí)源來(lái)回答問(wèn)題。另一個(gè)出現(xiàn)的任務(wù)是文本VQA,在這種情況下,模型必須理解場(chǎng)景中的文本才能生成答案。所有三個(gè)任務(wù)都有自己的數(shù)據(jù)集[35],[32],[38],[36],[39],并有活躍的社區(qū)開(kāi)發(fā)解決方案[35],[65],[81]。

VQA
VQA最初提出于[35],已經(jīng)從簡(jiǎn)單的“是”或“否”答案發(fā)展到更豐富的自然語(yǔ)言答案。常見(jiàn)的方法是利用VQA的多模態(tài)特征,同時(shí)利用輸入圖像的視覺(jué)特征和問(wèn)題的文本特征[65],[81],[66]。

Teney等人的研究 [65] 是在VQA中最早使用GNN的工作之一。他們的模型以視覺(jué)場(chǎng)景圖為輸入,以及一個(gè)問(wèn)題。然后使用斯坦福依賴解析器 [64] 將問(wèn)題解析成文本場(chǎng)景圖。這些場(chǎng)景圖獨(dú)立地使用GGNN [78] 進(jìn)行處理,該模型已被修改以包含注意機(jī)制。然后,使用反映場(chǎng)景圖中兩個(gè)節(jié)點(diǎn)彼此相關(guān)性的注意機(jī)制,將原始特征向量組合在一起。Khademi [81]采用了多模態(tài)方法來(lái)處理VQA問(wèn)題,他使用密集區(qū)域字幕與提取的視覺(jué)特征一起使用。給定一個(gè)查詢和輸入圖像,模型將使用Faster-RCNN對(duì)象檢測(cè)器提取視覺(jué)區(qū)域,并使用ResNet生成一組特征,并將邊界框信息編碼到這些特征中。還使用現(xiàn)成的密集區(qū)域字幕模型創(chuàng)建一組字幕和關(guān)聯(lián)的邊界框。使用GRU編碼字幕和邊界框信息。每組特征都被轉(zhuǎn)換成圖形(視覺(jué)和文本),在特征之間存在出站和入站邊,如果標(biāo)準(zhǔn)化邊界框中心之間的歐幾里得距離小于γ = 0.5,則存在邊。兩個(gè)圖形都通過(guò)GGNN進(jìn)行處理,更新后的特征被用于更新外部空間存儲(chǔ)單元,從而使網(wǎng)絡(luò)成為圖形存儲(chǔ)網(wǎng)絡(luò)(在第III-D節(jié)中描述)。在傳播節(jié)點(diǎn)特征之后,外部空間記憶網(wǎng)絡(luò)的最終狀態(tài)被轉(zhuǎn)換為一個(gè)完整的圖形,其中每個(gè)位置都是一個(gè)節(jié)點(diǎn)。這個(gè)最終圖形由GGNN處理,生成最終答案。該論文中提出的多模態(tài)方法在基準(zhǔn)測(cè)試中表現(xiàn)出極高的效果,提出的MN-GMN體系結(jié)構(gòu) [81] 在與可比較的模型的比較中表現(xiàn)出色(見(jiàn)表IV)。
MORN [66]是另一項(xiàng)旨在捕捉問(wèn)題和圖像之間復(fù)雜多模態(tài)關(guān)系的工作。和許多最近的深度學(xué)習(xí)工作一樣,它采用了Transformer [26]架構(gòu)。模型由三個(gè)主要組件構(gòu)成,首先創(chuàng)建一個(gè)圖形化的視覺(jué)圖像,從檢測(cè)到的物體的完全連接圖開(kāi)始,使用GCN來(lái)匯集視覺(jué)特征。模型的第二部分從輸入問(wèn)題中創(chuàng)建一個(gè)文本場(chǎng)景圖。最后,模型的第三個(gè)組件是一個(gè)關(guān)系多模態(tài)Transformer,用于對(duì)齊表示。 Sharma等人 [96]也采用了視覺(jué)語(yǔ)言多模態(tài)方法,但是放棄了使用文本語(yǔ)義圖,而是選擇使用單詞嵌入。作者利用了一種新穎的基于GGNN的架構(gòu),該架構(gòu)處理代表視覺(jué)特征的節(jié)點(diǎn)的無(wú)向完全圖。節(jié)點(diǎn)被賦予兩個(gè)節(jié)點(diǎn)之間存在關(guān)系的概率權(quán)重。與其他VQA工作 [81]一樣,問(wèn)題被限制在14個(gè)單詞以內(nèi),每個(gè)單詞都被轉(zhuǎn)換為GloVe嵌入 [97]。少于14個(gè)單詞的問(wèn)題被用零向量進(jìn)行填充。然后使用GRU應(yīng)用于單詞嵌入來(lái)生成問(wèn)題嵌入。基于LSTM的注意機(jī)制同時(shí)考慮問(wèn)題向量和構(gòu)成場(chǎng)景圖節(jié)點(diǎn)的視覺(jué)表示。這個(gè)模塊在探索新的視覺(jué)特征時(shí)考慮了先前關(guān)注的區(qū)域。最后,使用基于LSTM的語(yǔ)言生成器來(lái)生成最終答案。 Zhang等人 [41]放棄了使用文本場(chǎng)景圖,而是利用單詞向量將有關(guān)圖像的信息嵌入語(yǔ)義圖中。使用GNN,他們能夠創(chuàng)建表示節(jié)點(diǎn)、邊緣和表示全局狀態(tài)的圖像特征向量的豐富特征向量。他們通過(guò)對(duì)單詞向量進(jìn)行平均處理,將問(wèn)題包含在圖像特征中,從而使GNN能夠?qū)D像進(jìn)行推理。雖然[96]和[41]都取得了良好的結(jié)果,但是僅使用單詞或句子級(jí)別的嵌入,而不使用文本場(chǎng)景圖,它們未能在文本領(lǐng)域建模關(guān)系。這就去除了模型僅在文本領(lǐng)域推理的能力。
Li等人[98]和Nuthalapati等人[99]采用了不同于傳統(tǒng)多模態(tài)方法的視覺(jué)信息處理方式。Li等人[98]受[25]啟發(fā),使用語(yǔ)義和空間圖來(lái)表示圖像。除了這些顯式的圖外,他們還引入了一種隱式圖,即在檢測(cè)到的物體之間建立的全連接圖,由GAT設(shè)置邊權(quán)。然后,使用多模態(tài)融合將關(guān)系感知視覺(jué)特征與問(wèn)題向量組合。融合輸出隨后通過(guò)MLP預(yù)測(cè)答案。Nuthalapati等人[99]采用了雙場(chǎng)景圖方法,使用視覺(jué)和語(yǔ)義圖。這些圖被合并成一個(gè)單獨(dú)的圖嵌入,使用一種新穎的GAT架構(gòu)[80],該架構(gòu)能夠關(guān)注邊緣和節(jié)點(diǎn)。圖形被豐富了在問(wèn)題中出現(xiàn)但在圖中不存在的負(fù)面實(shí)體。然后進(jìn)行修剪,以刪除距離問(wèn)題中提到的特征K跳之外的節(jié)點(diǎn)和邊緣。最后使用解碼器來(lái)回答輸入的問(wèn)題。

基于知識(shí)/事實(shí)的 VQA
基于知識(shí)或事實(shí)的VQA是利用知識(shí)圖譜(例如WikiData [53])中的外部知識(shí)來(lái)回答關(guān)于圖像的問(wèn)題的挑戰(zhàn)性任務(wù)。這個(gè)任務(wù)的主要挑戰(zhàn)是創(chuàng)建一個(gè)能夠利用三種媒介(圖像、問(wèn)題和事實(shí))來(lái)生成適當(dāng)答案的模型。MUCKO [100]的架構(gòu)圖如圖4所示(獲得了重復(fù)使用的許可),作為處理FVQA的模型的代表性例子。在[101]中,作者提出了一種基于GCN的FVQA架構(gòu)。除了問(wèn)題和答案集之外,還包括事實(shí)知識(shí)庫(kù)KB = {f_1,f_2,...,f_{|KB|}}。每個(gè)事實(shí)f =(x,r,y)由圖像中基于視覺(jué)概念的一個(gè)(x),一個(gè)屬性或短語(yǔ)(y)和連接兩者的關(guān)系r組成。關(guān)系以13種不同的預(yù)定義方式存在于概念和屬性之間。他們的工作首先通過(guò)使用問(wèn)題和事實(shí)中的單詞的GloVe嵌入[97]將搜索空間縮小到最有可能包含正確答案的100個(gè)事實(shí),然后將其進(jìn)一步縮小為最相關(guān)的事實(shí)f_{rel}。這些最相關(guān)的事實(shí)被轉(zhuǎn)化為圖形,其中f_{rel}中的所有視覺(jué)概念和屬性形成節(jié)點(diǎn)。如果兩個(gè)節(jié)點(diǎn)由frel中的事實(shí)相關(guān),則連一條邊。然后使用GCN在圖形上進(jìn)行“推理”,以預(yù)測(cè)最終答案。通過(guò)使用消息傳遞架構(gòu),作者能夠更新節(jié)點(diǎn)的特征表示,然后將其饋入MLP,預(yù)測(cè)對(duì)應(yīng)于實(shí)體是否包含答案的二進(jìn)制標(biāo)簽。
Zhu等人[100]采用多模態(tài)圖的方法來(lái)表示圖像,其中包括視覺(jué)、語(yǔ)義和知識(shí)圖。在構(gòu)建圖之后,應(yīng)用GCN到每個(gè)模態(tài)以創(chuàng)建更豐富的特征嵌入。這些嵌入然后以跨模態(tài)的方式進(jìn)行處理。Visual-Fact聚合和Semantic-Fact聚合操作產(chǎn)生互補(bǔ)的信息,然后與FactFact卷積層一起使用。這個(gè)最后一層考慮到所有三種模態(tài),并產(chǎn)生考慮全局上下文的答案。作者在[58]中繼續(xù)了他們的工作,將跨模態(tài)機(jī)制更改為新穎的GRUC(基于圖的讀取、更新和控制)機(jī)制。GRUC以并行管道運(yùn)作。一個(gè)管道從知識(shí)圖的概念開(kāi)始,從視覺(jué)圖中反復(fù)合并知識(shí)。另一個(gè)從同樣的知識(shí)圖概念開(kāi)始,但合并語(yǔ)義知識(shí)。在經(jīng)過(guò)反復(fù)操作后,兩個(gè)管道的輸出與問(wèn)題和原始事實(shí)節(jié)點(diǎn)一起融合。這個(gè)融合特征然后用于預(yù)測(cè)最終的答案。跨模態(tài)注意機(jī)制的改變使得與MUCKO[100]相比,在F-VQA基準(zhǔn)測(cè)試中獲得了顯著的改進(jìn)。
Liu et al. [102]提出了一種多模態(tài)方法,但只使用了語(yǔ)義和知識(shí)模態(tài)。他們基于認(rèn)知科學(xué)中的雙過(guò)程理論提出了一個(gè)基于兩個(gè)系統(tǒng)的FVQA解決方案。他們的方法利用BERT編碼器表示輸入問(wèn)題和基于Faster-RCNN [59]的特征提取器表示圖像特征。第一個(gè)系統(tǒng)基于Transformer架構(gòu)[26],將這兩個(gè)表示連接成一個(gè)多模態(tài)表示。第二個(gè)系統(tǒng)隨后使用SPICE將稠密區(qū)域標(biāo)題轉(zhuǎn)換為文本場(chǎng)景圖(Textual Scene Graph),并使用問(wèn)題輸入生成知識(shí)圖。然后,使用消息傳遞GNN來(lái)確定重要節(jié)點(diǎn),并使用注意力加權(quán)在它們之間聚合信息。然后,通過(guò)將整個(gè)語(yǔ)義圖形與具有關(guān)聯(lián)關(guān)系的節(jié)點(diǎn)組合成聯(lián)合表示,學(xué)習(xí)每個(gè)知識(shí)圖節(jié)點(diǎn)的聯(lián)合表示。這個(gè)聯(lián)合表示然后用于預(yù)測(cè)最終答案。與多模態(tài)方法不同,SGEITL [104]使用圖像的語(yǔ)義圖,然后遵循Yang等人的方法[40],向圖中引入跳過(guò)邊,基本上使它成為一個(gè)完整圖。然后,這個(gè)圖經(jīng)過(guò)一個(gè)多跳圖變換器,該變換器基于它們之間的距離屏蔽節(jié)點(diǎn)之間的注意力,確保只有附近的節(jié)點(diǎn)被關(guān)注。通過(guò)他們的工作,他們證明結(jié)構(gòu)信息在解決復(fù)雜的VQA任務(wù)時(shí)是有用的。
在他們的TRiG模型中,高等等人 [105] 倡導(dǎo)采取一種替代的方法來(lái)解決FVQA問(wèn)題,而不是在某種多模態(tài)空間中生成答案,他們建議使用文本空間。他們認(rèn)為這可以防止進(jìn)一步與外部知識(shí)融合,而且由于大多數(shù)數(shù)據(jù)都是以文本形式存在的,因此在該領(lǐng)域中工作是有意義的。因此,TRiG具有三個(gè)組件。它首先使用現(xiàn)成的圖像字幕工具將圖像轉(zhuǎn)換為字幕。然后,該模型從維基百科文章的知識(shí)庫(kù)中找到前K個(gè)相關(guān)事實(shí),然后使用T5支撐的Transformer [106] 將<問(wèn)題、視覺(jué)背景、知識(shí)>三元組融合和解碼成答案。
文本VQA
TextVQA是VQA的一個(gè)子任務(wù),其中答案需要模型能夠讀取出現(xiàn)在圖像中的文本。通常這包括從建筑物上讀取品牌名稱或書籍封面上的標(biāo)題等任務(wù)。這些信息可以與外部知識(shí)庫(kù)相結(jié)合,使模型能夠通過(guò)讀取商店名稱并在知識(shí)庫(kù)中搜索來(lái)回答問(wèn)題,例如“這家商店是美國(guó)品牌嗎?” [107]。高等人專注于圖像中的文本及其如何更好地利用以提高VQA的準(zhǔn)確性。他們使用了一個(gè)由完全連接的視覺(jué)、語(yǔ)義和數(shù)字子圖組成的新型多模態(tài)圖。每個(gè)子圖表示在圖像中找到的唯一模態(tài):視覺(jué)實(shí)體(由圖像特征提取器表示)、發(fā)現(xiàn)的文本的語(yǔ)義含義(最初由OCR發(fā)現(xiàn)),以及數(shù)字值及其語(yǔ)義含義。該論文提出了一種模型,使用相關(guān)性評(píng)分跨模態(tài)聚合信息。一旦三個(gè)模態(tài)被聚合,便會(huì)部署一種注意力機(jī)制來(lái)幫助預(yù)測(cè)最終答案。專注于不同模態(tài)證明是一種有用的方法,該模型在基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異(見(jiàn)表VI)。

另一項(xiàng)利用多模態(tài)圖的工作是梁等人的研究 [108]。他們的工作使用圖像特征和場(chǎng)景文本特征(由OCR提取)生成了一個(gè)類似于[25]的空間關(guān)系圖。圖經(jīng)過(guò)多頭注意力處理后,再通過(guò)使用注意權(quán)重的GNN進(jìn)行處理。然后使用多模態(tài)融合將節(jié)點(diǎn)特征與問(wèn)題嵌入和位置特征相結(jié)合。這個(gè)融合操作的輸出被用來(lái)預(yù)測(cè)最終的答案。

圖像檢索

圖像檢索是從數(shù)據(jù)庫(kù)中找到圖像的任務(wù),給定一些查詢條件。這些查詢條件可以采用許多形式,包括相似的圖像、自然語(yǔ)言查詢,甚至是草圖。常用的方法是將數(shù)據(jù)庫(kù)圖像表示為在某個(gè)空間中,其中與查詢最接近的圖像是與查詢之間距離最小的圖像。當(dāng)這個(gè)空間用圖表示時(shí),GNN對(duì)于共享特征和獲取更多全局上下文的特征變得非常有價(jià)值。Johnson等人 [24] 表明,場(chǎng)景圖可以用作圖像檢索系統(tǒng)的輸入。通過(guò)允許最終用戶創(chuàng)建一個(gè)場(chǎng)景圖,其中節(jié)點(diǎn)表示對(duì)象、屬性和關(guān)系,他們能夠通過(guò)場(chǎng)景圖接地過(guò)程返回適當(dāng)?shù)膱D像。這涉及將每個(gè)場(chǎng)景圖對(duì)象節(jié)點(diǎn)與由對(duì)象檢測(cè)器預(yù)測(cè)的邊界框進(jìn)行匹配,并使用條件隨機(jī)場(chǎng)(CRF)以概率的形式表示。使用場(chǎng)景圖作為搜索查詢而不是自然語(yǔ)言的優(yōu)點(diǎn)在于,它們?cè)趶?fù)雜性方面具有很好的可擴(kuò)展性。一旦基本的場(chǎng)景圖被構(gòu)建,通過(guò)添加額外的節(jié)點(diǎn)來(lái)擴(kuò)展它并使其更復(fù)雜是很簡(jiǎn)單的。另一個(gè)優(yōu)點(diǎn)是它減少了將搜索查詢映射到圖像所需的操作。在[24]的基礎(chǔ)上,Yoon等人提出了IRSGS(帶場(chǎng)景圖相似性的圖像檢索)[56],該方法利用一個(gè)語(yǔ)義圖,稱為場(chǎng)景圖。給定一個(gè)查詢圖像,模型將生成一個(gè)語(yǔ)義圖并將其與數(shù)據(jù)庫(kù)中圖像的圖進(jìn)行相似性比較。這個(gè)圖形比較是通過(guò)使用GNN生成的圖嵌入的內(nèi)積來(lái)實(shí)現(xiàn)的(可以是GCN [109] 或GIN [110])。該論文的一個(gè)重要貢獻(xiàn)是Surrogate Relevance的概念,它是正在比較的圖像標(biāo)題之間的相似性。Surrogate Relevance使用標(biāo)題的Sentence-BERT嵌入之間的內(nèi)積計(jì)算。這個(gè)度量被用作模型的訓(xùn)練信號(hào),以調(diào)整由GNN生成的特征嵌入。模型背后的圖形對(duì)比允許這項(xiàng)工作與[24]相比更好地?cái)U(kuò)展到大型圖像數(shù)據(jù)庫(kù)。使用Surrogate Relevance允許這項(xiàng)工作在用戶查詢與用于支持相關(guān)度度量的標(biāo)題風(fēng)格相匹配時(shí),潛在地?cái)U(kuò)展到匹配用戶查詢。
劉等人 [71] 使用表示為特征嵌入的圖像的K最近鄰圖,提出了使用GCN以及基于圖像相似性的新型損失函數(shù)。使用GCN增強(qiáng)特征嵌入,以考慮整個(gè)圖像數(shù)據(jù)庫(kù)的全局上下文。通過(guò)使用特征嵌入的內(nèi)積計(jì)算圖像之間的相似度,相似度越高,檢索候選項(xiàng)越好。作者的新型損失函數(shù)旨在將相似的圖像在嵌入空間中拉近,將不相似的圖像遠(yuǎn)離。與[56]相比,通過(guò)使用內(nèi)積,相似性度量更具確定性。然而,與[56]不同的是,它不能擴(kuò)展到與基于文本的圖像檢索與用戶查詢一起工作。張等人 [111] 也使用K最近鄰圖,但重點(diǎn)是改進(jìn)基于內(nèi)容的圖像檢索中的重新排序過(guò)程。應(yīng)用GNN來(lái)聚合由修改后的鄰接矩陣創(chuàng)建的特征。使用GNN允許重新排序過(guò)程降低置信度低的節(jié)點(diǎn)的重要性。
DGCQ模型 [112] 不是基于純K最近鄰圖,而是基于向量量化,這是一種信息論中用于降低向量空間基數(shù)的過(guò)程。它本質(zhì)上可以被認(rèn)為是一種多對(duì)一聚類技術(shù),其中一個(gè)維數(shù)為 d 的向量空間中的向量 x 被映射到構(gòu)成碼本 q(x) \in C = {c_i; i \in I} 的代碼詞 c_i 集合,其中 I = 1...(k?1)。通過(guò)使用向量量化,該模型學(xué)習(xí)可以與圖像特征結(jié)合形成地標(biāo)圖的代碼詞。這個(gè)圖形基于相似性圖,除了它還有通過(guò)量化過(guò)程學(xué)習(xí)的節(jié)點(diǎn)。一旦地標(biāo)圖被構(gòu)建,GCN被用來(lái)傳播特征,目的是將相似的圖像在特征空間中拉近。使用向量量化允許地標(biāo)圖存在于較低的維度空間中,在計(jì)算要將哪些圖像從圖中返回作為候選項(xiàng)時(shí)減少計(jì)算量。[57] 的作者采用多模態(tài)方法。他們使用GraphSAGE [77] 來(lái)有效地學(xué)習(xí)包含來(lái)自圖形連接的視覺(jué)和概念信息的多模態(tài)節(jié)點(diǎn)嵌入。連接節(jié)點(diǎn)之間的距離減少,而不連接節(jié)點(diǎn)之間的距離增加。通過(guò)使用代表圖像的圖節(jié)點(diǎn)以及代表元數(shù)據(jù)標(biāo)簽的節(jié)點(diǎn),他們的模型能夠提供基于內(nèi)容的圖像檢索以及標(biāo)簽預(yù)測(cè)。在推理時(shí),顯示給模型的圖像可以通過(guò)它們的K個(gè)最近圖像附加到圖中,附加到相關(guān)標(biāo)簽,或兩者都附加。與之前的工作 [71]、[56]、[24]不同,Misraa等人 [57] 在圖節(jié)點(diǎn)中使用多模態(tài)嵌入。
Schuster等人 [63] 繼續(xù)了Johnson等人 [24] 的工作,通過(guò)創(chuàng)建一個(gè)自然語(yǔ)言解析器將查詢轉(zhuǎn)換成一個(gè)可以被他們的工作處理的場(chǎng)景圖,使他們能夠超越基于內(nèi)容的圖像檢索并進(jìn)入基于文本的圖像檢索。他們的解析器使用Stanford Dependency Parser [64] 創(chuàng)建依賴樹(shù),然后修改樹(shù)。首先執(zhí)行量化修飾符,確保名詞是短語(yǔ)的頭部。然后是代詞解析,使兩個(gè)對(duì)象之間的關(guān)系更加明確。最后,處理復(fù)數(shù)名詞。這涉及到在給定數(shù)字修飾符時(shí)復(fù)制名詞實(shí)例。然后,將文本場(chǎng)景圖映射到圖像,遵循 [24] 的方法。Cui等人 [55] 也處理基于文本的圖像檢索。他們提出了一種利用GCN在視覺(jué)和文本信息上提供跨模態(tài)推理的方法。輸入特征被分成通道,形成完整的圖,并經(jīng)過(guò)圖卷積。一旦文本和視覺(jué)特征被投影到一個(gè)共同的空間中,它們的距離使用余弦相似度進(jìn)行測(cè)量。然后將這些相似度得分存儲(chǔ)在表示視覺(jué)和文本輸入之間相似性的矩陣中。
Zhang等人 [113] 處理了一項(xiàng)具有挑戰(zhàn)性的任務(wù),即將文本和圖像組合到圖像檢索中,其中給定一個(gè)參考圖像和修改查詢,圖像檢索系統(tǒng)必須找到一個(gè)類似于參考圖像的圖像,其中包含查詢中概述的修改。這一新興任務(wù)的主要挑戰(zhàn)在于其跨模態(tài)性質(zhì)。作者通過(guò)首先生成參考圖像的空間圖和修改查詢的文本特征來(lái)應(yīng)對(duì)這一挑戰(zhàn)。然后將這些特征連接起來(lái),再將圖形通過(guò)GAT進(jìn)行處理,其注意力機(jī)制已被改變以考慮圖形的方向性和其編碼的空間數(shù)據(jù)。一組形成全局語(yǔ)義推理(GSR)單元的GRU然后被用來(lái)創(chuàng)建參考圖像的最終嵌入。在目標(biāo)圖像上使用相同的過(guò)程,但不包括文本特征的連接。交叉模態(tài)損失函數(shù)和對(duì)抗損失函數(shù)結(jié)合在一起,以確保由相同類別的GSR輸出的特征更加接近。Chaudhuri等人 [73] 采用了一個(gè)Siamese-based網(wǎng)絡(luò)架構(gòu),其中兩個(gè)相似的輸入進(jìn)入兩個(gè)單獨(dú)的網(wǎng)絡(luò),共享權(quán)重。這種網(wǎng)絡(luò)架構(gòu)通常使用對(duì)比損失或三元組損失來(lái)確保這些網(wǎng)絡(luò)的輸出相似。作者在區(qū)域鄰接圖上采用了一種新穎的Siamese-GCN,該圖是通過(guò)連接相鄰的分割區(qū)域并加權(quán)邊來(lái)形成的,考慮到區(qū)域質(zhì)心之間的距離和角度。他們將其技術(shù)應(yīng)用于高分辨率遙感圖像的基于內(nèi)容的圖像檢索。通過(guò)使用具有對(duì)比損失的SiameseGCN,作者能夠?qū)W習(xí)一個(gè)嵌入,將相似的圖像聚在一起并將不相似的圖像分開(kāi)。然后在[114]中,作者添加了一系列注意力機(jī)制。他們實(shí)現(xiàn)了節(jié)點(diǎn)級(jí)和邊級(jí)注意力機(jī)制(類似于GAT [80]的樣式)。然后將這些注意力機(jī)制合并到SiameseGCN中,以改進(jìn)他們以前的工作。
另一個(gè)采用孿生網(wǎng)絡(luò)設(shè)計(jì)的工作是張等人的[115]。他們使用三部分網(wǎng)絡(luò)設(shè)計(jì)來(lái)執(zhí)行零樣本基于草圖的圖像檢索,其中采用孿生編碼網(wǎng)絡(luò)使用ResNet50創(chuàng)建圖像和關(guān)聯(lián)草圖的特征,將這些特征串聯(lián)在一起以創(chuàng)建節(jié)點(diǎn)特征。節(jié)點(diǎn)之間的相似度是通過(guò)一個(gè)由MLP建模的度量函數(shù)計(jì)算的,并且這個(gè)操作用于填充相似度圖的鄰接矩陣。然后在相似性圖上應(yīng)用GCN來(lái)創(chuàng)建草圖-圖像對(duì)的融合嵌入。作者選擇使用條件變分自編碼器[116]來(lái)重建GCN嵌入中的語(yǔ)義信息,而不是使用MLP。這樣做使模型能夠?yàn)槲匆?jiàn)類別的草圖生成語(yǔ)義信息,有助于模型的零樣本部分。

討論與結(jié)論

在本節(jié)中,我們借鑒了Battaglia等人的觀點(diǎn)[27],討論了如何通過(guò)GNN的視角來(lái)看待流行的Transformer[26]。然后,我們討論了如果將圖像生成技術(shù)應(yīng)用于為圖像字幕創(chuàng)建新的訓(xùn)練數(shù)據(jù),那么其依賴于一致結(jié)構(gòu)可能會(huì)帶來(lái)挑戰(zhàn)。本節(jié)總結(jié)了本文,并概述了基于圖的二維圖像理解面臨的挑戰(zhàn)和未來(lái)研究方向。

為什么需要GNN,既然有Transformer了
近年來(lái),Transformer架構(gòu)[26]的流行度迅速上升。它最初是在自然語(yǔ)言處理領(lǐng)域提出的,并很快被應(yīng)用于計(jì)算機(jī)視覺(jué)任務(wù)[46]。隨后的研究擴(kuò)展了這種架構(gòu),使其可以直接處理圖像[117],[118],使其成為常見(jiàn)視覺(jué)任務(wù)的骨干。該架構(gòu)可以應(yīng)用于廣泛的應(yīng)用程序,使其在深度學(xué)習(xí)中占據(jù)主導(dǎo)地位。社區(qū)已經(jīng)做出一些努力,將基于注意力的方法與GNNs統(tǒng)一起來(lái)。Battaglia等人[27]提出了一個(gè)更通用的圖形網(wǎng)絡(luò),其中包括轉(zhuǎn)換器和GNN。他們提出了一個(gè)觀點(diǎn),即可以將Transformer視為在完全圖上運(yùn)行的神經(jīng)架構(gòu)。將GNN和Transformer視為圖形網(wǎng)絡(luò)表明,它們具有許多相似之處。兩種架構(gòu)都采用一組值,并決定在轉(zhuǎn)換它們以更新值時(shí)應(yīng)考慮多少不同的值,GNN忽略未連接的節(jié)點(diǎn),而Transformer縮放輸入的重要性。值得注意的是,如果GNN處理的圖是一個(gè)完全圖,則圖形網(wǎng)絡(luò)將允許所有節(jié)點(diǎn)的消息傳播到正在更新的節(jié)點(diǎn)。因此,可以將Transformer視為在完全圖上操作的特殊情況GNN。雖然GNN使用讀取模塊利用基礎(chǔ)結(jié)構(gòu),但Transformer基于任務(wù)學(xué)習(xí)一個(gè)基礎(chǔ)結(jié)構(gòu)。
將Transformer應(yīng)用于任務(wù)時(shí),會(huì)從零開(kāi)始學(xué)習(xí)一個(gè)圖形結(jié)構(gòu)。與此同時(shí),視覺(jué)語(yǔ)言任務(wù)中存在許多自然出現(xiàn)的圖形結(jié)構(gòu)。這種多種圖形類型允許采取不同的圖形結(jié)構(gòu)來(lái)表示圖像,從圖像的語(yǔ)義結(jié)構(gòu)到與整個(gè)訓(xùn)練集相關(guān)的層次結(jié)構(gòu)。圖形在任務(wù)的語(yǔ)言組件中也自然出現(xiàn),語(yǔ)句依賴樹(shù)與語(yǔ)義場(chǎng)景圖密切相關(guān)(當(dāng)場(chǎng)景圖被作為多部分圖進(jìn)行分析時(shí),如[61]所述)。當(dāng)數(shù)據(jù)具有清晰的圖形表示時(shí),應(yīng)該利用它們而不是忽略它們,而不是使用更通用的體系結(jié)構(gòu)學(xué)習(xí)圖形結(jié)構(gòu)。利用現(xiàn)有的圖形結(jié)構(gòu)可以使用適當(dāng)?shù)臍w納偏差部署圖形網(wǎng)絡(luò)。這也會(huì)導(dǎo)致更少的計(jì)算,因?yàn)橄⒉粫?huì)在所有可能的節(jié)點(diǎn)連接之間傳遞。
當(dāng)可以利用多個(gè)圖時(shí),與使用單個(gè)圖相比,利用多個(gè)圖是有優(yōu)勢(shì)的。如表III所示,只使用單個(gè)圖類型的架構(gòu)在圖像字幕生成任務(wù)中表現(xiàn)不佳,而使用多個(gè)圖的架構(gòu)則表現(xiàn)更好。ARL[94]、Sub-GC[60]和Topic[69]均使用單個(gè)圖(空間圖、語(yǔ)義圖、相似度圖),它們都在基準(zhǔn)測(cè)試中表現(xiàn)不佳。雖然Topic在BLEU、METEOR和ROGUE方面表現(xiàn)良好,但在專門針對(duì)圖像字幕生成的指標(biāo)(SPICE和CIDEr)下評(píng)估時(shí),與可比較的模型相比表現(xiàn)不佳。多圖方法更有利的主題也在VQA、FVQA和文本VQA任務(wù)中得到體現(xiàn),多圖方法勝過(guò)單一圖形的對(duì)應(yīng)方法。

潛在擴(kuò)散和圖像字幕的未來(lái)
目前,圖像字幕技術(shù)受到其訓(xùn)練數(shù)據(jù)的限制。雖然COCO在計(jì)算機(jī)視覺(jué)社區(qū)中廣受歡迎,因?yàn)槠鋸V泛的場(chǎng)景和對(duì)現(xiàn)實(shí)世界的適應(yīng)性,但它也有其缺點(diǎn)。僅在其上訓(xùn)練的字幕系統(tǒng)將永遠(yuǎn)不會(huì)理解特定的藝術(shù)風(fēng)格或超出COCO數(shù)據(jù)集涵蓋的80個(gè)類別之外的對(duì)象。像DALLE·2 [119]這樣的圖像生成技術(shù)的出現(xiàn)為圖像字幕系統(tǒng)提供了機(jī)會(huì),使它們超越80個(gè)類別的限制,并開(kāi)始理解圖像的各種風(fēng)格要素。該領(lǐng)域的工作還處于初步階段[120],[121],但之前的非生成式無(wú)監(jiān)督方法對(duì)于圖像字幕非常有前途[18]。我們推測(cè),基于潛在擴(kuò)散的字幕可能是一個(gè)有前途的研究方向。但是,為了使這種方法有效地工作,圖像生成技術(shù)將需要進(jìn)一步發(fā)展。目前,DALLE·2 [119]和類似系統(tǒng)并不能像需要它們能夠替換字幕系統(tǒng)的訓(xùn)練數(shù)據(jù)那樣深入理解結(jié)構(gòu)。盡管它們令人印象深刻,但當(dāng)提示要求生成在現(xiàn)實(shí)生活中不太可能的內(nèi)容時(shí),它們有時(shí)會(huì)難以正確組裝圖像。當(dāng)被要求生成“一只猴子騎在北極熊背上”的圖像時(shí),DALLE·2 [119]有時(shí)會(huì)難以理解兩個(gè)動(dòng)物之間的空間關(guān)系,導(dǎo)致出現(xiàn)圖5中的樣本結(jié)果。
在圖像中發(fā)現(xiàn)錯(cuò)誤關(guān)系的例子不僅僅是在訓(xùn)練數(shù)據(jù)中想象不太可能存在的物體之間建立關(guān)系。Conwell和Ullman [122] 進(jìn)行了一項(xiàng)參與者研究,要求169人選擇他們認(rèn)為與給定提示很好匹配的生成圖像。他們發(fā)現(xiàn),在研究中生成的圖像中,只有22%與原始提示匹配。作者得出結(jié)論:“當(dāng)前的圖像生成模型甚至還沒(méi)有掌握涉及簡(jiǎn)單物體和主體的基本關(guān)系”[122]。雖然潛在擴(kuò)散方法可能在圖像字幕的未來(lái)發(fā)揮作用,但在實(shí)現(xiàn)這一點(diǎn)之前,它們需要更深入地理解結(jié)構(gòu)。為了讓圖形網(wǎng)絡(luò)[27]適用于擴(kuò)散生成的訓(xùn)練數(shù)據(jù),圖像和字幕/提示中的結(jié)構(gòu)必須一致。監(jiān)督學(xué)習(xí)方法需要大量非常干凈的訓(xùn)練數(shù)據(jù)才能發(fā)揮良好的作用,因此如果圖像數(shù)據(jù)中的基礎(chǔ)結(jié)構(gòu)不符合預(yù)期,圖形網(wǎng)絡(luò)[27]可能會(huì)遇到困難。

最終說(shuō)明
像圖像字幕生成和視覺(jué)問(wèn)答這樣的視覺(jué)-語(yǔ)言任務(wù)為視力障礙或重度視力障礙的人士開(kāi)發(fā)可訪問(wèn)性技術(shù)提供了重大機(jī)會(huì)。在網(wǎng)站和應(yīng)用程序上普及自動(dòng)alt-text生成,并實(shí)現(xiàn)對(duì)在線共享圖像進(jìn)行查詢,這些領(lǐng)域的研究具有重大影響。然而,目前的數(shù)據(jù)集訓(xùn)練的模型容易受到視力正常人類的偏見(jiàn)。VQA數(shù)據(jù)集中提出的問(wèn)題和圖像字幕數(shù)據(jù)集中給出的字幕不一定適合這種技術(shù)的潛在最終用戶的需求。在該領(lǐng)域中,很多人談?wù)搶⒓夹g(shù)應(yīng)用于幫助各種程度的視力障礙患者,但實(shí)際上很少采取行動(dòng)。雖然發(fā)布經(jīng)過(guò)訓(xùn)練的模型是有希望的,但是將這些模型在研究社區(qū)之外提供給其他人也將是有益的。該社區(qū)可朝著另一個(gè)方向發(fā)展,即策劃一組由那些需要幫助的人,即視力障礙患者,提出的問(wèn)題和圖像。該數(shù)據(jù)集還可以包括被視力障礙者認(rèn)為重要的圖像說(shuō)明。這些說(shuō)明的包含將產(chǎn)生優(yōu)先考慮視力障礙者所需信息的字幕,而不是像在現(xiàn)有的圖像字幕數(shù)據(jù)集COCO [33]或Flickr30k [34]中訓(xùn)練的模型所生成的那樣,模仿視力正常人類的字幕風(fēng)格。目前,基于Transformer的大型模型是視覺(jué)-語(yǔ)言任務(wù)中的最先進(jìn)技術(shù) [123], [124], [125]。鑒于其訓(xùn)練時(shí)的模型大小和計(jì)算能力,與本文討論的模型進(jìn)行比較可能會(huì)很困難。然而,有一些需要注意的要點(diǎn)。
在圖像字幕生成方面,基于Transformer的M2模型被基于GNN的體系結(jié)構(gòu)(即Dual-GCN [70])超越。這使得作者認(rèn)為使用強(qiáng)制的圖結(jié)構(gòu)比使用自注意力處理檢測(cè)到的對(duì)象之間的所有關(guān)系具有更強(qiáng)的歸納偏差。Dual-GCN [70]使用全局上下文圖(考慮整個(gè)數(shù)據(jù)集)和本地上下文圖(圖像級(jí)別關(guān)系),這種雙重圖方法被證明非常有效,未來(lái)的工作可以以此為基礎(chǔ)展開(kāi)研究。當(dāng)前實(shí)現(xiàn)SOTA的技術(shù)狀態(tài)是由工業(yè)實(shí)驗(yàn)室開(kāi)發(fā)的基于Transformer的大型模型主導(dǎo),這使得與本文討論的模型進(jìn)行比較變得困難,考慮到訓(xùn)練使用的模型大小和計(jì)算能力。然而,有一些要點(diǎn)需要注意。對(duì)于FVQA和圖像檢索,基于圖形的方法具有更強(qiáng)的歸納偏差用于推理任務(wù)的階段。這兩個(gè)任務(wù)都需要處理圖形數(shù)據(jù)(在FVQA中是知識(shí)圖形,在圖像檢索中是搜索空間的某些圖形表示)。眾所周知,Transformer在稀疏圖(如知識(shí)圖)或大型圖(如在圖像檢索中使用的圖)上的表現(xiàn)不佳。
使用GNN進(jìn)行圖像字幕技術(shù)的采用已經(jīng)顯示出了很大的前景。由于這種方法相對(duì)較新,因此在該領(lǐng)域有大量的機(jī)會(huì)進(jìn)行進(jìn)一步研究。如第IV節(jié)所示,大多數(shù)圖像字幕技術(shù)使用GCN或GGNN架構(gòu)。隨著GNN的發(fā)展和采用新的更具表現(xiàn)力的技術(shù),社區(qū)應(yīng)該放棄傳統(tǒng)的消息傳遞式網(wǎng)絡(luò),轉(zhuǎn)向采用這些新技術(shù)。例如,GAT [80]模型可能比使用的技術(shù)提供更多的優(yōu)勢(shì),因?yàn)樗鼘⒆宰⒁鈾C(jī)制納入了架構(gòu)中,這是一種經(jīng)過(guò)證明可以產(chǎn)生令人印象深刻的結(jié)果的技術(shù),因?yàn)門ransformer的流行。

在本次調(diào)查中討論的視覺(jué)語(yǔ)言任務(wù)中,所有使用的GNN都是基于同質(zhì)性的概念構(gòu)建的,即相似的節(jié)點(diǎn)由一條邊連接。但這并不總是適用的,例如,語(yǔ)義圖連接了在語(yǔ)義上相關(guān)但不相似的對(duì)象。一些詳細(xì)說(shuō)明的圖是同質(zhì)的(例如圖像圖),但許多其他圖不是。這使我們推測(cè),對(duì)于處理的圖表現(xiàn)出多少同質(zhì)性或異質(zhì)性,應(yīng)用尊重這些屬性的GNN體系結(jié)構(gòu)可能有很多研究機(jī)會(huì)。

未來(lái)的研究方向之一是研究不同圖形表示的組合(包括在圖像級(jí)別和數(shù)據(jù)集級(jí)別),以識(shí)別能夠很好地一起工作的組合。使用不同的圖形表示將允許更好地利用本地和全局特征。將外部知識(shí)納入圖像字幕生成可能會(huì)提供有趣的研究方向。通常指出,圖像字幕生成是一項(xiàng)對(duì)視力受損人士有用的輔助技術(shù)。但是,這假定用戶是一個(gè)具有發(fā)達(dá)世界理解能力的成年人。圖像字幕生成系統(tǒng)可能難以應(yīng)用于兒科可訪問(wèn)性設(shè)置中。讓模型更詳細(xì)地解釋世界可能會(huì)有用。另一個(gè)潛在的未來(lái)研究方向是統(tǒng)一本文討論的三個(gè)任務(wù)。開(kāi)發(fā)一個(gè)能夠在所有三個(gè)任務(wù)中表現(xiàn)出色的單一統(tǒng)一模型將標(biāo)志著一個(gè)重要的突破。為了實(shí)現(xiàn)這一點(diǎn),模型必須具有一個(gè)公共的中間空間,用于將文本空間和圖像空間映射。我們認(rèn)為,由于它們的表達(dá)能力,這個(gè)空間最可能是基于圖形的。然而,由于高等等人[105]表明,在VQA中,文本空間中的推理優(yōu)于基于圖形的推理,因此文本表示可能也很有用??傊?,本文討論的諸如圖像字幕生成等視覺(jué)語(yǔ)言任務(wù)未來(lái)將有豐富的發(fā)展前景,并且有許多機(jī)會(huì)可以利用各種圖形結(jié)構(gòu)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容