A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Pers...

論文地址:2209.13232.pdf (arxiv.org)
香港大學(xué)2022年發(fā)表的一篇關(guān)于GNN和Graph Transformer在視覺領(lǐng)域的綜述。

摘要

圖神經(jīng)網(wǎng)絡(luò)(GNNs)在圖表示學(xué)習(xí)中獲得了動(dòng)力,并在許多領(lǐng)域推動(dòng)了最新技術(shù)的發(fā)展,例如數(shù)據(jù)挖掘(如社交網(wǎng)絡(luò)分析和推薦系統(tǒng))、計(jì)算機(jī)視覺(如物體檢測和點(diǎn)云學(xué)習(xí))以及自然語言處理(如關(guān)系提取和序列學(xué)習(xí))等等。隨著自然語言處理和計(jì)算機(jī)視覺中Transformer的出現(xiàn),圖Transformer將圖結(jié)構(gòu)嵌入到Transformer架構(gòu)中,以克服局部鄰域聚合的局限性,同時(shí)避免嚴(yán)格的結(jié)構(gòu)歸納偏差。本文從任務(wù)導(dǎo)向的角度全面評估了GNN和圖Transformer在計(jì)算機(jī)視覺中的應(yīng)用。具體來說,我們根據(jù)輸入數(shù)據(jù)的模態(tài),即2D自然圖像、視頻、3D數(shù)據(jù)、視覺+語言和醫(yī)學(xué)圖像,將它們在計(jì)算機(jī)視覺中的應(yīng)用分為五類。在每個(gè)類別中,我們進(jìn)一步根據(jù)一組視覺任務(wù)將應(yīng)用程序分成不同的類別。這樣的任務(wù)導(dǎo)向分類方式使我們能夠檢查不同基于GNN的方法如何處理每個(gè)任務(wù)以及這些方法的性能如何?;诒匾幕A(chǔ)知識,我們提供了任務(wù)的定義和挑戰(zhàn),代表性方法的深入介紹以及關(guān)于洞察、限制和未來方向的討論。

1. 引言

深度學(xué)習(xí)[1]為計(jì)算機(jī)視覺帶來了許多突破,其中卷積神經(jīng)網(wǎng)絡(luò)(CNN)占據(jù)主導(dǎo)地位,并成為許多現(xiàn)代視覺系統(tǒng)的基本架構(gòu)。特別是過去十年中,提出了許多最先進(jìn)的CNN模型,如AlexNet[2]、ResNet[3]和EfficientNet[4],在包括圖像分類、目標(biāo)檢測、語義分割和圖像處理等多種視覺問題上取得了前所未有的進(jìn)展。另一方面,現(xiàn)有的視覺系統(tǒng)像人類一樣采用各種輸入模態(tài),例如2D圖像(例如自然和醫(yī)學(xué)圖像)、視頻、3D數(shù)據(jù)(例如點(diǎn)云和網(wǎng)格)以及多模態(tài)輸入(例如圖像+文本)。
盡管基于CNN的方法在處理定義在規(guī)則網(wǎng)格上的輸入數(shù)據(jù)(例如圖像)方面表現(xiàn)出色,但計(jì)算機(jī)視覺界普遍認(rèn)為,具有不規(guī)則拓?fù)浣Y(jié)構(gòu)的視覺信息對于表示學(xué)習(xí)至關(guān)重要,但尚未得到深入研究。觀察到人類對于組合泛化的能力在很大程度上依賴于他們表示結(jié)構(gòu)和推理關(guān)系的認(rèn)知機(jī)制[5],模仿人類的學(xué)習(xí)和決策過程可以提高視覺模型的性能。例如,在目標(biāo)識別任務(wù)中,最先進(jìn)的神經(jīng)網(wǎng)絡(luò)更喜歡集中注意力于感知單獨(dú)的對象,而對于不同對象之間的依賴關(guān)系和交互作用關(guān)注不足。
此外,與具有固有邊緣連接和節(jié)點(diǎn)概念的自然圖形數(shù)據(jù)(例如社交網(wǎng)絡(luò)和生物蛋白質(zhì)-蛋白質(zhì)網(wǎng)絡(luò))相比,從規(guī)則網(wǎng)格數(shù)據(jù)(例如圖像和時(shí)間信號)構(gòu)建圖形(例如關(guān)系圖)的基本方法不足,領(lǐng)域知識對于成功至關(guān)重要。另一方面,某些視覺數(shù)據(jù)格式,如點(diǎn)云和網(wǎng)格,自然上并沒有定義在笛卡爾網(wǎng)格上,并涉及復(fù)雜的關(guān)系信息。從這個(gè)意義上說,無論是規(guī)則的還是不規(guī)則的視覺數(shù)據(jù)格式,都將受益于探索拓?fù)浣Y(jié)構(gòu)和關(guān)系,特別是對于挑戰(zhàn)性的場景,如理解復(fù)雜場景、從有限的經(jīng)驗(yàn)中學(xué)習(xí)和跨領(lǐng)域傳遞知識。
近年來,GNN [6] 在深度學(xué)習(xí)的最新進(jìn)展的支持下,在建模圖結(jié)構(gòu)方面表現(xiàn)出了開創(chuàng)性的性能。在計(jì)算機(jī)視覺領(lǐng)域,當(dāng)前大部分與GNN相關(guān)的研究都有以下兩個(gè)目標(biāo)之一:(1)混合GNN和CNN骨干,以及(2)用于表示學(xué)習(xí)的純GNN架構(gòu)。前者通常旨在改善CNN特征的長程建模能力,并適用于以前使用純CNN架構(gòu)解決的視覺任務(wù),例如圖像分類和語義分割。后者作為某些視覺數(shù)據(jù)格式的特征提取器,例如點(diǎn)云,并與其他方法并行發(fā)展。例如,對于以點(diǎn)云表示的三維形狀的分類[7],存在三種主要方法,即點(diǎn)式MLP方法、基于卷積的方法和基于圖的方法。
盡管已經(jīng)取得了豐碩的成果,但仍不存在一個(gè)系統(tǒng)的和及時(shí)的綜述,來系統(tǒng)地回顧GNN在計(jì)算機(jī)視覺領(lǐng)域的進(jìn)展。因此,我們從任務(wù)導(dǎo)向的角度,將本文文獻(xiàn)綜述作為GNN在計(jì)算機(jī)視覺中的完整介紹,包括(i)任務(wù)的定義和挑戰(zhàn),(ii)代表性方法的深入介紹,以及(iii)關(guān)于洞察和未來方向的系統(tǒng)討論。具體來說,我們將GNN在計(jì)算機(jī)視覺中的應(yīng)用根據(jù)輸入數(shù)據(jù)的模態(tài)分為五個(gè)類別。在每個(gè)類別中,我們進(jìn)一步根據(jù)它們執(zhí)行的計(jì)算機(jī)視覺任務(wù)將應(yīng)用程序進(jìn)行分割。我們還回顧了圖Transformer在視覺任務(wù)中的使用,考慮到它們在架構(gòu)方面與GNN的相似性[8],[9]。本綜述的組織如圖1所示。

圖1:該綜述總體架構(gòu)

2. 背景和分類

在本節(jié)中,我們回顧了在計(jì)算機(jī)視覺中使用的GNN和圖Transformer。讀者可以參考幾篇以前的GNN綜述[10],[11],[12],這些綜述全面介紹了GNN的發(fā)展。此外,我們想強(qiáng)調(diào),許多現(xiàn)有的基于GNN的視覺方法實(shí)際上使用了CNN和GNN的混合,而我們著重于GNN的一側(cè)。

2.1. 循環(huán)GNN

GNN最初是以循環(huán)GNN的形式開發(fā)的。在這種范例下,早期的工作[6]試圖通過在迭代過程中重復(fù)使用相同的權(quán)重集合,從有向無環(huán)圖中提取節(jié)點(diǎn)表示。Scarselli等人[13]將這種神經(jīng)網(wǎng)絡(luò)擴(kuò)展到處理更多類型的圖,例如循環(huán)和無向圖。他們通過以下方式循環(huán)更新節(jié)點(diǎn)的隱藏狀態(tài)h

(1)

其中N(v_i)表示節(jié)點(diǎn)v_i的鄰域,f(·)是一個(gè)前饋神經(jīng)網(wǎng)絡(luò),x_i∈R^d表示v_i處的特征,x_{ij}^e∈R^c表示v_iv_j之間邊緣的特征,t是迭代次數(shù)。

2.2. 卷積GNN

受CNN在深度學(xué)習(xí)時(shí)代的驚人進(jìn)展啟發(fā),許多研究努力致力于將卷積推廣到圖領(lǐng)域。其中,最近幾年引起最大關(guān)注的是兩個(gè)系列的方法(參見圖2),即頻譜方法[14],[15],[16],[17],[18],[19]和空間方法[20],[21],[22],[23],[24],[25]。


圖2:兩種類型的圖卷積運(yùn)算。

2.2.1. 頻譜方法

頻譜方法依賴于拉普拉斯譜來定義圖卷積。對于一個(gè)無向圖 G = \{V, E\}A 是鄰接矩陣,D 是對角度量矩陣,D_{ii} = \sum_{j}^N A_{ij}L = I - D^{-1/2}AD^{-1/2} 表示 G 的歸一化拉普拉斯矩陣,L 可以分解為 L = U\Lambda U^T,其中 U 是特征向量矩陣,\Lambda = \text{diag}[\lambda_1, ..., \lambda_N] 是特征值的對角矩陣。設(shè) Z \in \mathbb{R}^{N \times d}N=|V|)是 G 的特征矩陣,z \in \mathbb{R}^NZ 的一列(d=1)。z 的圖傅里葉變換被表示為 F(z) = U^T z,逆圖傅里葉變換被表示為 F^{-1}(\hat{z}) = U\hat{z},其中 \hat{z} = F(z)。然后,將 z 與一個(gè)濾波器 g \in \mathbb{R}^N 卷積定義為 z _{G} g = F^{-1}(F(z) \odot F(g)) = U((U^T z) \odot (U^T g)),其中 {G} 是圖卷積算子,\odot 是阿達(dá)瑪積。通過定義 g{\theta} = \text{diag}(U^T g),它是 \Lambda 的函數(shù),我們有如下公式:

(2)

切比雪夫頻譜CNN (ChebNet)[16]使用切比雪夫多項(xiàng)式來逼近濾波操作 g_{\theta}。g_{\theta} \approx \sum_{i=0}^K \theta_i T_k(\tilde{L}),其中 \tilde{L} = 2L/\lambda_{\max} - I 是縮放后的拉普拉斯矩陣,\lambda_{\max}L 的最大特征值,\theta_i 是可學(xué)習(xí)的參數(shù)。切比雪夫多項(xiàng)式可以遞歸地定義為 T_i(z) = 2zT_{i-1}(z) - T_{i-2}(z),其中 T_0(z) = 1T_1(z) = z。然后,濾波操作被表述為:
(3)

圖卷積網(wǎng)絡(luò)(GCN)[17]引入了ChebNet的一階近似(K=1)。GCN迭代地從鄰居節(jié)點(diǎn)中聚合信息,針對節(jié)點(diǎn)v_i的前向傳播被表述為:
(4)

其中,\sigma(\cdot) 是一個(gè)非線性激活函數(shù),\hat{A} = (\hat{a}(v_i, u_j)) 表示重新歸一化的鄰接矩陣 A,W(l) 是第 l 層的可學(xué)習(xí)的轉(zhuǎn)換矩陣。GCN還可以從空間視角解釋 [12]。

2.2.2. 空間方法

GraphSAGE [22] 是一種通用的歸納框架,它通過對固定數(shù)量的本地鄰居節(jié)點(diǎn)的隱藏狀態(tài)進(jìn)行采樣和聚合來更新節(jié)點(diǎn)狀態(tài)。形式上,它在空間域中執(zhí)行圖卷積:

(5)

其中,N_s(v_i) 是從全局鄰域 N(v_i) 中采樣的節(jié)點(diǎn)子集,\oplus 是連接操作符。如[22]所建議的,聚合函數(shù)Aggregator_l可以是平均聚合器、LSTM聚合器或池化聚合器。
圖注意力網(wǎng)絡(luò)(GAT)[23]引入了一個(gè)自注意機(jī)制,用于學(xué)習(xí)連接節(jié)點(diǎn)之間的動(dòng)態(tài)權(quán)重。它通過關(guān)注鄰居節(jié)點(diǎn)來更新節(jié)點(diǎn)的隱藏狀態(tài):
(6)

其中,\alpha_{ij} 是成對的注意權(quán)重,a 是可學(xué)習(xí)參數(shù)的向量。為了增加模型的容量并使自注意的過程穩(wěn)定,GAT在實(shí)踐中采用了多頭自注意。
Regenerate response

2.2.3. New GNN Techniques

更深層的GNN。一些最近的工作[26],[27],[28]專注于構(gòu)建深層GCN用于各種基本的圖導(dǎo)向任務(wù),例如節(jié)點(diǎn)預(yù)測和鏈接預(yù)測。DeepGCNs [27]介紹了在CNN中常用的概念——?dú)埐钸B接、密集連接和擴(kuò)張卷積——來使GCN與CNN一樣深入。通過這樣做,他們可以為點(diǎn)云語義分割實(shí)現(xiàn)一個(gè)56層的GCN。Rong等人[28]提出了DropEdge訓(xùn)練策略,以緩解深層GCN的過擬合和平滑問題。從技術(shù)上講,DropEdge在每次訓(xùn)練迭代中隨機(jī)刪除輸入圖的某些比例的邊緣。此外,Li等人[29]系統(tǒng)地研究了可逆連接、分組卷積、權(quán)重綁定和平衡模型對提高GNN的內(nèi)存和參數(shù)效率的影響,實(shí)證地揭示了將可逆連接與深層網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合可以實(shí)現(xiàn)極深和寬的GNN的訓(xùn)練(每個(gè)有80個(gè)通道的1001層和每個(gè)有224個(gè)通道的448層)。

圖池化。圖池化是現(xiàn)代GNN體系結(jié)構(gòu)中的關(guān)鍵操作。受傳統(tǒng)基于CNN的池化方法的啟發(fā),大多數(shù)方法將圖池化作為聚類分配問題來形式化,將規(guī)則網(wǎng)格中的局部塊的想法擴(kuò)展到圖形中。Defferrard等人[16]使用圖割算法產(chǎn)生預(yù)定義的子圖來實(shí)現(xiàn)圖池化。Ying等人[30]提出了一個(gè)可微的圖池化模塊,名為DIFFPOOL,它可以生成圖的分層表示,并可以與各種GNN體系結(jié)構(gòu)以端到端的方式組合使用。Mao等人[31]引入了EigenPooling,它將節(jié)點(diǎn)特征和局部結(jié)構(gòu)結(jié)合起來,以獲得更好的分配矩陣。Gao等人[32]提出了一種稱為圖U-Net的U形體系結(jié)構(gòu),用于實(shí)現(xiàn)GNN的池化和上采樣操作。

Vision GNN。最近,Han等人[33]提出了一種名為Vision GNN(ViG)的架構(gòu),用于將圖像表示為圖,旨在學(xué)習(xí)下游視覺任務(wù)的圖級特征。ViG首先將輸入圖像分成一組具有規(guī)則形狀的圖塊,并將每個(gè)圖塊視為圖節(jié)點(diǎn)。接下來,使用每個(gè)節(jié)點(diǎn)的K個(gè)最近鄰構(gòu)建圖邊。然后,在每個(gè)節(jié)點(diǎn)處執(zhí)行多頭圖卷積和位置編碼,以聯(lián)合學(xué)習(xí)拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)特征,并使用前饋網(wǎng)絡(luò)(FFN)來減輕節(jié)點(diǎn)特征的過度平滑并增強(qiáng)特征轉(zhuǎn)換能力。所提出的ViG在識別和檢測基準(zhǔn)測試中取得了競爭性的結(jié)果。例如,在ImageNet分類任務(wù)上,ViG的top-1準(zhǔn)確率比DeiT高1.7%,在MSCOCO目標(biāo)檢測任務(wù)中,ViG的mAP比Swin-T高0.3%。

2.3. Graph Transformers for 3D Data

Point Transformer [34] 設(shè)計(jì)了一個(gè)用于點(diǎn)云分析的局部向量自注意力機(jī)制。相比之下,相關(guān)工作Point Cloud Transformer [35]采用了全局注意力。Point Transformer中每個(gè)Transformer塊中的局部向量自注意力操作定義為:

(7)

其中 W_QW_K、W_V 是用于計(jì)算查詢、鍵和值的共享參數(shù)矩陣,\odot 表示按元素相乘,\delta 是位置編碼函數(shù),\gamma 是非線性映射函數(shù)(例如 MLP),\rho 是歸一化函數(shù)(例如 softmax)。最近,F(xiàn)ast Point Transformer [36] 引入了輕量級的局部自注意力架構(gòu)和體素哈希,以顯著提高效率。Stratified Transformer [37] 采樣遠(yuǎn)離的點(diǎn)作為額外的鍵以擴(kuò)大感受野,從而建模長距離依賴關(guān)系。Point Transformer V2 [38] 引入了分組向量注意力、改進(jìn)的位置編碼和基于分區(qū)的池化以增強(qiáng)效率。
Mesh Graphormer [39] 開發(fā)了一種用于從圖像重建網(wǎng)格的圖形Transformer。它分別利用圖卷積和自注意力機(jī)制來學(xué)習(xí)鄰域內(nèi)的局部交互和非局部關(guān)系。每個(gè)Graphormer編碼器塊由五個(gè)組件組成,即一個(gè)Layer Norm、一個(gè)多頭自注意力(MHSA)模塊、一個(gè)圖形殘差塊、一個(gè)第二個(gè)Layer Norm和一個(gè)MLP。具體而言,具有P個(gè)頭的MHSA模塊接受輸入序列H = {hi} ∈ Rn×d,其中i ∈ {1, 2, · · · , n}表示n個(gè)標(biāo)記,并為每個(gè)標(biāo)記輸出{h_p^i},其中p ∈ {1, 2, · · · , P}是頭索引。每個(gè)h_p&i計(jì)算如下:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容