論文地址：2209.13232.pdf (arxiv.org)
香港大學(xué)2022年發(fā)表的一篇關(guān)于GNN和Graph Transformer在視覺領(lǐng)域的綜述。

摘要

圖神經(jīng)網(wǎng)絡(luò)（GNNs）在圖表示學(xué)習(xí)中獲得了動(dòng)力，并在許多領(lǐng)域推動(dòng)了最新技術(shù)的發(fā)展，例如數(shù)據(jù)挖掘（如社交網(wǎng)絡(luò)分析和推薦系統(tǒng)）、計(jì)算機(jī)視覺（如物體檢測和點(diǎn)云學(xué)習(xí)）以及自然語言處理（如關(guān)系提取和序列學(xué)習(xí)）等等。隨著自然語言處理和計(jì)算機(jī)視覺中Transformer的出現(xiàn)，圖Transformer將圖結(jié)構(gòu)嵌入到Transformer架構(gòu)中，以克服局部鄰域聚合的局限性，同時(shí)避免嚴(yán)格的結(jié)構(gòu)歸納偏差。本文從任務(wù)導(dǎo)向的角度全面評估了GNN和圖Transformer在計(jì)算機(jī)視覺中的應(yīng)用。具體來說，我們根據(jù)輸入數(shù)據(jù)的模態(tài)，即2D自然圖像、視頻、3D數(shù)據(jù)、視覺+語言和醫(yī)學(xué)圖像，將它們在計(jì)算機(jī)視覺中的應(yīng)用分為五類。在每個(gè)類別中，我們進(jìn)一步根據(jù)一組視覺任務(wù)將應(yīng)用程序分成不同的類別。這樣的任務(wù)導(dǎo)向分類方式使我們能夠檢查不同基于GNN的方法如何處理每個(gè)任務(wù)以及這些方法的性能如何?；诒匾幕A(chǔ)知識，我們提供了任務(wù)的定義和挑戰(zhàn)，代表性方法的深入介紹以及關(guān)于洞察、限制和未來方向的討論。

1. 引言

深度學(xué)習(xí)[1]為計(jì)算機(jī)視覺帶來了許多突破，其中卷積神經(jīng)網(wǎng)絡(luò)(CNN)占據(jù)主導(dǎo)地位，并成為許多現(xiàn)代視覺系統(tǒng)的基本架構(gòu)。特別是過去十年中，提出了許多最先進(jìn)的CNN模型，如AlexNet[2]、ResNet[3]和EfficientNet[4]，在包括圖像分類、目標(biāo)檢測、語義分割和圖像處理等多種視覺問題上取得了前所未有的進(jìn)展。另一方面，現(xiàn)有的視覺系統(tǒng)像人類一樣采用各種輸入模態(tài)，例如2D圖像（例如自然和醫(yī)學(xué)圖像）、視頻、3D數(shù)據(jù)（例如點(diǎn)云和網(wǎng)格）以及多模態(tài)輸入（例如圖像+文本）。
盡管基于CNN的方法在處理定義在規(guī)則網(wǎng)格上的輸入數(shù)據(jù)（例如圖像）方面表現(xiàn)出色，但計(jì)算機(jī)視覺界普遍認(rèn)為，具有不規(guī)則拓?fù)浣Y(jié)構(gòu)的視覺信息對于表示學(xué)習(xí)至關(guān)重要，但尚未得到深入研究。觀察到人類對于組合泛化的能力在很大程度上依賴于他們表示結(jié)構(gòu)和推理關(guān)系的認(rèn)知機(jī)制[5]，模仿人類的學(xué)習(xí)和決策過程可以提高視覺模型的性能。例如，在目標(biāo)識別任務(wù)中，最先進(jìn)的神經(jīng)網(wǎng)絡(luò)更喜歡集中注意力于感知單獨(dú)的對象，而對于不同對象之間的依賴關(guān)系和交互作用關(guān)注不足。
此外，與具有固有邊緣連接和節(jié)點(diǎn)概念的自然圖形數(shù)據(jù)（例如社交網(wǎng)絡(luò)和生物蛋白質(zhì)-蛋白質(zhì)網(wǎng)絡(luò)）相比，從規(guī)則網(wǎng)格數(shù)據(jù)（例如圖像和時(shí)間信號）構(gòu)建圖形（例如關(guān)系圖）的基本方法不足，領(lǐng)域知識對于成功至關(guān)重要。另一方面，某些視覺數(shù)據(jù)格式，如點(diǎn)云和網(wǎng)格，自然上并沒有定義在笛卡爾網(wǎng)格上，并涉及復(fù)雜的關(guān)系信息。從這個(gè)意義上說，無論是規(guī)則的還是不規(guī)則的視覺數(shù)據(jù)格式，都將受益于探索拓?fù)浣Y(jié)構(gòu)和關(guān)系，特別是對于挑戰(zhàn)性的場景，如理解復(fù)雜場景、從有限的經(jīng)驗(yàn)中學(xué)習(xí)和跨領(lǐng)域傳遞知識。
近年來，GNN [6] 在深度學(xué)習(xí)的最新進(jìn)展的支持下，在建模圖結(jié)構(gòu)方面表現(xiàn)出了開創(chuàng)性的性能。在計(jì)算機(jī)視覺領(lǐng)域，當(dāng)前大部分與GNN相關(guān)的研究都有以下兩個(gè)目標(biāo)之一：（1）混合GNN和CNN骨干，以及（2）用于表示學(xué)習(xí)的純GNN架構(gòu)。前者通常旨在改善CNN特征的長程建模能力，并適用于以前使用純CNN架構(gòu)解決的視覺任務(wù)，例如圖像分類和語義分割。后者作為某些視覺數(shù)據(jù)格式的特征提取器，例如點(diǎn)云，并與其他方法并行發(fā)展。例如，對于以點(diǎn)云表示的三維形狀的分類[7]，存在三種主要方法，即點(diǎn)式MLP方法、基于卷積的方法和基于圖的方法。
盡管已經(jīng)取得了豐碩的成果，但仍不存在一個(gè)系統(tǒng)的和及時(shí)的綜述，來系統(tǒng)地回顧GNN在計(jì)算機(jī)視覺領(lǐng)域的進(jìn)展。因此，我們從任務(wù)導(dǎo)向的角度，將本文文獻(xiàn)綜述作為GNN在計(jì)算機(jī)視覺中的完整介紹，包括（i）任務(wù)的定義和挑戰(zhàn)，（ii）代表性方法的深入介紹，以及（iii）關(guān)于洞察和未來方向的系統(tǒng)討論。具體來說，我們將GNN在計(jì)算機(jī)視覺中的應(yīng)用根據(jù)輸入數(shù)據(jù)的模態(tài)分為五個(gè)類別。在每個(gè)類別中，我們進(jìn)一步根據(jù)它們執(zhí)行的計(jì)算機(jī)視覺任務(wù)將應(yīng)用程序進(jìn)行分割。我們還回顧了圖Transformer在視覺任務(wù)中的使用，考慮到它們在架構(gòu)方面與GNN的相似性[8]，[9]。本綜述的組織如圖1所示。

圖1：該綜述總體架構(gòu)

2. 背景和分類

在本節(jié)中，我們回顧了在計(jì)算機(jī)視覺中使用的GNN和圖Transformer。讀者可以參考幾篇以前的GNN綜述[10]，[11]，[12]，這些綜述全面介紹了GNN的發(fā)展。此外，我們想強(qiáng)調(diào)，許多現(xiàn)有的基于GNN的視覺方法實(shí)際上使用了CNN和GNN的混合，而我們著重于GNN的一側(cè)。

2.1. 循環(huán)GNN

GNN最初是以循環(huán)GNN的形式開發(fā)的。在這種范例下，早期的工作[6]試圖通過在迭代過程中重復(fù)使用相同的權(quán)重集合，從有向無環(huán)圖中提取節(jié)點(diǎn)表示。Scarselli等人[13]將這種神經(jīng)網(wǎng)絡(luò)擴(kuò)展到處理更多類型的圖，例如循環(huán)和無向圖。他們通過以下方式循環(huán)更新節(jié)點(diǎn)的隱藏狀態(tài) $h$ ：

(1)

其中

N(v_i)

表示節(jié)點(diǎn)

v_i

的鄰域，

f(·)

是一個(gè)前饋神經(jīng)網(wǎng)絡(luò)，

x_i∈R^d

表示

v_i

處的特征，

x_{ij}^e∈R^c

表示

v_i

和

v_j

之間邊緣的特征，

t

是迭代次數(shù)。

2.2. 卷積GNN

受CNN在深度學(xué)習(xí)時(shí)代的驚人進(jìn)展啟發(fā)，許多研究努力致力于將卷積推廣到圖領(lǐng)域。其中，最近幾年引起最大關(guān)注的是兩個(gè)系列的方法（參見圖2），即頻譜方法[14]，[15]，[16]，[17]，[18]，[19]和空間方法[20]，[21]，[22]，[23]，[24]，[25]。

圖2：兩種類型的圖卷積運(yùn)算。

2.2.1. 頻譜方法

頻譜方法依賴于拉普拉斯譜來定義圖卷積。對于一個(gè)無向圖 $G = \{V, E\}$ ， $A$ 是鄰接矩陣， $D$ 是對角度量矩陣， $D_{ii} = \sum_{j}^N A_{ij}$ 。 $L = I - D^{-1/2}AD^{-1/2}$ 表示 $G$ 的歸一化拉普拉斯矩陣， $L$ 可以分解為 $L = U\Lambda U^T$ ，其中 $U$ 是特征向量矩陣， $\Lambda = \text{diag}[\lambda_1, ..., \lambda_N]$ 是特征值的對角矩陣。設(shè) $Z \in \mathbb{R}^{N \times d}$ （ $N=|V|$ ）是 $G$ 的特征矩陣， $z \in \mathbb{R}^N$ 是 $Z$ 的一列（ $d=1$ ）。 $z$ 的圖傅里葉變換被表示為 $F(z) = U^T z$ ，逆圖傅里葉變換被表示為 $F^{-1}(\hat{z}) = U\hat{z}$ ，其中 $\hat{z} = F(z)$ 。然后，將 $z$ 與一個(gè)濾波器 $g \in \mathbb{R}^N$ 卷積定義為 $z _{G} g = F^{-1}(F(z) \odot F(g)) = U((U^T z) \odot (U^T g))$ ，其中 ${G}$ 是圖卷積算子， $\odot$ 是阿達(dá)瑪積。通過定義 $g{\theta} = \text{diag}(U^T g)$ ，它是 $\Lambda$ 的函數(shù)，我們有如下公式：

(2)

切比雪夫頻譜CNN （ChebNet）[16]使用切比雪夫多項(xiàng)式來逼近濾波操作

g_{\theta}

。

g_{\theta} \approx \sum_{i=0}^K \theta_i T_k(\tilde{L})

，其中

\tilde{L} = 2L/\lambda_{\max} - I

是縮放后的拉普拉斯矩陣，

\lambda_{\max}

是

L

的最大特征值，

\theta_i

是可學(xué)習(xí)的參數(shù)。切比雪夫多項(xiàng)式可以遞歸地定義為

T_i(z) = 2zT_{i-1}(z) - T_{i-2}(z)

，其中

T_0(z) = 1

，

T_1(z) = z

。然后，濾波操作被表述為：

(3)

圖卷積網(wǎng)絡(luò)（GCN）[17]引入了ChebNet的一階近似（

K=1

）。GCN迭代地從鄰居節(jié)點(diǎn)中聚合信息，針對節(jié)點(diǎn)

v_i

的前向傳播被表述為：

(4)

其中，

\sigma(\cdot)

是一個(gè)非線性激活函數(shù)，

\hat{A} = (\hat{a}(v_i, u_j))

表示重新歸一化的鄰接矩陣

A

，

W(l)

是第

l

層的可學(xué)習(xí)的轉(zhuǎn)換矩陣。GCN還可以從空間視角解釋 [12]。

2.2.2. 空間方法

GraphSAGE [22] 是一種通用的歸納框架，它通過對固定數(shù)量的本地鄰居節(jié)點(diǎn)的隱藏狀態(tài)進(jìn)行采樣和聚合來更新節(jié)點(diǎn)狀態(tài)。形式上，它在空間域中執(zhí)行圖卷積：

(5)

其中，

N_s(v_i)

是從全局鄰域

N(v_i)

中采樣的節(jié)點(diǎn)子集，

\oplus

是連接操作符。如[22]所建議的，聚合函數(shù)

Aggregator_l

可以是平均聚合器、LSTM聚合器或池化聚合器。
圖注意力網(wǎng)絡(luò)（GAT）[23]引入了一個(gè)自注意機(jī)制，用于學(xué)習(xí)連接節(jié)點(diǎn)之間的動(dòng)態(tài)權(quán)重。它通過關(guān)注鄰居節(jié)點(diǎn)來更新節(jié)點(diǎn)的隱藏狀態(tài)：

(6)

其中，

\alpha_{ij}

是成對的注意權(quán)重，

a

是可學(xué)習(xí)參數(shù)的向量。為了增加模型的容量并使自注意的過程穩(wěn)定，GAT在實(shí)踐中采用了多頭自注意。
Regenerate response

2.2.3. New GNN Techniques

更深層的GNN。一些最近的工作[26]，[27]，[28]專注于構(gòu)建深層GCN用于各種基本的圖導(dǎo)向任務(wù)，例如節(jié)點(diǎn)預(yù)測和鏈接預(yù)測。DeepGCNs [27]介紹了在CNN中常用的概念——?dú)埐钸B接、密集連接和擴(kuò)張卷積——來使GCN與CNN一樣深入。通過這樣做，他們可以為點(diǎn)云語義分割實(shí)現(xiàn)一個(gè)56層的GCN。Rong等人[28]提出了DropEdge訓(xùn)練策略，以緩解深層GCN的過擬合和平滑問題。從技術(shù)上講，DropEdge在每次訓(xùn)練迭代中隨機(jī)刪除輸入圖的某些比例的邊緣。此外，Li等人[29]系統(tǒng)地研究了可逆連接、分組卷積、權(quán)重綁定和平衡模型對提高GNN的內(nèi)存和參數(shù)效率的影響，實(shí)證地揭示了將可逆連接與深層網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合可以實(shí)現(xiàn)極深和寬的GNN的訓(xùn)練（每個(gè)有80個(gè)通道的1001層和每個(gè)有224個(gè)通道的448層）。

圖池化。圖池化是現(xiàn)代GNN體系結(jié)構(gòu)中的關(guān)鍵操作。受傳統(tǒng)基于CNN的池化方法的啟發(fā)，大多數(shù)方法將圖池化作為聚類分配問題來形式化，將規(guī)則網(wǎng)格中的局部塊的想法擴(kuò)展到圖形中。Defferrard等人[16]使用圖割算法產(chǎn)生預(yù)定義的子圖來實(shí)現(xiàn)圖池化。Ying等人[30]提出了一個(gè)可微的圖池化模塊，名為DIFFPOOL，它可以生成圖的分層表示，并可以與各種GNN體系結(jié)構(gòu)以端到端的方式組合使用。Mao等人[31]引入了EigenPooling，它將節(jié)點(diǎn)特征和局部結(jié)構(gòu)結(jié)合起來，以獲得更好的分配矩陣。Gao等人[32]提出了一種稱為圖U-Net的U形體系結(jié)構(gòu)，用于實(shí)現(xiàn)GNN的池化和上采樣操作。

Vision GNN。最近，Han等人[33]提出了一種名為Vision GNN（ViG）的架構(gòu)，用于將圖像表示為圖，旨在學(xué)習(xí)下游視覺任務(wù)的圖級特征。ViG首先將輸入圖像分成一組具有規(guī)則形狀的圖塊，并將每個(gè)圖塊視為圖節(jié)點(diǎn)。接下來，使用每個(gè)節(jié)點(diǎn)的K個(gè)最近鄰構(gòu)建圖邊。然后，在每個(gè)節(jié)點(diǎn)處執(zhí)行多頭圖卷積和位置編碼，以聯(lián)合學(xué)習(xí)拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)特征，并使用前饋網(wǎng)絡(luò)（FFN）來減輕節(jié)點(diǎn)特征的過度平滑并增強(qiáng)特征轉(zhuǎn)換能力。所提出的ViG在識別和檢測基準(zhǔn)測試中取得了競爭性的結(jié)果。例如，在ImageNet分類任務(wù)上，ViG的top-1準(zhǔn)確率比DeiT高1.7％，在MSCOCO目標(biāo)檢測任務(wù)中，ViG的mAP比Swin-T高0.3％。

2.3. Graph Transformers for 3D Data

Point Transformer [34] 設(shè)計(jì)了一個(gè)用于點(diǎn)云分析的局部向量自注意力機(jī)制。相比之下，相關(guān)工作Point Cloud Transformer [35]采用了全局注意力。Point Transformer中每個(gè)Transformer塊中的局部向量自注意力操作定義為：

(7)

其中

W_Q

、

W_K

、

W_V

是用于計(jì)算查詢、鍵和值的共享參數(shù)矩陣，

\odot

表示按元素相乘，

\delta

是位置編碼函數(shù)，

\gamma

是非線性映射函數(shù)（例如 MLP），

\rho

是歸一化函數(shù)（例如 softmax）。最近，F(xiàn)ast Point Transformer [36] 引入了輕量級的局部自注意力架構(gòu)和體素哈希，以顯著提高效率。Stratified Transformer [37] 采樣遠(yuǎn)離的點(diǎn)作為額外的鍵以擴(kuò)大感受野，從而建模長距離依賴關(guān)系。Point Transformer V2 [38] 引入了分組向量注意力、改進(jìn)的位置編碼和基于分區(qū)的池化以增強(qiáng)效率。
Mesh Graphormer [39] 開發(fā)了一種用于從圖像重建網(wǎng)格的圖形Transformer。它分別利用圖卷積和自注意力機(jī)制來學(xué)習(xí)鄰域內(nèi)的局部交互和非局部關(guān)系。每個(gè)Graphormer編碼器塊由五個(gè)組件組成，即一個(gè)Layer Norm、一個(gè)多頭自注意力（MHSA）模塊、一個(gè)圖形殘差塊、一個(gè)第二個(gè)Layer Norm和一個(gè)MLP。具體而言，具有P個(gè)頭的MHSA模塊接受輸入序列

H = {hi} ∈ Rn×d

，其中

i ∈ {1, 2, · · · , n}

表示

n

個(gè)標(biāo)記，并為每個(gè)標(biāo)記輸出

{h_p^i}

，其中

p ∈ {1, 2, · · · , P}

是頭索引。每個(gè)

h_p&i

計(jì)算如下：

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Pers...

A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Pers...

摘要

1. 引言

2. 背景和分類

2.1. 循環(huán)GNN