圖神經(jīng)網(wǎng)絡自監(jiān)督學習工具箱 - JOAO

文章名稱

【ICML-2021】【Texas A&M University/The University of Texas at Austin】Graph Contrastive Learning Automated

核心要點

文章旨在解決現(xiàn)有GraphCL方法需要依賴領域知識和大量的試驗來挑選圖增廣方法,才能從無標簽的圖數(shù)據(jù)上學習可遷移的,魯棒知識的問題,提出了JOAO學習框架,把圖自監(jiān)督學習形式化為bi-level min-max優(yōu)化問題,同時學習自動選取圖增廣任務與圖表示模型,不同于已有的自動圖增廣搜索方法,JOAO可以更充分的探索各種任務的組合,提升模型性能。

研究背景

圖自監(jiān)督學習可以從無標簽的數(shù)據(jù)中學習圖數(shù)據(jù)中固有的,可遷移的,魯棒的知識(是指不會因為數(shù)據(jù)分布偏差被干擾的),但是不同于圖像數(shù)據(jù),圖數(shù)據(jù)是對不同關系的抽象,例如,醫(yī)療保健系統(tǒng)網(wǎng)絡,引文網(wǎng)絡、社交網(wǎng)絡和生物醫(yī)學網(wǎng)絡等等。通常需要針對特定的圖數(shù)據(jù),利用領域知識,并進行大量的嘗試來選取和是的圖數(shù)據(jù)增廣方法。并且,自監(jiān)督學習期望利用無標簽數(shù)據(jù)進行有效的表示學習,這進一步增大了挑戰(zhàn)。因此,作者期望在現(xiàn)有GraphCL方法的基礎上,自動的選取合適的圖增廣方法。

方法細節(jié)

Graph contrastive learning

首先簡單形式化一下GraphCL,其整體框架如下圖所示。給定從特定分布(某一個數(shù)據(jù)集)中得到的圖數(shù)據(jù){G}^{}_{} \sim \mathbb{P}_{G\prime}(這里作者針對的是多圖場景),隨機從數(shù)據(jù)增廣方法池\mathcal{A} = \{ NodeDrop, Subgraph,EdgePert, AttrMask,Identical \}中[You et al., 2020a]選取兩種增廣方法{A}^{}_{1}, {A}^{}_{2}。

graph contrastive learning framework
GaphCL objective

JOAO

如前所述,原有的GraphCL方法只能利用預先針對下游任務準備好的graph augmentation組合,相當于只探索了聯(lián)合分布{\mathbb{P}}^{}_{({A}^{}_{1}, {A}^{}_{2})}的某幾個點(作者稱之為 Dirac distribution),而沒有探索所有分布點。

因此作者采用,如下圖所示的bi-level(雙層優(yōu)化目標)目標進行對比學習。其中,

  • 外層目標\mathcal{ L }是GraphCL或其他圖對比學習的目標。
  • 內層目標\mathcal{ D },也就是約束中的最優(yōu)化任務,是尋找最優(yōu)的自監(jiān)督任務組合。
JOAO objective

值得注意的是,這里沒有利用下游任務的標簽,而是利用對抗訓練的方法[Wang et al., 2019; Xie et al., 2020],無監(jiān)督的方式進行min-max optimization。其中max的部分是尋找當前最具挑戰(zhàn)性的數(shù)據(jù)增廣組合。

具體的min-max game目標函數(shù)如下圖所示,其中,

  • \gamma是非負實數(shù),調節(jié)增廣組合被選擇的概率與任務難度之間的平衡。
  • dist = \sum_{i=1}^{|\mathcal{ A }|}{\sum_{j=1}^{|\mathcal{ A }|}{}{}}{{}({p}^{}_{ij} - \frac{1}{|\mathcal{ A }|^2})^2}表示度量分布的距離函數(shù),作者采用的是這種squared Euclidean distance。p_ij表示采用i, j這兩種增廣方法組合的概率。
  • \mathbb{ P }_{prior}是某種給定的增廣組合先驗分布(比如,要求變刪除和節(jié)點mask組合被選擇的概率更大,方便控制)作者依據(jù)提升多樣性的目標和最大熵原理,采用均勻分布。
min-max objective function

這個max可以被理解為,盡可能的要求增廣策略組合與給定的先驗分布接近,又能夠使\mathcal{ L }的損失最大(任務更具有挑戰(zhàn))。

作者采用AGD(Wang et al., 2019)的方式優(yōu)化上述,算法偽代碼參見代碼實現(xiàn)部分。

代碼實現(xiàn)

作者采用AGD優(yōu)化方法學習模型參數(shù)的偽代碼。在一次優(yōu)化的過程中交替的對內外層優(yōu)化進行求解,是等步長的優(yōu)化。

pseudo code

心得體會

假設獨立

作者假設屬性的生成是按順序獨立的,也就是說確定了某種生成順序之后,在步驟i之后生成的節(jié)點的屬性行與步驟i的節(jié)點無關。這種假設建立在順序無關的基礎是,并且需要通過對各種順序的覆蓋來保證,因為實際上上述假設不一定成立。

另外,作者假設邊生成式互相獨立的,也就是說的邊{j}^{+}_{1}{j}^{+}_{2}的生成是獨立的。個人感覺,這個也假設不一定,不過聯(lián)系可能相對較少,并且通過不同順序的覆蓋,保證沒有特別大的影響,卻得到很好地并行性能。

文章引用

[1] Joan Bruna, Wojciech Zaremba, Arthur Szlam, and Yann LeCun. 2013. Spectral networks and locally connected networks on graphs. arXiv:1312.6203 (2013).

[45] Difan Zou, Ziniu Hu, Yewen Wang, Song Jiang, Yizhou Sun, and Quanquan Gu. 2019. Layer-Dependent Importance Sampling for Training Deep and Large Graph Convolutional Networks. In NeurIPS 2019.

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容