人人插人人操一区,日本免费不卡二区

Strategies for Pre-training Graph Neural Networks

https://arxiv.org/abs/1905.12265

spotlight? ICLR 2020

機(jī)器學(xué)習(xí)的許多應(yīng)用需要一個(gè)模型來(lái)對(duì)分布上不同于訓(xùn)練樣本的測(cè)試樣本進(jìn)行準(zhǔn)確的預(yù)測(cè)，而在訓(xùn)練過(guò)程中任務(wù)特定的標(biāo)簽很少。解決這一難題的有效方法是，在數(shù)據(jù)豐富的相關(guān)任務(wù)上預(yù)先訓(xùn)練模型，然后在感興趣的下游任務(wù)上對(duì)其進(jìn)行微調(diào)。雖然預(yù)訓(xùn)練在許多語(yǔ)言和視覺(jué)領(lǐng)域都是有效的，但是如何在圖形數(shù)據(jù)集上有效地使用預(yù)訓(xùn)練仍然是一個(gè)懸而未決的問(wèn)題。本文提出了一種新的預(yù)訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)的策略和自監(jiān)督方法。我們的策略成功的關(guān)鍵是，即在單個(gè)節(jié)點(diǎn)層次上，也在整個(gè)圖的層次上，預(yù)訓(xùn)練一個(gè)有表示能力的GNN，以便GNN能夠同時(shí)學(xué)習(xí)有用的局部和全局表示。系統(tǒng)地研究了多圖分類(lèi)數(shù)據(jù)集的預(yù)訓(xùn)練問(wèn)題。我們發(fā)現(xiàn)，在整個(gè)圖或單個(gè)節(jié)點(diǎn)的層次上預(yù)先訓(xùn)練GNNs的樸素策略，其改進(jìn)有限，甚至?xí)?dǎo)致許多下游任務(wù)的負(fù)遷移。相比之下，我們的策略避免了負(fù)遷移，顯著提高了下游任務(wù)的泛化能力，導(dǎo)致ROC-AUC比未經(jīng)預(yù)訓(xùn)練的模型有9.4%的絕對(duì)改善，并實(shí)現(xiàn)了分子特性預(yù)測(cè)和蛋白質(zhì)功能預(yù)測(cè)的最新性能。

遷移學(xué)習(xí)指的是一個(gè)模式，最初在一些任務(wù)上訓(xùn)練，然后在不同但相關(guān)的任務(wù)上重新設(shè)計(jì)。深度遷移學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大成功（Donahue等人，2014；Girshick等人，2014年；Zeiler&Fergus，2014）和自然語(yǔ)言處理（Devlin等人，2019；Peters等人，2018年；Mikolov等人，2013年）。盡管是一種有效的遷移學(xué)習(xí)方法，但很少有研究將預(yù)訓(xùn)練推廣到圖形數(shù)據(jù)。

通過(guò)對(duì)圖形數(shù)據(jù)集的學(xué)習(xí)，預(yù)培訓(xùn)有可能為以下兩個(gè)基本挑戰(zhàn)提供一個(gè)有吸引力的解決方案（Pan&Yang，2009；Hendrycks等人，2019）：首先，任務(wù)特定的標(biāo)記數(shù)據(jù)可能非常稀少。這一問(wèn)題在科學(xué)領(lǐng)域（如化學(xué)和生物學(xué)）的重要圖形數(shù)據(jù)集中更加嚴(yán)重，其中數(shù)據(jù)標(biāo)記（如濕實(shí)驗(yàn)室中的生物實(shí)驗(yàn)）是資源和時(shí)間密集型的（Ztinik等人，2018）。第二，來(lái)自真實(shí)應(yīng)用程序的圖形數(shù)據(jù)通常包含分布外樣本，這意味著訓(xùn)練集中的圖形在結(jié)構(gòu)上與測(cè)試集中的圖形非常不同。分布外預(yù)測(cè)在現(xiàn)實(shí)世界的圖形數(shù)據(jù)集中很常見(jiàn)，例如，當(dāng)人們想要預(yù)測(cè)一個(gè)全新的、剛剛合成的分子的化學(xué)性質(zhì)時(shí)，它與迄今為止合成的所有分子都不同，因此與訓(xùn)練集中的所有分子都不同。

然而，圖形數(shù)據(jù)集的預(yù)訓(xùn)練仍然是一項(xiàng)艱巨的挑戰(zhàn)。幾項(xiàng)關(guān)鍵研究（Xu等人，2017；Ching等人，2018年；Wang等人（2019年）已經(jīng)表明，成功的遷移學(xué)習(xí)不僅僅是增加與下游任務(wù)來(lái)自同一領(lǐng)域的標(biāo)記前訓(xùn)練數(shù)據(jù)集的數(shù)量。相反，它需要大量的領(lǐng)域?qū)I(yè)知識(shí)來(lái)仔細(xì)選擇與感興趣的下游任務(wù)相關(guān)的示例和目標(biāo)標(biāo)簽。否則，知識(shí)從相關(guān)的預(yù)訓(xùn)練任務(wù)轉(zhuǎn)移到新的下游任務(wù)可能會(huì)損害泛化，這被稱(chēng)為負(fù)遷移（Rosenstein et al.，2005），并顯著限制預(yù)訓(xùn)練模型的適用性和可靠性。

現(xiàn)在的工作。

在這里，我們將重點(diǎn)放在作為圖神經(jīng)網(wǎng)絡(luò)（GNNs）轉(zhuǎn)移學(xué)習(xí)方法的預(yù)訓(xùn)練上（Kipf&Welling，2017；漢密爾頓等人，2017a；Ying等人，2018b；徐等，2019；2018）用于圖級(jí)屬性預(yù)測(cè)。我們的工作有兩個(gè)關(guān)鍵貢獻(xiàn)(1）我們進(jìn)行了第一次系統(tǒng)的大規(guī)模調(diào)查的戰(zhàn)略預(yù)訓(xùn)GNNs。為此，我們構(gòu)建了兩個(gè)新的大型預(yù)訓(xùn)練數(shù)據(jù)集，并與社區(qū)共享：一個(gè)包含200萬(wàn)個(gè)圖形的化學(xué)數(shù)據(jù)集和一個(gè)包含395K個(gè)圖形的生物數(shù)據(jù)集。我們還表明，大型領(lǐng)域特定數(shù)據(jù)集對(duì)于調(diào)查預(yù)訓(xùn)練至關(guān)重要，現(xiàn)有的下游基準(zhǔn)數(shù)據(jù)集太小，無(wú)法以統(tǒng)計(jì)上可靠的方式評(píng)估模型(2）我們提出了一種有效的GNNs預(yù)訓(xùn)練策略，并證明了該策略的有效性及其對(duì)硬遷移學(xué)習(xí)問(wèn)題的非分布泛化能力。

在我們的系統(tǒng)研究中，我們發(fā)現(xiàn)訓(xùn)練前的GNNs并不總是有幫助的。不適用?ve預(yù)訓(xùn)練策略會(huì)導(dǎo)致許多下游任務(wù)的負(fù)遷移。引人注目的是，一個(gè)看似強(qiáng)大的預(yù)訓(xùn)練策略（即，圖級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練，使用最先進(jìn)的圖級(jí)預(yù)測(cè)任務(wù)的圖神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)）只會(huì)帶來(lái)邊際性能增益。此外，這種策略甚至導(dǎo)致許多下游任務(wù)的負(fù)遷移（8個(gè)分子數(shù)據(jù)集中有2個(gè)，40個(gè)蛋白質(zhì)預(yù)測(cè)任務(wù)中有13個(gè)）。

我們制定了一個(gè)有效的戰(zhàn)略，為前培訓(xùn)GNNs。其關(guān)鍵思想是使用易于訪問(wèn)的節(jié)點(diǎn)級(jí)信息，并鼓勵(lì)GNNs捕獲有關(guān)節(jié)點(diǎn)和邊的領(lǐng)域特定知識(shí)，以及圖形級(jí)知識(shí)。這有助于GNN學(xué)習(xí)全局和局部級(jí)別的有用表示（圖1（a.iii）），并且對(duì)于能夠生成健壯且可轉(zhuǎn)移到各種下游任務(wù)（圖1）的圖級(jí)表示（通過(guò)匯集節(jié)點(diǎn)表示獲得）至關(guān)重要。我們的策略與na相反?只利用圖級(jí)屬性（圖1（a.ii））或節(jié)點(diǎn)級(jí)屬性（圖1（a.i））的ve策略。

根據(jù)經(jīng)驗(yàn)，我們的預(yù)訓(xùn)練策略與最具表現(xiàn)力的GNN架構(gòu)GIN（Xu et al.，2019）結(jié)合使用，在基準(zhǔn)數(shù)據(jù)集上產(chǎn)生了最先進(jìn)的結(jié)果，并避免了我們測(cè)試的下游任務(wù)之間的負(fù)遷移。它顯著提高了下游任務(wù)的泛化性能，平均ROC-AUC比未經(jīng)預(yù)訓(xùn)練的GNNs高9.4%，平均ROC-AUC比經(jīng)過(guò)廣泛圖形級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練的GNNs高5.2%。此外，我們發(fā)現(xiàn)最具表現(xiàn)力的架構(gòu)（GIN）比那些表現(xiàn)力較弱的架構(gòu)（例如，GCN（Kipf&Welling，2017）、GraphSAGE（Hamilton et al.，2017b）和GAT（Velickovic et al.，2018））從前期培訓(xùn)中獲益更多，而預(yù)訓(xùn)練GNNs會(huì)導(dǎo)致在微調(diào)階段更快的訓(xùn)練和收斂。

圖神經(jīng)網(wǎng)絡(luò)的2個(gè)預(yù)備知識(shí)

我們首先將圖的監(jiān)督學(xué)習(xí)形式化，并對(duì)GNNs進(jìn)行了概述（Gilmer et al.，2017）。然后，我們簡(jiǎn)要回顧了無(wú)監(jiān)督圖表示學(xué)習(xí)的方法。

圖的監(jiān)督學(xué)習(xí)。

設(shè)G=（V，E）表示具有節(jié)點(diǎn)屬性Xv的圖∈ V和邊屬性euv for（u，V）∈ E。給定一組圖{G1，GN}和它們的標(biāo)簽{y1，圖監(jiān)督學(xué)習(xí)的任務(wù)是學(xué)習(xí)一個(gè)表示向量hG，它有助于預(yù)測(cè)整個(gè)圖G的標(biāo)號(hào)yG=G（hG）。例如，在分子性質(zhì)預(yù)測(cè)中，G是一個(gè)分子圖，其中節(jié)點(diǎn)代表原子，邊代表化學(xué)鍵，要預(yù)測(cè)的標(biāo)簽可以是毒性或酶結(jié)合。

圖形神經(jīng)網(wǎng)絡(luò)。

GNNs利用圖的連通性以及節(jié)點(diǎn)和邊的特征來(lái)學(xué)習(xí)每個(gè)節(jié)點(diǎn)v的表示向量（即嵌入）∈ 和整個(gè)圖的向量hG?，F(xiàn)代GNN使用鄰域聚合方法，其中通過(guò)聚合v的相鄰節(jié)點(diǎn)和邊的表示來(lái)迭代更新節(jié)點(diǎn)v的表示（Gilmer et al.，2017）。經(jīng)過(guò)k次聚合迭代后，v的表示在k-hop網(wǎng)絡(luò)鄰域內(nèi)捕獲結(jié)構(gòu)信息。形式上，GNN的第k層是：

其中h（k）v是節(jié)點(diǎn)v在第k次迭代/層上的表示，euv是u和v之間的邊的特征向量，N（v）是v的一組鄰居。我們初始化h（0）v=Xv。

圖形表示學(xué)習(xí)。

為了獲得整個(gè)圖形的表示hG，讀出函數(shù)匯集了來(lái)自最終迭代K的節(jié)點(diǎn)特征，

讀出是置換不變函數(shù)，例如平均或更復(fù)雜的圖級(jí)池函數(shù)（Ying等人，2018b；張等，2018）。

圖神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練的3種策略

我們的預(yù)訓(xùn)練策略的技術(shù)核心是在單個(gè)節(jié)點(diǎn)和整個(gè)圖的層次上預(yù)訓(xùn)練GNN的概念。這一概念鼓勵(lì)GNN在兩個(gè)級(jí)別捕獲特定于領(lǐng)域的語(yǔ)義，如圖1（a.iii）所示。這與直接但有限的預(yù)訓(xùn)練策略相反，這些策略要么僅使用預(yù)訓(xùn)練來(lái)預(yù)測(cè)整個(gè)圖的屬性（圖1（a.ii）），要么僅使用預(yù)訓(xùn)練來(lái)預(yù)測(cè)單個(gè)節(jié)點(diǎn)的屬性（圖1（a.i））。

在下面，我們首先描述我們的節(jié)點(diǎn)級(jí)預(yù)訓(xùn)練方法（第3.1節(jié)），然后是圖級(jí)預(yù)訓(xùn)練方法（第3.2節(jié)）。最后，我們將在第3.3節(jié)中描述完整的預(yù)培訓(xùn)策略。

3.1節(jié)點(diǎn)級(jí)預(yù)訓(xùn)

對(duì)于GNNs的節(jié)點(diǎn)級(jí)預(yù)訓(xùn)練，我們的方法是使用易于訪問(wèn)的未標(biāo)記數(shù)據(jù)來(lái)捕獲圖中特定領(lǐng)域的知識(shí)/規(guī)則。本文提出了兩種自監(jiān)督方法：上下文預(yù)測(cè)和屬性掩蔽

3.1.1上下文預(yù)測(cè)：利用圖結(jié)構(gòu)的分布

在上下文預(yù)測(cè)中，我們使用子圖來(lái)預(yù)測(cè)其周?chē)膱D結(jié)構(gòu)。我們的目標(biāo)是對(duì)GNN進(jìn)行預(yù)訓(xùn)練，以便它將出現(xiàn)在類(lèi)似結(jié)構(gòu)上下文中的節(jié)點(diǎn)映射到附近的嵌入（Rubenstein&Goodenough，1965；Mikolov等人，2013年）。

鄰域圖和上下文圖。

對(duì)于每個(gè)節(jié)點(diǎn)v，我們定義v的鄰域圖和上下文圖如下。v的K-hop鄰域包含圖中距離v最多K-hop的所有節(jié)點(diǎn)和邊。這是因?yàn)镵層GNN在v的K階鄰域上聚集信息，因此嵌入h（K）v的節(jié)點(diǎn)依賴(lài)于距離v最多K跳的節(jié)點(diǎn)。我們將節(jié)點(diǎn)v的上下文圖定義為圍繞其鄰域的圖結(jié)構(gòu)。上下文圖由兩個(gè)超參數(shù)r1和r2描述，它表示距離v的r1跳和r2跳之間的子圖（即，它是一個(gè)寬度為r2的環(huán)）? r1）。鄰域圖和上下文圖的示例如圖2（a）所示。我們要求r1<K，這樣一些節(jié)點(diǎn)在鄰域和上下文圖之間共享，我們將這些節(jié)點(diǎn)稱(chēng)為上下文錨節(jié)點(diǎn)。這些錨節(jié)點(diǎn)提供關(guān)于鄰域圖和上下文圖如何相互連接的信息。

使用輔助GNN將上下文編碼為固定向量。

由于圖的組合性質(zhì)，直接預(yù)測(cè)上下文圖是很困難的。這與自然語(yǔ)言處理不同，在自然語(yǔ)言處理中，單詞來(lái)自固定且有限的詞匯表。為了實(shí)現(xiàn)上下文預(yù)測(cè)，我們將上下文圖編碼為固定長(zhǎng)度的向量。為此，我們使用一個(gè)輔助GNN，我們稱(chēng)之為context GNN。如圖2（a）所示，我們首先應(yīng)用上下文GNN（在圖2（a）中表示為GNN0）來(lái)獲得上下文圖中的節(jié)點(diǎn)嵌入。然后對(duì)上下文錨節(jié)點(diǎn)的嵌入進(jìn)行平均，得到一個(gè)固定長(zhǎng)度的上下文嵌入。對(duì)于圖G中的節(jié)點(diǎn)v，我們將其相應(yīng)的上下文嵌入表示為cgv。

通過(guò)負(fù)采樣學(xué)習(xí)。

然后我們使用負(fù)采樣（Mikolov等人，2013；Ying等人，2018a）共同學(xué)習(xí)主GNN和上下文GNN。主GNN編碼鄰域以獲得節(jié)點(diǎn)嵌入。context GNN對(duì)上下文圖進(jìn)行編碼以獲得上下文嵌入。具體而言，上下文預(yù)測(cè)的學(xué)習(xí)目標(biāo)是特定鄰域和特定上下文圖是否屬于同一節(jié)點(diǎn)的二元分類(lèi)：

哪里σ(·) 是S形函數(shù)，1（·）是指示函數(shù)。我們要么讓v0=v和G0=G（即，正鄰域上下文對(duì)），要么從隨機(jī)選擇的圖G0（即，負(fù)鄰域上下文對(duì)）中隨機(jī)抽樣v0。我們使用1的負(fù)采樣率（每一個(gè)正對(duì)一個(gè)負(fù)對(duì)），并使用負(fù)對(duì)數(shù)似然作為損失函數(shù)。經(jīng)過(guò)預(yù)訓(xùn)練后，主GNN被保留為我們的預(yù)訓(xùn)練模型

3.1.2屬性掩蔽：利用圖形屬性的分布

在屬性掩蔽中，我們的目標(biāo)是通過(guò)學(xué)習(xí)分布在圖結(jié)構(gòu)上的節(jié)點(diǎn)/邊屬性的規(guī)律來(lái)獲取領(lǐng)域知識(shí)。

遮罩節(jié)點(diǎn)和邊屬性。

屬性掩蔽預(yù)訓(xùn)練工作如下：我們掩蔽節(jié)點(diǎn)/邊緣屬性，然后讓GNNs基于相鄰結(jié)構(gòu)預(yù)測(cè)這些屬性（Devlin等人，2019）。圖2（b）說(shuō)明了我們提出的方法應(yīng)用于分子圖時(shí)的情況。具體來(lái)說(shuō)，我們隨機(jī)屏蔽輸入節(jié)點(diǎn)/邊屬性，例如分子圖中的原子類(lèi)型，方法是用特殊的屏蔽指示符替換它們。然后，我們應(yīng)用GNNs來(lái)獲得相應(yīng)的節(jié)點(diǎn)/邊嵌入（邊嵌入可以作為邊的末端節(jié)點(diǎn)的節(jié)點(diǎn)嵌入的總和來(lái)獲得）。最后，在嵌入的基礎(chǔ)上應(yīng)用一個(gè)線性模型來(lái)預(yù)測(cè)一個(gè)隱藏的節(jié)點(diǎn)/邊屬性。與Devlin et al.（2019）對(duì)句子進(jìn)行操作并將消息傳遞應(yīng)用于令牌的完全連通圖不同，我們對(duì)非完全連通圖進(jìn)行操作，旨在捕捉分布在不同圖結(jié)構(gòu)上的節(jié)點(diǎn)/邊屬性的規(guī)律。此外，我們?cè)试S掩蔽邊緣屬性，而不僅僅是掩蔽節(jié)點(diǎn)屬性。

我們的節(jié)點(diǎn)和邊屬性掩蔽方法對(duì)于來(lái)自科學(xué)領(lǐng)域的有豐富注釋的圖特別有用。例如，（1）在分子圖中，節(jié)點(diǎn)屬性對(duì)應(yīng)于原子類(lèi)型，捕獲它們?cè)趫D上的分布方式使GNNs能夠?qū)W習(xí)簡(jiǎn)單的化學(xué)規(guī)則，例如價(jià)態(tài)，以及潛在的更復(fù)雜的化學(xué)現(xiàn)象，例如官能團(tuán)的電子或空間位阻性質(zhì)。類(lèi)似地，（2）在蛋白質(zhì)-蛋白質(zhì)相互作用（PPI）圖中，邊緣屬性對(duì)應(yīng)于一對(duì)蛋白質(zhì)之間不同類(lèi)型的相互作用。通過(guò)捕捉這些屬性在PPI圖中的分布，GNNs可以了解不同的交互是如何相互關(guān)聯(lián)的。

3.2圖形級(jí)預(yù)培訓(xùn)

我們的目標(biāo)是預(yù)先訓(xùn)練GNNs生成有用的圖嵌入，這些圖嵌入由第3.1節(jié)中的方法獲得的有意義的節(jié)點(diǎn)嵌入組成。我們的目標(biāo)是確保節(jié)點(diǎn)和圖的嵌入都是高質(zhì)量的，以便圖的嵌入是健壯的，并且可以在下游任務(wù)之間轉(zhuǎn)移，如圖1（a.iii）所示。此外，圖級(jí)預(yù)訓(xùn)練有兩個(gè)選項(xiàng)，如圖1（b）所示：對(duì)整個(gè)圖的特定領(lǐng)域?qū)傩裕ɡ?，監(jiān)督標(biāo)簽）進(jìn)行預(yù)測(cè)，或?qū)D結(jié)構(gòu)進(jìn)行預(yù)測(cè)。

3.2.1有監(jiān)督圖級(jí)性能預(yù)測(cè)

由于圖級(jí)表示hG直接用于下游預(yù)測(cè)任務(wù)的微調(diào)，因此需要將特定領(lǐng)域的信息直接編碼到hG中。

通過(guò)定義有監(jiān)督的圖級(jí)預(yù)測(cè)任務(wù)，我們將圖級(jí)領(lǐng)域特定的知識(shí)注入到預(yù)訓(xùn)練的嵌入中。特別地，我們考慮了一種預(yù)訓(xùn)練圖表示的實(shí)用方法：圖級(jí)多任務(wù)有監(jiān)督預(yù)訓(xùn)練來(lái)聯(lián)合預(yù)測(cè)單個(gè)圖的一組不同的有監(jiān)督標(biāo)簽。例如，在分子性質(zhì)預(yù)測(cè)中，我們可以預(yù)先訓(xùn)練GNNs來(lái)預(yù)測(cè)到目前為止實(shí)驗(yàn)測(cè)量的分子的所有性質(zhì)。在蛋白質(zhì)功能預(yù)測(cè)中，目標(biāo)是預(yù)測(cè)一個(gè)給定的蛋白質(zhì)是否具有給定的功能，我們可以預(yù)先訓(xùn)練GNNs來(lái)預(yù)測(cè)到目前為止已經(jīng)被證實(shí)的各種蛋白質(zhì)功能的存在。在第5節(jié)的實(shí)驗(yàn)中，我們準(zhǔn)備了一組不同的監(jiān)督任務(wù)（最多5000個(gè)任務(wù)）來(lái)模擬這些實(shí)際場(chǎng)景。第5.1節(jié)描述了受監(jiān)督任務(wù)和數(shù)據(jù)集的更多細(xì)節(jié)。為了聯(lián)合預(yù)測(cè)多個(gè)圖屬性，其中每個(gè)屬性對(duì)應(yīng)一個(gè)二值分類(lèi)任務(wù)，我們?cè)趫D表示的基礎(chǔ)上應(yīng)用線性分類(lèi)器。

重要的是，娜?如第5節(jié)中的經(jīng)驗(yàn)所示，單獨(dú)進(jìn)行廣泛的多任務(wù)圖級(jí)預(yù)訓(xùn)練可能無(wú)法給出可轉(zhuǎn)移的圖級(jí)表示。這是因?yàn)橐恍┦鼙O(jiān)督的預(yù)訓(xùn)練任務(wù)可能與感興趣的下游任務(wù)無(wú)關(guān)，甚至可能損害下游性能（負(fù)遷移）。一種解決辦法是選擇“真正相關(guān)的”有監(jiān)督的訓(xùn)練前任務(wù)，只對(duì)這些任務(wù)進(jìn)行訓(xùn)練前GNN訓(xùn)練。然而，這樣的解決方案成本極高，因?yàn)檫x擇相關(guān)任務(wù)需要大量的領(lǐng)域?qū)I(yè)知識(shí)，并且需要針對(duì)不同的下游任務(wù)分別進(jìn)行預(yù)培訓(xùn)。

為了緩解這個(gè)問(wèn)題，我們的關(guān)鍵是多任務(wù)監(jiān)督預(yù)訓(xùn)練只提供圖級(jí)監(jiān)督；因此，創(chuàng)建圖級(jí)嵌入的本地節(jié)點(diǎn)嵌入可能沒(méi)有意義，如圖1（a.ii）所示。這種非有用的節(jié)點(diǎn)嵌入會(huì)加劇負(fù)遷移問(wèn)題，因?yàn)樵诠?jié)點(diǎn)嵌入空間中，許多不同的預(yù)訓(xùn)練任務(wù)更容易相互干擾?；诖耍覀兊念A(yù)訓(xùn)練策略是在執(zhí)行圖級(jí)預(yù)訓(xùn)練之前，首先通過(guò)第3.1節(jié)中描述的節(jié)點(diǎn)級(jí)預(yù)訓(xùn)練方法在單個(gè)節(jié)點(diǎn)的水平上正則化GNNs。我們的經(jīng)驗(yàn)證明，這種組合策略可以產(chǎn)生更多的可轉(zhuǎn)換圖表示，并且在沒(méi)有專(zhuān)家選擇有監(jiān)督的預(yù)訓(xùn)練任務(wù)的情況下，能夠顯著提高下游性能。

3.2.2結(jié)構(gòu)相似性預(yù)測(cè)

第二種方法是定義一個(gè)圖級(jí)預(yù)測(cè)任務(wù)，目標(biāo)是對(duì)兩個(gè)圖的結(jié)構(gòu)相似性進(jìn)行建模。此類(lèi)任務(wù)的示例包括建模圖形編輯距離（Bai et al.，2019）或預(yù)測(cè)圖形結(jié)構(gòu)相似性（Navarin et al.，2018）。然而，找到地面真值圖距離值是一個(gè)困難的問(wèn)題，并且在大數(shù)據(jù)集中有一個(gè)二次數(shù)的圖對(duì)要考慮。因此，雖然這種類(lèi)型的預(yù)培訓(xùn)也是很自然的，但它超出了本文的范圍，我們將其研究留給今后的工作。

3.3概述：GNNS預(yù)培訓(xùn)和下游任務(wù)微調(diào)

總之，我們的預(yù)訓(xùn)練策略是先進(jìn)行節(jié)點(diǎn)級(jí)自監(jiān)督預(yù)訓(xùn)練（第3.1節(jié)），然后進(jìn)行圖級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練（第3.2節(jié)）。當(dāng)GNN預(yù)訓(xùn)練完成后，我們對(duì)下游任務(wù)的預(yù)訓(xùn)練GNN模型進(jìn)行微調(diào)。具體來(lái)說(shuō)，我們?cè)趫D級(jí)表示的基礎(chǔ)上添加線性分類(lèi)器來(lái)預(yù)測(cè)下游圖標(biāo)簽。整個(gè)模型，即預(yù)先訓(xùn)練的GNN和下游線性分類(lèi)器，隨后以端到端的方式進(jìn)行微調(diào)。時(shí)間復(fù)雜度分析在附錄F中給出，我們的預(yù)訓(xùn)練方法在GNNs中產(chǎn)生的前向計(jì)算開(kāi)銷(xiāo)很小。

4進(jìn)一步的相關(guān)工作

關(guān)于圖中單個(gè)節(jié)點(diǎn)的無(wú)監(jiān)督表示學(xué)習(xí)的文獻(xiàn)很多，一般分為兩類(lèi)。第一類(lèi)是使用基于局部隨機(jī)游走的目標(biāo)的方法（Grover&Leskovec，2016；Perozzi等人，2014年；Tang等人，2015）和重建圖的鄰接矩陣的方法，例如，通過(guò)預(yù)測(cè)邊的存在（Hamilton等人，2017a；Kipf&Welling，2016年）。第二類(lèi)是方法，比如Deep Graph Infomax（Velickovi）ˇ c′ 等人，2019年），訓(xùn)練一個(gè)最大化局部節(jié)點(diǎn)表示和集合全局圖表示之間互信息的節(jié)點(diǎn)編碼器。所有這些方法都鼓勵(lì)附近的節(jié)點(diǎn)具有相似的嵌入，并且最初是針對(duì)節(jié)點(diǎn)分類(lèi)和鏈路預(yù)測(cè)提出和評(píng)估的。然而，這對(duì)于圖級(jí)預(yù)測(cè)任務(wù)來(lái)說(shuō)可能是次優(yōu)的，在圖級(jí)預(yù)測(cè)任務(wù)中，捕捉局部鄰域的結(jié)構(gòu)相似性通常比捕捉圖中節(jié)點(diǎn)的位置信息更重要（You等人，2019；羅杰斯和哈恩，2010；Yang等人，2014年）。因此，我們的方法既考慮了節(jié)點(diǎn)級(jí)的預(yù)訓(xùn)練任務(wù)，也考慮了圖級(jí)的預(yù)訓(xùn)練任務(wù)，并且正如我們?cè)趯?shí)驗(yàn)中所顯示的，為了使預(yù)訓(xùn)練模型獲得良好的性能，必須同時(shí)使用這兩種類(lèi)型的任務(wù)。

最近的一些工作也探討了節(jié)點(diǎn)嵌入如何在任務(wù)間泛化（Jaeger et al.，2018；周等，2018；查克拉瓦蒂，2018年；Narayanan等人，2016）。然而，所有這些方法都對(duì)不同的子結(jié)構(gòu)使用不同的節(jié)點(diǎn)嵌入，并且不共享任何參數(shù)。因此，它們本質(zhì)上是跨傳的，不能在數(shù)據(jù)集之間傳輸，不能以端到端的方式進(jìn)行微調(diào)，并且由于數(shù)據(jù)稀疏性，不能捕獲大型和多樣的社區(qū)/上下文。我們的方法通過(guò)開(kāi)發(fā)GNNs的預(yù)訓(xùn)練方法來(lái)解決所有這些挑戰(zhàn)，這些方法使用共享參數(shù)來(lái)編碼圖級(jí)以及節(jié)點(diǎn)級(jí)的依賴(lài)關(guān)系和結(jié)構(gòu)。

5個(gè)實(shí)驗(yàn)

5.1數(shù)據(jù)集

我們考慮兩個(gè)領(lǐng)域；化學(xué)中的分子性質(zhì)預(yù)測(cè)和生物學(xué)中的蛋白質(zhì)功能預(yù)測(cè)。我們將在以下位置發(fā)布新的數(shù)據(jù)集：http://snap.stanford.edu/gnn-pretrain.

訓(xùn)練前數(shù)據(jù)集。

對(duì)于化學(xué)領(lǐng)域，我們使用從ZINC15數(shù)據(jù)庫(kù)（Sterling&Irwin，2015）中取樣的200萬(wàn)個(gè)未標(biāo)記分子進(jìn)行節(jié)點(diǎn)級(jí)自我監(jiān)督預(yù)訓(xùn)練。對(duì)于圖級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練，我們使用預(yù)處理的ChEMBL數(shù)據(jù)集（Mayr et al.，2018；Gaulton等人，2011），包含456K分子，具有1310種多樣性和廣泛的生化分析。對(duì)于生物學(xué)領(lǐng)域，我們使用來(lái)自50個(gè)物種（例如人類(lèi)、酵母、斑馬魚(yú)）的PPI網(wǎng)絡(luò)的395K未標(biāo)記蛋白質(zhì)ego網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)級(jí)自我監(jiān)督預(yù)訓(xùn)練。對(duì)于圖級(jí)多任務(wù)有監(jiān)督預(yù)訓(xùn)練，我們使用88K標(biāo)記的蛋白質(zhì)ego網(wǎng)絡(luò)來(lái)聯(lián)合預(yù)測(cè)5000個(gè)粗粒度的生物功能（如細(xì)胞凋亡、細(xì)胞增殖）。

下游分類(lèi)數(shù)據(jù)集。

對(duì)于化學(xué)領(lǐng)域，我們考慮了經(jīng)典圖分類(lèi)基準(zhǔn)（MUTAG、PTC分子數(shù)據(jù)集）（Kersting等人，2016；Xu et al.，2019）作為我們的下游任務(wù)，但發(fā)現(xiàn)它們太?。∕UTAG和PTC的188和344個(gè)示例），無(wú)法以統(tǒng)計(jì)意義的方式評(píng)估不同的方法（結(jié)果和討論見(jiàn)附錄B）。因此，作為我們的下游任務(wù)，我們決定使用MoleculeNet（Wu et al.，2018）中包含的8個(gè)較大的二元分類(lèi)數(shù)據(jù)集，MoleculeNet是最近策劃的分子性質(zhì)預(yù)測(cè)基準(zhǔn)。數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)總結(jié)在表1中。對(duì)于生物學(xué)領(lǐng)域，我們由Zitnik等人（2019）組成PPI網(wǎng)絡(luò)，由8個(gè)不同物種的88K蛋白質(zhì)組成，其中以感興趣的蛋白質(zhì)（即ego網(wǎng)絡(luò)）為中心的子圖用于預(yù)測(cè)其生物功能。我們的下游任務(wù)是預(yù)測(cè)40個(gè)與40個(gè)二元分類(lèi)任務(wù)相對(duì)應(yīng)的細(xì)粒度生物功能1。與現(xiàn)有的PPI數(shù)據(jù)集（Hamilton et al.，2017a）相比，我們的數(shù)據(jù)集更大，并且跨越多個(gè)物種（即不僅僅是人類(lèi)），這使得它成為評(píng)估分布外預(yù)測(cè)的合適基準(zhǔn)。關(guān)于分子/PPI圖的數(shù)據(jù)集和特征的更多細(xì)節(jié)見(jiàn)附錄C和D。

數(shù)據(jù)集拆分。

在許多應(yīng)用中，傳統(tǒng)的隨機(jī)拆分過(guò)于樂(lè)觀，無(wú)法模擬真實(shí)世界的用例，測(cè)試圖在結(jié)構(gòu)上可能不同于訓(xùn)練圖（Wu et al.，2018；Zitnik等人，2019年）。為了反映實(shí)際的用例，我們采用以下方法對(duì)下游數(shù)據(jù)進(jìn)行分割，以評(píng)估模型的分布外泛化。在化學(xué)領(lǐng)域，我們使用支架拆分（Ramsndar et al.，2019），我們根據(jù)分子的支架（分子亞結(jié)構(gòu)）拆分分子。在生物學(xué)領(lǐng)域，我們使用物種分裂，從新物種中預(yù)測(cè)蛋白質(zhì)的功能。詳情見(jiàn)附錄E。此外，為了防止數(shù)據(jù)泄漏，所有用于性能評(píng)估的測(cè)試圖都從圖級(jí)監(jiān)督預(yù)訓(xùn)練數(shù)據(jù)集中移除。

5.2實(shí)驗(yàn)裝置

我們將我們的訓(xùn)練前策略與兩個(gè)na進(jìn)行了徹底的比較?ve基線策略：（i）相關(guān)圖級(jí)任務(wù)的廣泛監(jiān)督多任務(wù)預(yù)訓(xùn)練，以及（ii）節(jié)點(diǎn)級(jí)自我監(jiān)督預(yù)訓(xùn)練。

GNN架構(gòu)。

我們主要研究圖同構(gòu)網(wǎng)絡(luò)（GINs）（Xu等人，2019），這是用于圖級(jí)預(yù)測(cè)任務(wù)的最具表現(xiàn)力和最先進(jìn)的GNN架構(gòu)。我們還嘗試了其他表現(xiàn)力較差的流行架構(gòu)：GCN（Kipf&Welling，2016）、GAT（Velickovi）ˇ c等人，2019）和GraphSAGE（平均鄰域聚合）（漢密爾頓′ 等人，2017b）。我們?cè)隍?yàn)證集中選擇了以下在所有下游任務(wù)中表現(xiàn)良好的超參數(shù)：300維隱藏單元、5個(gè)GNN層（K=5）和讀出函數(shù)的平均池。更多細(xì)節(jié)見(jiàn)附錄A。

培訓(xùn)前。

對(duì)于圖2（a）所示的上下文預(yù)測(cè)，在分子圖上，我們通過(guò)設(shè)置內(nèi)半徑r1=4來(lái)定義上下文圖。在直徑通常小于5的PPI網(wǎng)絡(luò)上，我們使用r1=1，盡管鄰域子圖和上下文子圖之間有很大的重疊，但根據(jù)經(jīng)驗(yàn)，r1=1工作得很好。對(duì)于分子圖和PPI圖，我們讓外半徑r2=r1+3，并使用3層GNN來(lái)編碼上下文結(jié)構(gòu)。對(duì)于圖2（b）所示的屬性掩蔽，我們隨機(jī)掩蔽15%的節(jié)點(diǎn)（對(duì)于分子圖）或邊緣屬性（對(duì)于PPI網(wǎng)絡(luò)）進(jìn)行預(yù)測(cè)。作為節(jié)點(diǎn)級(jí)自監(jiān)督預(yù)訓(xùn)練的基線，我們采用了原始邊緣預(yù)測(cè)（用EdgePred表示）（Hamilton等人，2017a）和深圖Infomax（用Infomax表示）（Velickovi）ˇ c等人，2019）實(shí)施。更多細(xì)節(jié)見(jiàn)附錄G?！?/p>

5.3結(jié)果

我們?cè)诒?和表1以及圖3中報(bào)告了分子性質(zhì)預(yù)測(cè)和蛋白質(zhì)功能預(yù)測(cè)的結(jié)果。我們的系統(tǒng)研究表明以下趨勢(shì)：

觀察（1）：

表2顯示了最具表現(xiàn)力的GNN體系結(jié)構(gòu)（GIN）在經(jīng)過(guò)預(yù)訓(xùn)練后，可以在域和數(shù)據(jù)集之間獲得最佳性能。與GIN架構(gòu)實(shí)現(xiàn)的預(yù)訓(xùn)練增益相比，使用表達(dá)能力較弱的GNNs（GCN、GraphSAGE和GAT）進(jìn)行預(yù)訓(xùn)練的增益較小，有時(shí)甚至可能為負(fù)（表2）。這一發(fā)現(xiàn)證實(shí)了先前的觀察結(jié)果（例如，Erhan等人（2010）），即使用表達(dá)模型對(duì)于充分利用預(yù)訓(xùn)練至關(guān)重要，并且當(dāng)在表達(dá)能力有限的模型（如GCN、GraphSAGE和GAT）上使用時(shí)，預(yù)訓(xùn)練甚至?xí)p害表現(xiàn)。

觀察（2）：

從表1的陰影單元格和圖3中間面板中突出顯示的區(qū)域可以看出，對(duì)GNNs執(zhí)行廣泛的圖形級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練的強(qiáng)基線策略的性能增益驚人地有限，并在許多下游任務(wù)上產(chǎn)生負(fù)遷移（分子預(yù)測(cè)中8個(gè)數(shù)據(jù)集中的2個(gè)，蛋白質(zhì)功能預(yù)測(cè)40項(xiàng)任務(wù)中的13項(xiàng)）。

觀察（3）：

從表1的上半部分和圖3的左面板中，我們可以看到另一個(gè)只執(zhí)行節(jié)點(diǎn)級(jí)自監(jiān)督預(yù)訓(xùn)練的基線策略，其性能改進(jìn)也有限，與圖級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練基線相當(dāng)。

觀察（4）：

從表1的下半部分和圖3的右面板可以看出，我們將圖級(jí)多任務(wù)監(jiān)督和節(jié)點(diǎn)級(jí)自監(jiān)督預(yù)訓(xùn)練相結(jié)合的預(yù)訓(xùn)練策略避免了跨下游數(shù)據(jù)集的負(fù)遷移，并獲得了最佳性能。

觀察（5）：

此外，從表1和圖3的左面板可以看出，我們的策略比兩種基線預(yù)訓(xùn)練策略以及非預(yù)訓(xùn)練模型具有更好的預(yù)測(cè)性能，實(shí)現(xiàn)了最先進(jìn)的性能。

具體而言，在化學(xué)數(shù)據(jù)集中，我們從表1中看到，我們的上下文預(yù)測(cè)+圖形級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練策略提供了最有希望的性能，導(dǎo)致平均ROC-AUC比非預(yù)訓(xùn)練基線增加7.2%，比圖形級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練基線增加4.2%。在HIV數(shù)據(jù)集上，最近的一些作品（Wu等人，2018；李等，2017；Ishiguro等人，2019）報(bào)告了在同一支架上的性能，使用相同的協(xié)議，我們最好的預(yù)訓(xùn)練模型（ContextPred+監(jiān)督）實(shí)現(xiàn)了最先進(jìn)的性能。特別是，我們獲得了79.9%的ROC-AUC分?jǐn)?shù)，而Wu等人（2018）、Li等人（2017）和Ishiguro等人（2019）中表現(xiàn)最好的圖形模型的ROC-AUC分?jǐn)?shù)分別為76.3%、77.6%和76.2%。

此外，在我們?cè)谶@項(xiàng)工作中構(gòu)建的生物學(xué)數(shù)據(jù)集中，我們從圖3的左面板中看到，與其他基線策略相比，我們的屬性掩蔽+圖級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練策略在幾乎所有40個(gè)下游預(yù)測(cè)任務(wù)（圖3的右面板）中實(shí)現(xiàn)了最佳的預(yù)測(cè)性能。平均而言，我們的策略使ROC-AUC比非預(yù)訓(xùn)練基線提高了9.4%，比圖形級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練基線提高了5.2%，再次達(dá)到了最先進(jìn)的性能。

觀察（6）：

在化學(xué)領(lǐng)域，我們還報(bào)告了附錄B中經(jīng)典基準(zhǔn)（MUTAG、PTC分子數(shù)據(jù)集）的性能。然而，如第5.1節(jié)所述，數(shù)據(jù)集規(guī)模極小，使得這些基準(zhǔn)不適合以統(tǒng)計(jì)上可靠的方式比較不同的方法。

觀察（7）：

除了預(yù)測(cè)性能改進(jìn)之外，圖4顯示，我們預(yù)先訓(xùn)練的模型比未預(yù)先訓(xùn)練的模型實(shí)現(xiàn)了數(shù)量級(jí)更快的訓(xùn)練和驗(yàn)證收斂。例如，在MUV數(shù)據(jù)集上，非預(yù)先訓(xùn)練的GNN需要1小時(shí)才能獲得74.9%的ROC-AUC驗(yàn)證，而我們預(yù)先訓(xùn)練的GNN只需要5分鐘就能獲得85.3%的ROC-AUC驗(yàn)證。我們使用的下游數(shù)據(jù)集也有同樣的趨勢(shì)，如附錄I中的圖5所示。我們強(qiáng)調(diào)，前期培訓(xùn)是一次性的。一旦對(duì)模型進(jìn)行了預(yù)訓(xùn)練，它就可以用于任何數(shù)量的下游任務(wù)，以在很少的訓(xùn)練時(shí)間內(nèi)提高性能。

最后，在我們的初步實(shí)驗(yàn)中，我們同時(shí)進(jìn)行了屬性掩蔽和上下文預(yù)測(cè)來(lái)預(yù)訓(xùn)練GNNs。在我們的實(shí)驗(yàn)中，這種方法并沒(méi)有提高性能。我們對(duì)該方法作了透徹的分析，以供今后的工作參考。

6結(jié)論和今后的工作

我們開(kāi)發(fā)了一種新的GNNs預(yù)訓(xùn)練策略。我們的策略成功的關(guān)鍵是將節(jié)點(diǎn)級(jí)和圖級(jí)的預(yù)訓(xùn)練與表達(dá)性GNN結(jié)合起來(lái)考慮。這確保了節(jié)點(diǎn)嵌入捕獲本地鄰域語(yǔ)義，這些語(yǔ)義匯集在一起以獲得有意義的圖級(jí)表示，這些表示反過(guò)來(lái)又用于下游任務(wù)。在多個(gè)數(shù)據(jù)集、不同的下游任務(wù)和不同的GNN結(jié)構(gòu)上的實(shí)驗(yàn)表明，新的預(yù)訓(xùn)練策略比未經(jīng)預(yù)訓(xùn)練的模型具有更好的分布外泛化效果。

我們的工作為圖形遷移學(xué)習(xí)邁出了重要的一步，解決了以往研究中觀察到的負(fù)遷移問(wèn)題。今后的工作有許多有趣的途徑。例如，通過(guò)改進(jìn)GNN架構(gòu)以及預(yù)訓(xùn)練和微調(diào)方法來(lái)進(jìn)一步提高泛化能力是一個(gè)富有成效的方向。調(diào)查預(yù)先訓(xùn)練的模型所學(xué)到的知識(shí)也有助于科學(xué)發(fā)現(xiàn)（Tshitoyan等人，2019年）。最后，將我們的方法應(yīng)用到其他領(lǐng)域，例如物理學(xué)、材料科學(xué)和結(jié)構(gòu)生物學(xué)，其中許多問(wèn)題是通過(guò)表示原子、粒子和氨基酸相互作用的圖來(lái)定義的，這將是很有趣的。

GNN架構(gòu)的詳細(xì)信息

在這里，我們描述GNN架構(gòu)用于我們的分子性質(zhì)和蛋白質(zhì)功能預(yù)測(cè)實(shí)驗(yàn)。對(duì)于這兩個(gè)域，我們使用GIN架構(gòu)（Xu et al.，2019），并進(jìn)行了一些小的修改，以包括邊緣特征以及蛋白質(zhì)網(wǎng)絡(luò)中的中心節(jié)點(diǎn)信息。

由于我們的主要目標(biāo)是系統(tǒng)地比較我們的預(yù)訓(xùn)練策略和強(qiáng)基線策略，因此我們?cè)趯?shí)驗(yàn)中修正了所有這些超參數(shù)，并關(guān)注由預(yù)訓(xùn)練策略的差異直接導(dǎo)致的相對(duì)改善。

分子性質(zhì)預(yù)測(cè)。

在分子性質(zhì)預(yù)測(cè)中，原始節(jié)點(diǎn)特征和邊緣特征都是二維分類(lèi)向量（詳見(jiàn)附錄C），分別表示為節(jié)點(diǎn)v和邊緣e的（iv，1，iv，2）和（je，1，je，2）。請(qǐng)注意，我們還引入了獨(dú)特的類(lèi)別來(lái)表示遮罩的節(jié)點(diǎn)/邊以及自循環(huán)邊。作為GNNs的輸入特征，我們首先嵌入分類(lèi)向量，其中EmbNode1（·）、EmbNode2（·）、EmbEdge（k）1（·）和EmbNode（k）1（·）表示將整數(shù)索引映射到d維實(shí)向量的嵌入操作，k表示GNN層的索引。在第k層，GNNs通過(guò)

其中N（v）是與v相鄰的一組節(jié)點(diǎn)，e=（v，v）表示自循環(huán)邊。注意，對(duì)于最后一層，即k=k，我們從公式（A.1）中刪除了ReLU，因此h（k）v可以取負(fù)值。這對(duì)于基于點(diǎn)積的預(yù)訓(xùn)練方法至關(guān)重要，例如上下文預(yù)測(cè)和邊緣預(yù)測(cè)，否則，兩個(gè)向量之間的點(diǎn)積總是正的。

圖級(jí)表示hG是通過(guò)平均最后一層的節(jié)點(diǎn)嵌入得到的，即：。，

利用hG上的線性模型進(jìn)行標(biāo)簽預(yù)測(cè)。

在我們的實(shí)驗(yàn)中，我們將嵌入維數(shù)d設(shè)置為300。對(duì)于等式（A.1）中的MLPs，我們使用600個(gè)隱藏單元的ReLU激活。我們?cè)诠剑ˋ.1）中的ReLU之前應(yīng)用批量歸一化（Ioffe&Szegedy，2015），并在除輸入層以外的所有層對(duì)h（k）v應(yīng)用衰減（Srivastava et al.，2014）。

蛋白質(zhì)功能預(yù)測(cè)。

用于蛋白質(zhì)功能預(yù)測(cè)的GNN結(jié)構(gòu)與用于分子性質(zhì)預(yù)測(cè)的GNN結(jié)構(gòu)相似，只是存在一些差異。首先，原始輸入節(jié)點(diǎn)特征是一致的（這里用X表示），其次，原始輸入邊特征是二進(jìn)制向量（詳見(jiàn)附錄D），我們用ce表示∈ {0，1}d0。作為GNNs的輸入特征，我們首先通過(guò)

其中W∈ 研發(fā)×d0和b∈ rd是可學(xué)習(xí)的參數(shù)，h（0）v，h（k）e∈ 研發(fā)。在每一層，GNNs通過(guò)

其中CONCAT（·，·）將兩個(gè)向量作為輸入并將它們串聯(lián)起來(lái)。由于下游任務(wù)是ego網(wǎng)絡(luò)分類(lèi)，所以我們?cè)谇度胝麄€(gè)ego網(wǎng)絡(luò)的同時(shí)，使用了中心節(jié)點(diǎn)vcenter的嵌入。更具體地說(shuō)，我們通過(guò)hG獲得圖級(jí)表示

其他GNN架構(gòu)。

對(duì)于GCN、GraphSAGE和GAT，我們采用Pytorch幾何庫(kù)（Fey&Lenssen，2019）中的實(shí)現(xiàn)，其中我們將GAT注意頭的數(shù)量設(shè)置為2。節(jié)點(diǎn)嵌入的維度以及GNN層的數(shù)量與GIN保持相同。這些模型最初并不處理邊緣特征。我們?cè)谶@些模型中加入了邊緣特征，就像我們?cè)谲埫迿C(jī)上所做的那樣；我們?cè)诠?jié)點(diǎn)嵌入中加入邊嵌入，并對(duì)得到的節(jié)點(diǎn)嵌入執(zhí)行GNN消息傳遞。

經(jīng)典圖分類(lèi)基準(zhǔn)實(shí)驗(yàn)

在表3中，我們報(bào)告了我們對(duì)常用經(jīng)典圖分類(lèi)基準(zhǔn)的實(shí)驗(yàn)（Kersting等人，2016）。在Xu等人（2019）使用的數(shù)據(jù)集中，MUTAG、PTC和NCI1是用于二元分類(lèi)的分子數(shù)據(jù)集。在這三個(gè)數(shù)據(jù)集中，我們排除了NCI1數(shù)據(jù)集，因?yàn)樗z漏了邊緣信息（即鍵類(lèi)型），因此，我們無(wú)法恢復(fù)原始的分子信息，這是構(gòu)建附錄C中描述的輸入表示所必需的。為了公平比較，我們使用了與Xu等人（2019）完全相同的評(píng)估方案，即報(bào)告10倍交叉驗(yàn)證準(zhǔn)確率。我們實(shí)驗(yàn)中的所有超參數(shù)在主實(shí)驗(yàn)中保持不變，只是在微調(diào)階段我們額外調(diào)整了從{0,0.2,0.5}的退出率和從{8,64}的批大小。

雖然預(yù)先訓(xùn)練好的GNNs（特別是具有上下文預(yù)測(cè)的GNNs）具有良好的性能，但是所有的精度（包括以前的所有方法）都在一個(gè)標(biāo)準(zhǔn)差之內(nèi)，因此很難可靠地比較不同的方法。正如Xu et al.（2019）所指出的，這是由于數(shù)據(jù)集非常?。幻總€(gè)折疊處的驗(yàn)證集僅包含MUTAG和PTC的19到35個(gè)分子。鑒于這些結(jié)果，我們認(rèn)為有必要使用更大的數(shù)據(jù)集進(jìn)行可靠的比較，因此我們?cè)诒狙芯恐兄饕P(guān)注分子網(wǎng)（Wu et al.，2018）。

分子數(shù)據(jù)集的細(xì)節(jié)

輸入圖形表示法。

為了簡(jiǎn)單起見(jiàn)，我們使用了一組最小的節(jié)點(diǎn)和鍵特征來(lái)明確描述分子的二維結(jié)構(gòu)。我們使用RDKit（Landrum等人）獲得這些特征。

?節(jié)點(diǎn)特征：–原子數(shù)：[1，118]–手性標(biāo)記：{未指定，四面體順時(shí)針，四面體逆時(shí)針，其他}?邊緣特征：–鍵類(lèi)型：{單，雙，三，芳香}–鍵方向：{–，endupright，enddownright}

下游任務(wù)數(shù)據(jù)集。

Moleculenet（Wu等人）的8個(gè)二進(jìn)制圖分類(lèi)數(shù)據(jù)集用于評(píng)估模型性能。

?BBBP公司。血腦屏障滲透（膜通透性）（Martins等人，2012年）。

?毒性21。12個(gè)生物靶點(diǎn)的毒性數(shù)據(jù)，包括核受體和應(yīng)激反應(yīng)途徑（Tox21）。

?毒物投射。基于600多次體外高通量篩選的毒理學(xué)測(cè)量（Richard等人，2016）。

?側(cè)邊。上市藥物和藥物不良反應(yīng)（ADR）數(shù)據(jù)庫(kù)，分為27個(gè)系統(tǒng)器官類(lèi)別（Kuhn et al.，2015）。

?臨床試驗(yàn)。定性數(shù)據(jù)對(duì)FDA批準(zhǔn)的藥物和因毒性原因未通過(guò)臨床試驗(yàn)的藥物進(jìn)行分類(lèi)（Novick等人，2013；AACT）。

?MUV。PubChem生物測(cè)定的子集，通過(guò)應(yīng)用改進(jìn)的最近鄰分析，設(shè)計(jì)用于驗(yàn)證虛擬篩選技術(shù)（Gardiner等人，2011）。

?艾滋病毒。實(shí)驗(yàn)測(cè)量了抑制HIV復(fù)制的能力（？）。

?BACE公司。一組人類(lèi)免疫抑制劑的定性結(jié)合結(jié)果β-分泌酶1（Subramanian等人，2016）。蛋白質(zhì)數(shù)據(jù)集的詳細(xì)信息

輸入圖形表示法。蛋白質(zhì)子圖只有邊特征。

?邊緣特征：

–鄰域：{True，F(xiàn)alse}–融合：{True，F(xiàn)alse}–共現(xiàn)：{True，F(xiàn)alse}–共表達(dá)：{True，F(xiàn)alse}–實(shí)驗(yàn)：{True，F(xiàn)alse}–數(shù)據(jù)庫(kù)：{True，F(xiàn)alse}–文本：{True，F(xiàn)alse}

這些邊緣特征表明一對(duì)蛋白質(zhì)之間是否存在特定類(lèi)型的關(guān)系：

?鄰域：如果一對(duì)基因在彼此的基因組鄰域中被一致地觀察到?融合：如果一對(duì)蛋白質(zhì)將其各自的同源基因融合到另一生物體中的單個(gè)蛋白質(zhì)編碼基因?共現(xiàn)：如果一對(duì)蛋白質(zhì)傾向于在同一生物體子集中觀察到存在或不存在?共表達(dá)：如果一對(duì)蛋白質(zhì)具有相似的表達(dá)模式

?實(shí)驗(yàn)：如果在實(shí)驗(yàn)中觀察到一對(duì)蛋白質(zhì)在物理上相互作用?數(shù)據(jù)庫(kù)：如果一對(duì)蛋白質(zhì)屬于同一途徑，根據(jù)人類(lèi)館長(zhǎng)的評(píng)估?文本挖掘：如果一對(duì)蛋白質(zhì)在PubMed摘要中一起提及

數(shù)據(jù)集。

使用了包含50個(gè)物種蛋白質(zhì)子圖的數(shù)據(jù)集（Ztinik等人，2019）。原始的PPI網(wǎng)絡(luò)沒(méi)有節(jié)點(diǎn)屬性，但是包含與7種不同類(lèi)型的蛋白質(zhì)-蛋白質(zhì)關(guān)系的置信度相對(duì)應(yīng)的邊緣屬性。邊權(quán)重的范圍從0（表示沒(méi)有特定關(guān)系的證據(jù)）到1000（表示置信度最高）。對(duì)PPI網(wǎng)絡(luò)的加權(quán)邊緣進(jìn)行閾值化，使得50個(gè)PPI網(wǎng)絡(luò)的邊緣類(lèi)型分布均勻。然后，對(duì)于PPI網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)，通過(guò)以下方法生成以每個(gè)節(jié)點(diǎn)為中心的子圖：（1）執(zhí)行廣度優(yōu)先搜索以選擇子圖節(jié)點(diǎn)，搜索深度限制為2，每個(gè)節(jié)點(diǎn)隨機(jī)擴(kuò)展的最大鄰居數(shù)為10，（2）包括選定的子圖節(jié)點(diǎn)和這些節(jié)點(diǎn)之間的所有邊，以形成結(jié)果子圖。

整個(gè)數(shù)據(jù)集包含來(lái)自50個(gè)物種的394925個(gè)蛋白質(zhì)子圖。在這50個(gè)物種中，有8個(gè)物種（擬南芥、芹菜屬、ecoli、蒼蠅、人類(lèi)、小鼠、酵母、斑馬魚(yú)）具有GO蛋白注釋。該數(shù)據(jù)集包含來(lái)自這8個(gè)物種的88000個(gè)蛋白質(zhì)子圖，其中57448個(gè)蛋白質(zhì)具有至少一個(gè)正粗粒度GO蛋白注釋?zhuān)?2876個(gè)蛋白質(zhì)具有至少一個(gè)正細(xì)粒度GO蛋白注釋。對(duì)于自監(jiān)督預(yù)訓(xùn)練數(shù)據(jù)集，我們使用了所有394925個(gè)蛋白質(zhì)子圖。

我們將細(xì)粒度蛋白質(zhì)功能定義為基因本體論（GO）注釋?zhuān)碐O層次中的葉子，并將粗粒度蛋白質(zhì)功能定義為GO注釋?zhuān)慈~子的直接親本（Ashburner et al.，2000；聯(lián)合體，2018年）。例如，細(xì)粒度的蛋白質(zhì)功能是“因子X(jué)II激活”，而粗粒度的功能是“蛋白質(zhì)的正調(diào)控”。前者是后者的一種特殊類(lèi)型，更難從實(shí)驗(yàn)中推導(dǎo)出來(lái)。GO層次結(jié)構(gòu)信息是使用GOATOOLS獲得的（Klopfenstein等人，2018）。監(jiān)督預(yù)訓(xùn)練數(shù)據(jù)集和下游評(píng)估數(shù)據(jù)集來(lái)自8個(gè)標(biāo)記物種，如附錄E所述。第40個(gè)最常見(jiàn)的細(xì)粒度蛋白質(zhì)標(biāo)簽只有121個(gè)正注釋蛋白質(zhì)，而第40個(gè)最常見(jiàn)的粗粒度蛋白質(zhì)標(biāo)簽有9386個(gè)正注釋蛋白質(zhì)。這說(shuō)明了我們下游任務(wù)的極度匱乏。

對(duì)于有監(jiān)督的預(yù)訓(xùn)練，我們將前面描述的訓(xùn)練集、驗(yàn)證集和先驗(yàn)集與5000個(gè)最常見(jiàn)的粗粒度蛋白質(zhì)功能注釋結(jié)合起來(lái)作為二進(jìn)制標(biāo)簽。對(duì)于我們的下游任務(wù)，我們預(yù)測(cè)了40個(gè)最常見(jiàn)的細(xì)粒度蛋白質(zhì)功能注釋?zhuān)源_保每個(gè)蛋白質(zhì)功能在我們的測(cè)試集中至少有10個(gè)陽(yáng)性標(biāo)簽。

E數(shù)據(jù)集拆分的詳細(xì)信息

對(duì)于分子預(yù)測(cè)任務(wù)，遵循Ramsundar等人（2019），我們通過(guò)支架（分子圖子結(jié)構(gòu)）（Bemis和Murcko，1996）對(duì)分子進(jìn)行聚類(lèi)，并通過(guò)在訓(xùn)練集中放置最常見(jiàn)的支架來(lái)重組聚類(lèi)，產(chǎn)生包含結(jié)構(gòu)不同分子的驗(yàn)證和測(cè)試集。先前的研究表明，與隨機(jī)拆分相比，這種支架拆分在前瞻性評(píng)估中提供了更現(xiàn)實(shí)的模型性能估計(jì)（Chen等人，2012；謝里丹。列車(chē)/驗(yàn)證/測(cè)試集的分割為80%：10%：10%。

在PPI網(wǎng)絡(luò)中，物種分裂模擬了這樣一種情況：我們對(duì)感興趣的物種（我們的實(shí)驗(yàn)中的人類(lèi)）中的蛋白質(zhì)子集（先驗(yàn)集）只有高水平的粗粒度知識(shí)，并希望預(yù)測(cè)該物種中其他蛋白質(zhì)的細(xì)粒度生物功能（測(cè)試集）。對(duì)于物種分裂，我們使用50%的人類(lèi)蛋白質(zhì)子圖作為測(cè)試集，50%作為只包含粗粒度蛋白質(zhì)注釋的先驗(yàn)集。來(lái)自其他7個(gè)標(biāo)記物種（擬南芥、芹菜屬、ecoli、蒼蠅、小鼠、酵母、斑馬魚(yú)）的蛋白質(zhì)子圖被用作訓(xùn)練集和驗(yàn)證集，分為85%：15%。列車(chē)/驗(yàn)證/先前/測(cè)試集的有效分割率為69%：12%：9.5%：9.5%。

F培訓(xùn)前的時(shí)間復(fù)雜性

本文分析了在屬性掩蔽和上下文預(yù)測(cè)中處理圖的時(shí)間復(fù)雜度。首先，屬性掩蔽的時(shí)間復(fù)雜度與邊/節(jié)點(diǎn)數(shù)呈線性關(guān)系，因?yàn)樗簧婕耙诒蔚牟蓸庸?jié)點(diǎn)/邊。第二，上下文預(yù)測(cè)的時(shí)間復(fù)雜度與邊/節(jié)點(diǎn)的數(shù)目同樣是線性的，因?yàn)樗婕皩?duì)每個(gè)圖的中心節(jié)點(diǎn)進(jìn)行采樣，再加上提取K-hop鄰域和上下文圖。鄰域/上下文圖的提取是通過(guò)廣度優(yōu)先搜索進(jìn)行的，該搜索相對(duì)于圖中的邊數(shù)最多需要線性時(shí)間?？傊?，我們的兩種預(yù)訓(xùn)練方法的時(shí)間復(fù)雜度與邊緣數(shù)最多是線性的，這與GNNs中的消息傳遞計(jì)算一樣有效，因此與使用GNNs的普通有監(jiān)督學(xué)習(xí)一樣有效。此外，在動(dòng)態(tài)轉(zhuǎn)換數(shù)據(jù)時(shí)（例如，屏蔽輸入節(jié)點(diǎn)/邊特征，對(duì)上下文圖進(jìn)行采樣），幾乎沒(méi)有內(nèi)存開(kāi)銷(xiāo)。

實(shí)驗(yàn)裝置的進(jìn)一步細(xì)節(jié)

優(yōu)化。

所有模型均采用Adam optimizer（Kingma&Ba，2015）進(jìn)行訓(xùn)練，學(xué)習(xí)率為0.001。我們使用Pytork（Paszke et al.，2017）和Pytork Geometric（Fey&Lenssen，2019）進(jìn)行所有實(shí)施。我們?cè)?00個(gè)時(shí)代里運(yùn)行所有的預(yù)訓(xùn)練方法。對(duì)于自監(jiān)督預(yù)訓(xùn)練，我們使用256的批大小，而對(duì)于監(jiān)督預(yù)訓(xùn)練，我們使用32的批大小，輟學(xué)率為20%。

微調(diào)。

在預(yù)訓(xùn)練之后，我們按照第3.3節(jié)中的步驟對(duì)下游數(shù)據(jù)集的訓(xùn)練集上的模型進(jìn)行微調(diào)。我們使用的批量大小為32，退出率為50%。具有多個(gè)預(yù)測(cè)任務(wù)的數(shù)據(jù)集是聯(lián)合擬合的。在分子性質(zhì)預(yù)測(cè)數(shù)據(jù)集上，我們訓(xùn)練了100個(gè)時(shí)期的模型，而在蛋白質(zhì)功能預(yù)測(cè)數(shù)據(jù)集（有40個(gè)二元預(yù)測(cè)任務(wù)）上，我們訓(xùn)練了50個(gè)時(shí)期的模型。

評(píng)價(jià)。

我們使用ROC-AUC（Bradley，1997）和驗(yàn)證早期停止協(xié)議評(píng)估下游任務(wù)的測(cè)試性能，即報(bào)告在最佳驗(yàn)證期測(cè)試ROC-AUC。對(duì)于具有多個(gè)預(yù)測(cè)任務(wù)的數(shù)據(jù)集，我們?nèi)∑渌腥蝿?wù)的平均ROC-AUC。下游實(shí)驗(yàn)用10個(gè)隨機(jī)種子進(jìn)行，我們報(bào)告平均ROC-AUC和標(biāo)準(zhǔn)差。

訓(xùn)練前的計(jì)算時(shí)間。

我們預(yù)培訓(xùn)的兩個(gè)階段的計(jì)算時(shí)間報(bào)告如下?；瘜W(xué)：自我監(jiān)督的預(yù)訓(xùn)練大約需要24小時(shí)，而監(jiān)督的預(yù)訓(xùn)練大約需要11小時(shí)。生物學(xué)：自我監(jiān)督預(yù)訓(xùn)練約需3.8小時(shí)，監(jiān)督預(yù)訓(xùn)練約需2.5小時(shí)。

H不同GNN結(jié)構(gòu)的預(yù)訓(xùn)練比較表4顯示了化學(xué)數(shù)據(jù)集上不同GNN結(jié)構(gòu)的詳細(xì)比較。我們看到，與其他表現(xiàn)力較弱的模型相比，最具表現(xiàn)力的GIN體系結(jié)構(gòu)從預(yù)訓(xùn)練中受益最大。

額外的培訓(xùn)和驗(yàn)證曲線

培訓(xùn)和驗(yàn)證曲線。

在圖5中，我們繪制了用于分子性質(zhì)預(yù)測(cè)實(shí)驗(yàn)的所有數(shù)據(jù)集的訓(xùn)練和驗(yàn)證曲線。ROC AUC的其他散點(diǎn)圖比較。

在圖6中，我們將上下文預(yù)測(cè)+圖級(jí)監(jiān)督預(yù)訓(xùn)練與非預(yù)訓(xùn)練模型和圖級(jí)監(jiān)督預(yù)訓(xùn)練模型進(jìn)行了比較。從左圖中我們可以看到，組合策略再次完全避免了所有40個(gè)下游任務(wù)的負(fù)遷移。此外，我們從右圖中可以看出，在40個(gè)下游任務(wù)中，添加節(jié)點(diǎn)級(jí)上下文預(yù)測(cè)預(yù)訓(xùn)練幾乎總能提高有監(jiān)督預(yù)訓(xùn)練模型的ROC-AUC分?jǐn)?shù)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Jure Leskovec：圖網(wǎng)絡(luò)預(yù)訓(xùn)練的策略

Jure Leskovec：圖網(wǎng)絡(luò)預(yù)訓(xùn)練的策略

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Jure Leskovec：圖網(wǎng)絡(luò)預(yù)訓(xùn)練的策略

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av