Jure Leskovec:圖網(wǎng)絡(luò)預(yù)訓(xùn)練的策略

Strategies for Pre-training Graph Neural Networks

https://arxiv.org/abs/1905.12265

spotlight? ICLR 2020

機(jī)器學(xué)習(xí)的許多應(yīng)用需要一個(gè)模型來(lái)對(duì)分布上不同于訓(xùn)練樣本的測(cè)試樣本進(jìn)行準(zhǔn)確的預(yù)測(cè),而在訓(xùn)練過(guò)程中任務(wù)特定的標(biāo)簽很少。解決這一難題的有效方法是,在數(shù)據(jù)豐富的相關(guān)任務(wù)上預(yù)先訓(xùn)練模型,然后在感興趣的下游任務(wù)上對(duì)其進(jìn)行微調(diào)。雖然預(yù)訓(xùn)練在許多語(yǔ)言和視覺(jué)領(lǐng)域都是有效的,但是如何在圖形數(shù)據(jù)集上有效地使用預(yù)訓(xùn)練仍然是一個(gè)懸而未決的問(wèn)題。本文提出了一種新的預(yù)訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)的策略和自監(jiān)督方法。我們的策略成功的關(guān)鍵是,即在單個(gè)節(jié)點(diǎn)層次上,也在整個(gè)圖的層次上,預(yù)訓(xùn)練一個(gè)有表示能力的GNN,以便GNN能夠同時(shí)學(xué)習(xí)有用的局部和全局表示。系統(tǒng)地研究了多圖分類(lèi)數(shù)據(jù)集的預(yù)訓(xùn)練問(wèn)題。我們發(fā)現(xiàn),在整個(gè)圖或單個(gè)節(jié)點(diǎn)的層次上預(yù)先訓(xùn)練GNNs的樸素策略,其改進(jìn)有限,甚至?xí)?dǎo)致許多下游任務(wù)的負(fù)遷移。相比之下,我們的策略避免了負(fù)遷移,顯著提高了下游任務(wù)的泛化能力,導(dǎo)致ROC-AUC比未經(jīng)預(yù)訓(xùn)練的模型有9.4%的絕對(duì)改善,并實(shí)現(xiàn)了分子特性預(yù)測(cè)和蛋白質(zhì)功能預(yù)測(cè)的最新性能。


遷移學(xué)習(xí)指的是一個(gè)模式,最初在一些任務(wù)上訓(xùn)練,然后在不同但相關(guān)的任務(wù)上重新設(shè)計(jì)。深度遷移學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大成功(Donahue等人,2014;Girshick等人,2014年;Zeiler&Fergus,2014)和自然語(yǔ)言處理(Devlin等人,2019;Peters等人,2018年;Mikolov等人,2013年)。盡管是一種有效的遷移學(xué)習(xí)方法,但很少有研究將預(yù)訓(xùn)練推廣到圖形數(shù)據(jù)。

通過(guò)對(duì)圖形數(shù)據(jù)集的學(xué)習(xí),預(yù)培訓(xùn)有可能為以下兩個(gè)基本挑戰(zhàn)提供一個(gè)有吸引力的解決方案(Pan&Yang,2009;Hendrycks等人,2019):首先,任務(wù)特定的標(biāo)記數(shù)據(jù)可能非常稀少。這一問(wèn)題在科學(xué)領(lǐng)域(如化學(xué)和生物學(xué))的重要圖形數(shù)據(jù)集中更加嚴(yán)重,其中數(shù)據(jù)標(biāo)記(如濕實(shí)驗(yàn)室中的生物實(shí)驗(yàn))是資源和時(shí)間密集型的(Ztinik等人,2018)。第二,來(lái)自真實(shí)應(yīng)用程序的圖形數(shù)據(jù)通常包含分布外樣本,這意味著訓(xùn)練集中的圖形在結(jié)構(gòu)上與測(cè)試集中的圖形非常不同。分布外預(yù)測(cè)在現(xiàn)實(shí)世界的圖形數(shù)據(jù)集中很常見(jiàn),例如,當(dāng)人們想要預(yù)測(cè)一個(gè)全新的、剛剛合成的分子的化學(xué)性質(zhì)時(shí),它與迄今為止合成的所有分子都不同,因此與訓(xùn)練集中的所有分子都不同。

然而,圖形數(shù)據(jù)集的預(yù)訓(xùn)練仍然是一項(xiàng)艱巨的挑戰(zhàn)。幾項(xiàng)關(guān)鍵研究(Xu等人,2017;Ching等人,2018年;Wang等人(2019年)已經(jīng)表明,成功的遷移學(xué)習(xí)不僅僅是增加與下游任務(wù)來(lái)自同一領(lǐng)域的標(biāo)記前訓(xùn)練數(shù)據(jù)集的數(shù)量。相反,它需要大量的領(lǐng)域?qū)I(yè)知識(shí)來(lái)仔細(xì)選擇與感興趣的下游任務(wù)相關(guān)的示例和目標(biāo)標(biāo)簽。否則,知識(shí)從相關(guān)的預(yù)訓(xùn)練任務(wù)轉(zhuǎn)移到新的下游任務(wù)可能會(huì)損害泛化,這被稱(chēng)為負(fù)遷移(Rosenstein et al.,2005),并顯著限制預(yù)訓(xùn)練模型的適用性和可靠性。

現(xiàn)在的工作。

在這里,我們將重點(diǎn)放在作為圖神經(jīng)網(wǎng)絡(luò)(GNNs)轉(zhuǎn)移學(xué)習(xí)方法的預(yù)訓(xùn)練上(Kipf&Welling,2017;漢密爾頓等人,2017a;Ying等人,2018b;徐等,2019;2018)用于圖級(jí)屬性預(yù)測(cè)。我們的工作有兩個(gè)關(guān)鍵貢獻(xiàn)(1) 我們進(jìn)行了第一次系統(tǒng)的大規(guī)模調(diào)查的戰(zhàn)略預(yù)訓(xùn)GNNs。為此,我們構(gòu)建了兩個(gè)新的大型預(yù)訓(xùn)練數(shù)據(jù)集,并與社區(qū)共享:一個(gè)包含200萬(wàn)個(gè)圖形的化學(xué)數(shù)據(jù)集和一個(gè)包含395K個(gè)圖形的生物數(shù)據(jù)集。我們還表明,大型領(lǐng)域特定數(shù)據(jù)集對(duì)于調(diào)查預(yù)訓(xùn)練至關(guān)重要,現(xiàn)有的下游基準(zhǔn)數(shù)據(jù)集太小,無(wú)法以統(tǒng)計(jì)上可靠的方式評(píng)估模型(2) 我們提出了一種有效的GNNs預(yù)訓(xùn)練策略,并證明了該策略的有效性及其對(duì)硬遷移學(xué)習(xí)問(wèn)題的非分布泛化能力。

在我們的系統(tǒng)研究中,我們發(fā)現(xiàn)訓(xùn)練前的GNNs并不總是有幫助的。不適用?ve預(yù)訓(xùn)練策略會(huì)導(dǎo)致許多下游任務(wù)的負(fù)遷移。引人注目的是,一個(gè)看似強(qiáng)大的預(yù)訓(xùn)練策略(即,圖級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練,使用最先進(jìn)的圖級(jí)預(yù)測(cè)任務(wù)的圖神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu))只會(huì)帶來(lái)邊際性能增益。此外,這種策略甚至導(dǎo)致許多下游任務(wù)的負(fù)遷移(8個(gè)分子數(shù)據(jù)集中有2個(gè),40個(gè)蛋白質(zhì)預(yù)測(cè)任務(wù)中有13個(gè))。

我們制定了一個(gè)有效的戰(zhàn)略,為前培訓(xùn)GNNs。其關(guān)鍵思想是使用易于訪問(wèn)的節(jié)點(diǎn)級(jí)信息,并鼓勵(lì)GNNs捕獲有關(guān)節(jié)點(diǎn)和邊的領(lǐng)域特定知識(shí),以及圖形級(jí)知識(shí)。這有助于GNN學(xué)習(xí)全局和局部級(jí)別的有用表示(圖1(a.iii)),并且對(duì)于能夠生成健壯且可轉(zhuǎn)移到各種下游任務(wù)(圖1)的圖級(jí)表示(通過(guò)匯集節(jié)點(diǎn)表示獲得)至關(guān)重要。我們的策略與na相反?只利用圖級(jí)屬性(圖1(a.ii))或節(jié)點(diǎn)級(jí)屬性(圖1(a.i))的ve策略。

根據(jù)經(jīng)驗(yàn),我們的預(yù)訓(xùn)練策略與最具表現(xiàn)力的GNN架構(gòu)GIN(Xu et al.,2019)結(jié)合使用,在基準(zhǔn)數(shù)據(jù)集上產(chǎn)生了最先進(jìn)的結(jié)果,并避免了我們測(cè)試的下游任務(wù)之間的負(fù)遷移。它顯著提高了下游任務(wù)的泛化性能,平均ROC-AUC比未經(jīng)預(yù)訓(xùn)練的GNNs高9.4%,平均ROC-AUC比經(jīng)過(guò)廣泛圖形級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練的GNNs高5.2%。此外,我們發(fā)現(xiàn)最具表現(xiàn)力的架構(gòu)(GIN)比那些表現(xiàn)力較弱的架構(gòu)(例如,GCN(Kipf&Welling,2017)、GraphSAGE(Hamilton et al.,2017b)和GAT(Velickovic et al.,2018))從前期培訓(xùn)中獲益更多,而預(yù)訓(xùn)練GNNs會(huì)導(dǎo)致在微調(diào)階段更快的訓(xùn)練和收斂。

圖神經(jīng)網(wǎng)絡(luò)的2個(gè)預(yù)備知識(shí)

我們首先將圖的監(jiān)督學(xué)習(xí)形式化,并對(duì)GNNs進(jìn)行了概述(Gilmer et al.,2017)。然后,我們簡(jiǎn)要回顧了無(wú)監(jiān)督圖表示學(xué)習(xí)的方法。

圖的監(jiān)督學(xué)習(xí)。

設(shè)G=(V,E)表示具有節(jié)點(diǎn)屬性Xv的圖∈ V和邊屬性euv for(u,V)∈ E。給定一組圖{G1,GN}和它們的標(biāo)簽{y1,圖監(jiān)督學(xué)習(xí)的任務(wù)是學(xué)習(xí)一個(gè)表示向量hG,它有助于預(yù)測(cè)整個(gè)圖G的標(biāo)號(hào)yG=G(hG)。例如,在分子性質(zhì)預(yù)測(cè)中,G是一個(gè)分子圖,其中節(jié)點(diǎn)代表原子,邊代表化學(xué)鍵,要預(yù)測(cè)的標(biāo)簽可以是毒性或酶結(jié)合。

圖形神經(jīng)網(wǎng)絡(luò)。

GNNs利用圖的連通性以及節(jié)點(diǎn)和邊的特征來(lái)學(xué)習(xí)每個(gè)節(jié)點(diǎn)v的表示向量(即嵌入)∈ 和整個(gè)圖的向量hG?,F(xiàn)代GNN使用鄰域聚合方法,其中通過(guò)聚合v的相鄰節(jié)點(diǎn)和邊的表示來(lái)迭代更新節(jié)點(diǎn)v的表示(Gilmer et al.,2017)。經(jīng)過(guò)k次聚合迭代后,v的表示在k-hop網(wǎng)絡(luò)鄰域內(nèi)捕獲結(jié)構(gòu)信息。形式上,GNN的第k層是:

其中h(k)v是節(jié)點(diǎn)v在第k次迭代/層上的表示,euv是u和v之間的邊的特征向量,N(v)是v的一組鄰居。我們初始化h(0)v=Xv。

圖形表示學(xué)習(xí)。

為了獲得整個(gè)圖形的表示hG,讀出函數(shù)匯集了來(lái)自最終迭代K的節(jié)點(diǎn)特征,

讀出是置換不變函數(shù),例如平均或更復(fù)雜的圖級(jí)池函數(shù)(Ying等人,2018b;張等,2018)。

圖神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練的3種策略

我們的預(yù)訓(xùn)練策略的技術(shù)核心是在單個(gè)節(jié)點(diǎn)和整個(gè)圖的層次上預(yù)訓(xùn)練GNN的概念。這一概念鼓勵(lì)GNN在兩個(gè)級(jí)別捕獲特定于領(lǐng)域的語(yǔ)義,如圖1(a.iii)所示。這與直接但有限的預(yù)訓(xùn)練策略相反,這些策略要么僅使用預(yù)訓(xùn)練來(lái)預(yù)測(cè)整個(gè)圖的屬性(圖1(a.ii)),要么僅使用預(yù)訓(xùn)練來(lái)預(yù)測(cè)單個(gè)節(jié)點(diǎn)的屬性(圖1(a.i))。

在下面,我們首先描述我們的節(jié)點(diǎn)級(jí)預(yù)訓(xùn)練方法(第3.1節(jié)),然后是圖級(jí)預(yù)訓(xùn)練方法(第3.2節(jié))。最后,我們將在第3.3節(jié)中描述完整的預(yù)培訓(xùn)策略。

3.1節(jié)點(diǎn)級(jí)預(yù)訓(xùn)

對(duì)于GNNs的節(jié)點(diǎn)級(jí)預(yù)訓(xùn)練,我們的方法是使用易于訪問(wèn)的未標(biāo)記數(shù)據(jù)來(lái)捕獲圖中特定領(lǐng)域的知識(shí)/規(guī)則。本文提出了兩種自監(jiān)督方法:上下文預(yù)測(cè)和屬性掩蔽

3.1.1上下文預(yù)測(cè):利用圖結(jié)構(gòu)的分布

在上下文預(yù)測(cè)中,我們使用子圖來(lái)預(yù)測(cè)其周?chē)膱D結(jié)構(gòu)。我們的目標(biāo)是對(duì)GNN進(jìn)行預(yù)訓(xùn)練,以便它將出現(xiàn)在類(lèi)似結(jié)構(gòu)上下文中的節(jié)點(diǎn)映射到附近的嵌入(Rubenstein&Goodenough,1965;Mikolov等人,2013年)。

鄰域圖和上下文圖。

對(duì)于每個(gè)節(jié)點(diǎn)v,我們定義v的鄰域圖和上下文圖如下。v的K-hop鄰域包含圖中距離v最多K-hop的所有節(jié)點(diǎn)和邊。這是因?yàn)镵層GNN在v的K階鄰域上聚集信息,因此嵌入h(K)v的節(jié)點(diǎn)依賴(lài)于距離v最多K跳的節(jié)點(diǎn)。我們將節(jié)點(diǎn)v的上下文圖定義為圍繞其鄰域的圖結(jié)構(gòu)。上下文圖由兩個(gè)超參數(shù)r1和r2描述,它表示距離v的r1跳和r2跳之間的子圖(即,它是一個(gè)寬度為r2的環(huán))? r1)。鄰域圖和上下文圖的示例如圖2(a)所示。我們要求r1<K,這樣一些節(jié)點(diǎn)在鄰域和上下文圖之間共享,我們將這些節(jié)點(diǎn)稱(chēng)為上下文錨節(jié)點(diǎn)。這些錨節(jié)點(diǎn)提供關(guān)于鄰域圖和上下文圖如何相互連接的信息。

使用輔助GNN將上下文編碼為固定向量。

由于圖的組合性質(zhì),直接預(yù)測(cè)上下文圖是很困難的。這與自然語(yǔ)言處理不同,在自然語(yǔ)言處理中,單詞來(lái)自固定且有限的詞匯表。為了實(shí)現(xiàn)上下文預(yù)測(cè),我們將上下文圖編碼為固定長(zhǎng)度的向量。為此,我們使用一個(gè)輔助GNN,我們稱(chēng)之為context GNN。如圖2(a)所示,我們首先應(yīng)用上下文GNN(在圖2(a)中表示為GNN0)來(lái)獲得上下文圖中的節(jié)點(diǎn)嵌入。然后對(duì)上下文錨節(jié)點(diǎn)的嵌入進(jìn)行平均,得到一個(gè)固定長(zhǎng)度的上下文嵌入。對(duì)于圖G中的節(jié)點(diǎn)v,我們將其相應(yīng)的上下文嵌入表示為cgv。

通過(guò)負(fù)采樣學(xué)習(xí)。

然后我們使用負(fù)采樣(Mikolov等人,2013;Ying等人,2018a)共同學(xué)習(xí)主GNN和上下文GNN。主GNN編碼鄰域以獲得節(jié)點(diǎn)嵌入。context GNN對(duì)上下文圖進(jìn)行編碼以獲得上下文嵌入。具體而言,上下文預(yù)測(cè)的學(xué)習(xí)目標(biāo)是特定鄰域和特定上下文圖是否屬于同一節(jié)點(diǎn)的二元分類(lèi):

哪里σ(·) 是S形函數(shù),1(·)是指示函數(shù)。我們要么讓v0=v和G0=G(即,正鄰域上下文對(duì)),要么從隨機(jī)選擇的圖G0(即,負(fù)鄰域上下文對(duì))中隨機(jī)抽樣v0。我們使用1的負(fù)采樣率(每一個(gè)正對(duì)一個(gè)負(fù)對(duì)),并使用負(fù)對(duì)數(shù)似然作為損失函數(shù)。經(jīng)過(guò)預(yù)訓(xùn)練后,主GNN被保留為我們的預(yù)訓(xùn)練模型

3.1.2屬性掩蔽:利用圖形屬性的分布

在屬性掩蔽中,我們的目標(biāo)是通過(guò)學(xué)習(xí)分布在圖結(jié)構(gòu)上的節(jié)點(diǎn)/邊屬性的規(guī)律來(lái)獲取領(lǐng)域知識(shí)。

遮罩節(jié)點(diǎn)和邊屬性。

屬性掩蔽預(yù)訓(xùn)練工作如下:我們掩蔽節(jié)點(diǎn)/邊緣屬性,然后讓GNNs基于相鄰結(jié)構(gòu)預(yù)測(cè)這些屬性(Devlin等人,2019)。圖2(b)說(shuō)明了我們提出的方法應(yīng)用于分子圖時(shí)的情況。具體來(lái)說(shuō),我們隨機(jī)屏蔽輸入節(jié)點(diǎn)/邊屬性,例如分子圖中的原子類(lèi)型,方法是用特殊的屏蔽指示符替換它們。然后,我們應(yīng)用GNNs來(lái)獲得相應(yīng)的節(jié)點(diǎn)/邊嵌入(邊嵌入可以作為邊的末端節(jié)點(diǎn)的節(jié)點(diǎn)嵌入的總和來(lái)獲得)。最后,在嵌入的基礎(chǔ)上應(yīng)用一個(gè)線性模型來(lái)預(yù)測(cè)一個(gè)隱藏的節(jié)點(diǎn)/邊屬性。與Devlin et al.(2019)對(duì)句子進(jìn)行操作并將消息傳遞應(yīng)用于令牌的完全連通圖不同,我們對(duì)非完全連通圖進(jìn)行操作,旨在捕捉分布在不同圖結(jié)構(gòu)上的節(jié)點(diǎn)/邊屬性的規(guī)律。此外,我們?cè)试S掩蔽邊緣屬性,而不僅僅是掩蔽節(jié)點(diǎn)屬性。

我們的節(jié)點(diǎn)和邊屬性掩蔽方法對(duì)于來(lái)自科學(xué)領(lǐng)域的有豐富注釋的圖特別有用。例如,(1)在分子圖中,節(jié)點(diǎn)屬性對(duì)應(yīng)于原子類(lèi)型,捕獲它們?cè)趫D上的分布方式使GNNs能夠?qū)W習(xí)簡(jiǎn)單的化學(xué)規(guī)則,例如價(jià)態(tài),以及潛在的更復(fù)雜的化學(xué)現(xiàn)象,例如官能團(tuán)的電子或空間位阻性質(zhì)。類(lèi)似地,(2)在蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)圖中,邊緣屬性對(duì)應(yīng)于一對(duì)蛋白質(zhì)之間不同類(lèi)型的相互作用。通過(guò)捕捉這些屬性在PPI圖中的分布,GNNs可以了解不同的交互是如何相互關(guān)聯(lián)的。

3.2圖形級(jí)預(yù)培訓(xùn)

我們的目標(biāo)是預(yù)先訓(xùn)練GNNs生成有用的圖嵌入,這些圖嵌入由第3.1節(jié)中的方法獲得的有意義的節(jié)點(diǎn)嵌入組成。我們的目標(biāo)是確保節(jié)點(diǎn)和圖的嵌入都是高質(zhì)量的,以便圖的嵌入是健壯的,并且可以在下游任務(wù)之間轉(zhuǎn)移,如圖1(a.iii)所示。此外,圖級(jí)預(yù)訓(xùn)練有兩個(gè)選項(xiàng),如圖1(b)所示:對(duì)整個(gè)圖的特定領(lǐng)域?qū)傩裕ɡ?,監(jiān)督標(biāo)簽)進(jìn)行預(yù)測(cè),或?qū)D結(jié)構(gòu)進(jìn)行預(yù)測(cè)。

3.2.1有監(jiān)督圖級(jí)性能預(yù)測(cè)

由于圖級(jí)表示hG直接用于下游預(yù)測(cè)任務(wù)的微調(diào),因此需要將特定領(lǐng)域的信息直接編碼到hG中。

通過(guò)定義有監(jiān)督的圖級(jí)預(yù)測(cè)任務(wù),我們將圖級(jí)領(lǐng)域特定的知識(shí)注入到預(yù)訓(xùn)練的嵌入中。特別地,我們考慮了一種預(yù)訓(xùn)練圖表示的實(shí)用方法:圖級(jí)多任務(wù)有監(jiān)督預(yù)訓(xùn)練來(lái)聯(lián)合預(yù)測(cè)單個(gè)圖的一組不同的有監(jiān)督標(biāo)簽。例如,在分子性質(zhì)預(yù)測(cè)中,我們可以預(yù)先訓(xùn)練GNNs來(lái)預(yù)測(cè)到目前為止實(shí)驗(yàn)測(cè)量的分子的所有性質(zhì)。在蛋白質(zhì)功能預(yù)測(cè)中,目標(biāo)是預(yù)測(cè)一個(gè)給定的蛋白質(zhì)是否具有給定的功能,我們可以預(yù)先訓(xùn)練GNNs來(lái)預(yù)測(cè)到目前為止已經(jīng)被證實(shí)的各種蛋白質(zhì)功能的存在。在第5節(jié)的實(shí)驗(yàn)中,我們準(zhǔn)備了一組不同的監(jiān)督任務(wù)(最多5000個(gè)任務(wù))來(lái)模擬這些實(shí)際場(chǎng)景。第5.1節(jié)描述了受監(jiān)督任務(wù)和數(shù)據(jù)集的更多細(xì)節(jié)。為了聯(lián)合預(yù)測(cè)多個(gè)圖屬性,其中每個(gè)屬性對(duì)應(yīng)一個(gè)二值分類(lèi)任務(wù),我們?cè)趫D表示的基礎(chǔ)上應(yīng)用線性分類(lèi)器。

重要的是,娜?如第5節(jié)中的經(jīng)驗(yàn)所示,單獨(dú)進(jìn)行廣泛的多任務(wù)圖級(jí)預(yù)訓(xùn)練可能無(wú)法給出可轉(zhuǎn)移的圖級(jí)表示。這是因?yàn)橐恍┦鼙O(jiān)督的預(yù)訓(xùn)練任務(wù)可能與感興趣的下游任務(wù)無(wú)關(guān),甚至可能損害下游性能(負(fù)遷移)。一種解決辦法是選擇“真正相關(guān)的”有監(jiān)督的訓(xùn)練前任務(wù),只對(duì)這些任務(wù)進(jìn)行訓(xùn)練前GNN訓(xùn)練。然而,這樣的解決方案成本極高,因?yàn)檫x擇相關(guān)任務(wù)需要大量的領(lǐng)域?qū)I(yè)知識(shí),并且需要針對(duì)不同的下游任務(wù)分別進(jìn)行預(yù)培訓(xùn)。

為了緩解這個(gè)問(wèn)題,我們的關(guān)鍵是多任務(wù)監(jiān)督預(yù)訓(xùn)練只提供圖級(jí)監(jiān)督;因此,創(chuàng)建圖級(jí)嵌入的本地節(jié)點(diǎn)嵌入可能沒(méi)有意義,如圖1(a.ii)所示。這種非有用的節(jié)點(diǎn)嵌入會(huì)加劇負(fù)遷移問(wèn)題,因?yàn)樵诠?jié)點(diǎn)嵌入空間中,許多不同的預(yù)訓(xùn)練任務(wù)更容易相互干擾?;诖耍覀兊念A(yù)訓(xùn)練策略是在執(zhí)行圖級(jí)預(yù)訓(xùn)練之前,首先通過(guò)第3.1節(jié)中描述的節(jié)點(diǎn)級(jí)預(yù)訓(xùn)練方法在單個(gè)節(jié)點(diǎn)的水平上正則化GNNs。我們的經(jīng)驗(yàn)證明,這種組合策略可以產(chǎn)生更多的可轉(zhuǎn)換圖表示,并且在沒(méi)有專(zhuān)家選擇有監(jiān)督的預(yù)訓(xùn)練任務(wù)的情況下,能夠顯著提高下游性能。

3.2.2結(jié)構(gòu)相似性預(yù)測(cè)

第二種方法是定義一個(gè)圖級(jí)預(yù)測(cè)任務(wù),目標(biāo)是對(duì)兩個(gè)圖的結(jié)構(gòu)相似性進(jìn)行建模。此類(lèi)任務(wù)的示例包括建模圖形編輯距離(Bai et al.,2019)或預(yù)測(cè)圖形結(jié)構(gòu)相似性(Navarin et al.,2018)。然而,找到地面真值圖距離值是一個(gè)困難的問(wèn)題,并且在大數(shù)據(jù)集中有一個(gè)二次數(shù)的圖對(duì)要考慮。因此,雖然這種類(lèi)型的預(yù)培訓(xùn)也是很自然的,但它超出了本文的范圍,我們將其研究留給今后的工作。

3.3概述:GNNS預(yù)培訓(xùn)和下游任務(wù)微調(diào)

總之,我們的預(yù)訓(xùn)練策略是先進(jìn)行節(jié)點(diǎn)級(jí)自監(jiān)督預(yù)訓(xùn)練(第3.1節(jié)),然后進(jìn)行圖級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練(第3.2節(jié))。當(dāng)GNN預(yù)訓(xùn)練完成后,我們對(duì)下游任務(wù)的預(yù)訓(xùn)練GNN模型進(jìn)行微調(diào)。具體來(lái)說(shuō),我們?cè)趫D級(jí)表示的基礎(chǔ)上添加線性分類(lèi)器來(lái)預(yù)測(cè)下游圖標(biāo)簽。整個(gè)模型,即預(yù)先訓(xùn)練的GNN和下游線性分類(lèi)器,隨后以端到端的方式進(jìn)行微調(diào)。時(shí)間復(fù)雜度分析在附錄F中給出,我們的預(yù)訓(xùn)練方法在GNNs中產(chǎn)生的前向計(jì)算開(kāi)銷(xiāo)很小。

4進(jìn)一步的相關(guān)工作

關(guān)于圖中單個(gè)節(jié)點(diǎn)的無(wú)監(jiān)督表示學(xué)習(xí)的文獻(xiàn)很多,一般分為兩類(lèi)。第一類(lèi)是使用基于局部隨機(jī)游走的目標(biāo)的方法(Grover&Leskovec,2016;Perozzi等人,2014年;Tang等人,2015)和重建圖的鄰接矩陣的方法,例如,通過(guò)預(yù)測(cè)邊的存在(Hamilton等人,2017a;Kipf&Welling,2016年)。第二類(lèi)是方法,比如Deep Graph Infomax(Velickovi)ˇ c′ 等人,2019年),訓(xùn)練一個(gè)最大化局部節(jié)點(diǎn)表示和集合全局圖表示之間互信息的節(jié)點(diǎn)編碼器。所有這些方法都鼓勵(lì)附近的節(jié)點(diǎn)具有相似的嵌入,并且最初是針對(duì)節(jié)點(diǎn)分類(lèi)和鏈路預(yù)測(cè)提出和評(píng)估的。然而,這對(duì)于圖級(jí)預(yù)測(cè)任務(wù)來(lái)說(shuō)可能是次優(yōu)的,在圖級(jí)預(yù)測(cè)任務(wù)中,捕捉局部鄰域的結(jié)構(gòu)相似性通常比捕捉圖中節(jié)點(diǎn)的位置信息更重要(You等人,2019;羅杰斯和哈恩,2010;Yang等人,2014年)。因此,我們的方法既考慮了節(jié)點(diǎn)級(jí)的預(yù)訓(xùn)練任務(wù),也考慮了圖級(jí)的預(yù)訓(xùn)練任務(wù),并且正如我們?cè)趯?shí)驗(yàn)中所顯示的,為了使預(yù)訓(xùn)練模型獲得良好的性能,必須同時(shí)使用這兩種類(lèi)型的任務(wù)。

最近的一些工作也探討了節(jié)點(diǎn)嵌入如何在任務(wù)間泛化(Jaeger et al.,2018;周等,2018;查克拉瓦蒂,2018年;Narayanan等人,2016)。然而,所有這些方法都對(duì)不同的子結(jié)構(gòu)使用不同的節(jié)點(diǎn)嵌入,并且不共享任何參數(shù)。因此,它們本質(zhì)上是跨傳的,不能在數(shù)據(jù)集之間傳輸,不能以端到端的方式進(jìn)行微調(diào),并且由于數(shù)據(jù)稀疏性,不能捕獲大型和多樣的社區(qū)/上下文。我們的方法通過(guò)開(kāi)發(fā)GNNs的預(yù)訓(xùn)練方法來(lái)解決所有這些挑戰(zhàn),這些方法使用共享參數(shù)來(lái)編碼圖級(jí)以及節(jié)點(diǎn)級(jí)的依賴(lài)關(guān)系和結(jié)構(gòu)。

5個(gè)實(shí)驗(yàn)

5.1數(shù)據(jù)集

我們考慮兩個(gè)領(lǐng)域;化學(xué)中的分子性質(zhì)預(yù)測(cè)和生物學(xué)中的蛋白質(zhì)功能預(yù)測(cè)。我們將在以下位置發(fā)布新的數(shù)據(jù)集:http://snap.stanford.edu/gnn-pretrain.

訓(xùn)練前數(shù)據(jù)集。

對(duì)于化學(xué)領(lǐng)域,我們使用從ZINC15數(shù)據(jù)庫(kù)(Sterling&amp;Irwin,2015)中取樣的200萬(wàn)個(gè)未標(biāo)記分子進(jìn)行節(jié)點(diǎn)級(jí)自我監(jiān)督預(yù)訓(xùn)練。對(duì)于圖級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練,我們使用預(yù)處理的ChEMBL數(shù)據(jù)集(Mayr et al.,2018;Gaulton等人,2011),包含456K分子,具有1310種多樣性和廣泛的生化分析。對(duì)于生物學(xué)領(lǐng)域,我們使用來(lái)自50個(gè)物種(例如人類(lèi)、酵母、斑馬魚(yú))的PPI網(wǎng)絡(luò)的395K未標(biāo)記蛋白質(zhì)ego網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)級(jí)自我監(jiān)督預(yù)訓(xùn)練。對(duì)于圖級(jí)多任務(wù)有監(jiān)督預(yù)訓(xùn)練,我們使用88K標(biāo)記的蛋白質(zhì)ego網(wǎng)絡(luò)來(lái)聯(lián)合預(yù)測(cè)5000個(gè)粗粒度的生物功能(如細(xì)胞凋亡、細(xì)胞增殖)。

下游分類(lèi)數(shù)據(jù)集。

對(duì)于化學(xué)領(lǐng)域,我們考慮了經(jīng)典圖分類(lèi)基準(zhǔn)(MUTAG、PTC分子數(shù)據(jù)集)(Kersting等人,2016;Xu et al.,2019)作為我們的下游任務(wù),但發(fā)現(xiàn)它們太?。∕UTAG和PTC的188和344個(gè)示例),無(wú)法以統(tǒng)計(jì)意義的方式評(píng)估不同的方法(結(jié)果和討論見(jiàn)附錄B)。因此,作為我們的下游任務(wù),我們決定使用MoleculeNet(Wu et al.,2018)中包含的8個(gè)較大的二元分類(lèi)數(shù)據(jù)集,MoleculeNet是最近策劃的分子性質(zhì)預(yù)測(cè)基準(zhǔn)。數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)總結(jié)在表1中。對(duì)于生物學(xué)領(lǐng)域,我們由Zitnik等人(2019)組成PPI網(wǎng)絡(luò),由8個(gè)不同物種的88K蛋白質(zhì)組成,其中以感興趣的蛋白質(zhì)(即ego網(wǎng)絡(luò))為中心的子圖用于預(yù)測(cè)其生物功能。我們的下游任務(wù)是預(yù)測(cè)40個(gè)與40個(gè)二元分類(lèi)任務(wù)相對(duì)應(yīng)的細(xì)粒度生物功能1。與現(xiàn)有的PPI數(shù)據(jù)集(Hamilton et al.,2017a)相比,我們的數(shù)據(jù)集更大,并且跨越多個(gè)物種(即不僅僅是人類(lèi)),這使得它成為評(píng)估分布外預(yù)測(cè)的合適基準(zhǔn)。關(guān)于分子/PPI圖的數(shù)據(jù)集和特征的更多細(xì)節(jié)見(jiàn)附錄C和D。

數(shù)據(jù)集拆分。

在許多應(yīng)用中,傳統(tǒng)的隨機(jī)拆分過(guò)于樂(lè)觀,無(wú)法模擬真實(shí)世界的用例,測(cè)試圖在結(jié)構(gòu)上可能不同于訓(xùn)練圖(Wu et al.,2018;Zitnik等人,2019年)。為了反映實(shí)際的用例,我們采用以下方法對(duì)下游數(shù)據(jù)進(jìn)行分割,以評(píng)估模型的分布外泛化。在化學(xué)領(lǐng)域,我們使用支架拆分(Ramsndar et al.,2019),我們根據(jù)分子的支架(分子亞結(jié)構(gòu))拆分分子。在生物學(xué)領(lǐng)域,我們使用物種分裂,從新物種中預(yù)測(cè)蛋白質(zhì)的功能。詳情見(jiàn)附錄E。此外,為了防止數(shù)據(jù)泄漏,所有用于性能評(píng)估的測(cè)試圖都從圖級(jí)監(jiān)督預(yù)訓(xùn)練數(shù)據(jù)集中移除。

5.2實(shí)驗(yàn)裝置

我們將我們的訓(xùn)練前策略與兩個(gè)na進(jìn)行了徹底的比較?ve基線策略:(i)相關(guān)圖級(jí)任務(wù)的廣泛監(jiān)督多任務(wù)預(yù)訓(xùn)練,以及(ii)節(jié)點(diǎn)級(jí)自我監(jiān)督預(yù)訓(xùn)練。

GNN架構(gòu)。

我們主要研究圖同構(gòu)網(wǎng)絡(luò)(GINs)(Xu等人,2019),這是用于圖級(jí)預(yù)測(cè)任務(wù)的最具表現(xiàn)力和最先進(jìn)的GNN架構(gòu)。我們還嘗試了其他表現(xiàn)力較差的流行架構(gòu):GCN(Kipf&amp;Welling,2016)、GAT(Velickovi)ˇ c等人,2019)和GraphSAGE(平均鄰域聚合)(漢密爾頓′ 等人,2017b)。我們?cè)隍?yàn)證集中選擇了以下在所有下游任務(wù)中表現(xiàn)良好的超參數(shù):300維隱藏單元、5個(gè)GNN層(K=5)和讀出函數(shù)的平均池。更多細(xì)節(jié)見(jiàn)附錄A。

培訓(xùn)前。

對(duì)于圖2(a)所示的上下文預(yù)測(cè),在分子圖上,我們通過(guò)設(shè)置內(nèi)半徑r1=4來(lái)定義上下文圖。在直徑通常小于5的PPI網(wǎng)絡(luò)上,我們使用r1=1,盡管鄰域子圖和上下文子圖之間有很大的重疊,但根據(jù)經(jīng)驗(yàn),r1=1工作得很好。對(duì)于分子圖和PPI圖,我們讓外半徑r2=r1+3,并使用3層GNN來(lái)編碼上下文結(jié)構(gòu)。對(duì)于圖2(b)所示的屬性掩蔽,我們隨機(jī)掩蔽15%的節(jié)點(diǎn)(對(duì)于分子圖)或邊緣屬性(對(duì)于PPI網(wǎng)絡(luò))進(jìn)行預(yù)測(cè)。作為節(jié)點(diǎn)級(jí)自監(jiān)督預(yù)訓(xùn)練的基線,我們采用了原始邊緣預(yù)測(cè)(用EdgePred表示)(Hamilton等人,2017a)和深圖Infomax(用Infomax表示)(Velickovi)ˇ c等人,2019)實(shí)施。更多細(xì)節(jié)見(jiàn)附錄G?!?/p>

5.3結(jié)果

我們?cè)诒?和表1以及圖3中報(bào)告了分子性質(zhì)預(yù)測(cè)和蛋白質(zhì)功能預(yù)測(cè)的結(jié)果。我們的系統(tǒng)研究表明以下趨勢(shì):

觀察(1):

表2顯示了最具表現(xiàn)力的GNN體系結(jié)構(gòu)(GIN)在經(jīng)過(guò)預(yù)訓(xùn)練后,可以在域和數(shù)據(jù)集之間獲得最佳性能。與GIN架構(gòu)實(shí)現(xiàn)的預(yù)訓(xùn)練增益相比,使用表達(dá)能力較弱的GNNs(GCN、GraphSAGE和GAT)進(jìn)行預(yù)訓(xùn)練的增益較小,有時(shí)甚至可能為負(fù)(表2)。這一發(fā)現(xiàn)證實(shí)了先前的觀察結(jié)果(例如,Erhan等人(2010)),即使用表達(dá)模型對(duì)于充分利用預(yù)訓(xùn)練至關(guān)重要,并且當(dāng)在表達(dá)能力有限的模型(如GCN、GraphSAGE和GAT)上使用時(shí),預(yù)訓(xùn)練甚至?xí)p害表現(xiàn)。

觀察(2):

從表1的陰影單元格和圖3中間面板中突出顯示的區(qū)域可以看出,對(duì)GNNs執(zhí)行廣泛的圖形級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練的強(qiáng)基線策略的性能增益驚人地有限,并在許多下游任務(wù)上產(chǎn)生負(fù)遷移(分子預(yù)測(cè)中8個(gè)數(shù)據(jù)集中的2個(gè),蛋白質(zhì)功能預(yù)測(cè)40項(xiàng)任務(wù)中的13項(xiàng))。

觀察(3):

從表1的上半部分和圖3的左面板中,我們可以看到另一個(gè)只執(zhí)行節(jié)點(diǎn)級(jí)自監(jiān)督預(yù)訓(xùn)練的基線策略,其性能改進(jìn)也有限,與圖級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練基線相當(dāng)。

觀察(4):

從表1的下半部分和圖3的右面板可以看出,我們將圖級(jí)多任務(wù)監(jiān)督和節(jié)點(diǎn)級(jí)自監(jiān)督預(yù)訓(xùn)練相結(jié)合的預(yù)訓(xùn)練策略避免了跨下游數(shù)據(jù)集的負(fù)遷移,并獲得了最佳性能。

觀察(5):

此外,從表1和圖3的左面板可以看出,我們的策略比兩種基線預(yù)訓(xùn)練策略以及非預(yù)訓(xùn)練模型具有更好的預(yù)測(cè)性能,實(shí)現(xiàn)了最先進(jìn)的性能。

具體而言,在化學(xué)數(shù)據(jù)集中,我們從表1中看到,我們的上下文預(yù)測(cè)+圖形級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練策略提供了最有希望的性能,導(dǎo)致平均ROC-AUC比非預(yù)訓(xùn)練基線增加7.2%,比圖形級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練基線增加4.2%。在HIV數(shù)據(jù)集上,最近的一些作品(Wu等人,2018;李等,2017;Ishiguro等人,2019)報(bào)告了在同一支架上的性能,使用相同的協(xié)議,我們最好的預(yù)訓(xùn)練模型(ContextPred+監(jiān)督)實(shí)現(xiàn)了最先進(jìn)的性能。特別是,我們獲得了79.9%的ROC-AUC分?jǐn)?shù),而Wu等人(2018)、Li等人(2017)和Ishiguro等人(2019)中表現(xiàn)最好的圖形模型的ROC-AUC分?jǐn)?shù)分別為76.3%、77.6%和76.2%。

此外,在我們?cè)谶@項(xiàng)工作中構(gòu)建的生物學(xué)數(shù)據(jù)集中,我們從圖3的左面板中看到,與其他基線策略相比,我們的屬性掩蔽+圖級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練策略在幾乎所有40個(gè)下游預(yù)測(cè)任務(wù)(圖3的右面板)中實(shí)現(xiàn)了最佳的預(yù)測(cè)性能。平均而言,我們的策略使ROC-AUC比非預(yù)訓(xùn)練基線提高了9.4%,比圖形級(jí)多任務(wù)監(jiān)督預(yù)訓(xùn)練基線提高了5.2%,再次達(dá)到了最先進(jìn)的性能。

觀察(6):

在化學(xué)領(lǐng)域,我們還報(bào)告了附錄B中經(jīng)典基準(zhǔn)(MUTAG、PTC分子數(shù)據(jù)集)的性能。然而,如第5.1節(jié)所述,數(shù)據(jù)集規(guī)模極小,使得這些基準(zhǔn)不適合以統(tǒng)計(jì)上可靠的方式比較不同的方法。

觀察(7):

除了預(yù)測(cè)性能改進(jìn)之外,圖4顯示,我們預(yù)先訓(xùn)練的模型比未預(yù)先訓(xùn)練的模型實(shí)現(xiàn)了數(shù)量級(jí)更快的訓(xùn)練和驗(yàn)證收斂。例如,在MUV數(shù)據(jù)集上,非預(yù)先訓(xùn)練的GNN需要1小時(shí)才能獲得74.9%的ROC-AUC驗(yàn)證,而我們預(yù)先訓(xùn)練的GNN只需要5分鐘就能獲得85.3%的ROC-AUC驗(yàn)證。我們使用的下游數(shù)據(jù)集也有同樣的趨勢(shì),如附錄I中的圖5所示。我們強(qiáng)調(diào),前期培訓(xùn)是一次性的。一旦對(duì)模型進(jìn)行了預(yù)訓(xùn)練,它就可以用于任何數(shù)量的下游任務(wù),以在很少的訓(xùn)練時(shí)間內(nèi)提高性能。

最后,在我們的初步實(shí)驗(yàn)中,我們同時(shí)進(jìn)行了屬性掩蔽和上下文預(yù)測(cè)來(lái)預(yù)訓(xùn)練GNNs。在我們的實(shí)驗(yàn)中,這種方法并沒(méi)有提高性能。我們對(duì)該方法作了透徹的分析,以供今后的工作參考。

6結(jié)論和今后的工作

我們開(kāi)發(fā)了一種新的GNNs預(yù)訓(xùn)練策略。我們的策略成功的關(guān)鍵是將節(jié)點(diǎn)級(jí)和圖級(jí)的預(yù)訓(xùn)練與表達(dá)性GNN結(jié)合起來(lái)考慮。這確保了節(jié)點(diǎn)嵌入捕獲本地鄰域語(yǔ)義,這些語(yǔ)義匯集在一起以獲得有意義的圖級(jí)表示,這些表示反過(guò)來(lái)又用于下游任務(wù)。在多個(gè)數(shù)據(jù)集、不同的下游任務(wù)和不同的GNN結(jié)構(gòu)上的實(shí)驗(yàn)表明,新的預(yù)訓(xùn)練策略比未經(jīng)預(yù)訓(xùn)練的模型具有更好的分布外泛化效果。

我們的工作為圖形遷移學(xué)習(xí)邁出了重要的一步,解決了以往研究中觀察到的負(fù)遷移問(wèn)題。今后的工作有許多有趣的途徑。例如,通過(guò)改進(jìn)GNN架構(gòu)以及預(yù)訓(xùn)練和微調(diào)方法來(lái)進(jìn)一步提高泛化能力是一個(gè)富有成效的方向。調(diào)查預(yù)先訓(xùn)練的模型所學(xué)到的知識(shí)也有助于科學(xué)發(fā)現(xiàn)(Tshitoyan等人,2019年)。最后,將我們的方法應(yīng)用到其他領(lǐng)域,例如物理學(xué)、材料科學(xué)和結(jié)構(gòu)生物學(xué),其中許多問(wèn)題是通過(guò)表示原子、粒子和氨基酸相互作用的圖來(lái)定義的,這將是很有趣的。

A

GNN架構(gòu)的詳細(xì)信息

在這里,我們描述GNN架構(gòu)用于我們的分子性質(zhì)和蛋白質(zhì)功能預(yù)測(cè)實(shí)驗(yàn)。對(duì)于這兩個(gè)域,我們使用GIN架構(gòu)(Xu et al.,2019),并進(jìn)行了一些小的修改,以包括邊緣特征以及蛋白質(zhì)網(wǎng)絡(luò)中的中心節(jié)點(diǎn)信息。

由于我們的主要目標(biāo)是系統(tǒng)地比較我們的預(yù)訓(xùn)練策略和強(qiáng)基線策略,因此我們?cè)趯?shí)驗(yàn)中修正了所有這些超參數(shù),并關(guān)注由預(yù)訓(xùn)練策略的差異直接導(dǎo)致的相對(duì)改善。

分子性質(zhì)預(yù)測(cè)。

在分子性質(zhì)預(yù)測(cè)中,原始節(jié)點(diǎn)特征和邊緣特征都是二維分類(lèi)向量(詳見(jiàn)附錄C),分別表示為節(jié)點(diǎn)v和邊緣e的(iv,1,iv,2)和(je,1,je,2)。請(qǐng)注意,我們還引入了獨(dú)特的類(lèi)別來(lái)表示遮罩的節(jié)點(diǎn)/邊以及自循環(huán)邊。作為GNNs的輸入特征,我們首先嵌入分類(lèi)向量,其中EmbNode1(·)、EmbNode2(·)、EmbEdge(k)1(·)和EmbNode(k)1(·)表示將整數(shù)索引映射到d維實(shí)向量的嵌入操作,k表示GNN層的索引。在第k層,GNNs通過(guò)

其中N(v)是與v相鄰的一組節(jié)點(diǎn),e=(v,v)表示自循環(huán)邊。注意,對(duì)于最后一層,即k=k,我們從公式(A.1)中刪除了ReLU,因此h(k)v可以取負(fù)值。這對(duì)于基于點(diǎn)積的預(yù)訓(xùn)練方法至關(guān)重要,例如上下文預(yù)測(cè)和邊緣預(yù)測(cè),否則,兩個(gè)向量之間的點(diǎn)積總是正的。

圖級(jí)表示hG是通過(guò)平均最后一層的節(jié)點(diǎn)嵌入得到的,即:。,

利用hG上的線性模型進(jìn)行標(biāo)簽預(yù)測(cè)。

在我們的實(shí)驗(yàn)中,我們將嵌入維數(shù)d設(shè)置為300。對(duì)于等式(A.1)中的MLPs,我們使用600個(gè)隱藏單元的ReLU激活。我們?cè)诠剑ˋ.1)中的ReLU之前應(yīng)用批量歸一化(Ioffe&Szegedy,2015),并在除輸入層以外的所有層對(duì)h(k)v應(yīng)用衰減(Srivastava et al.,2014)。

蛋白質(zhì)功能預(yù)測(cè)。

用于蛋白質(zhì)功能預(yù)測(cè)的GNN結(jié)構(gòu)與用于分子性質(zhì)預(yù)測(cè)的GNN結(jié)構(gòu)相似,只是存在一些差異。首先,原始輸入節(jié)點(diǎn)特征是一致的(這里用X表示),其次,原始輸入邊特征是二進(jìn)制向量(詳見(jiàn)附錄D),我們用ce表示∈ {0,1}d0。作為GNNs的輸入特征,我們首先通過(guò)

其中W∈ 研發(fā)×d0和b∈ rd是可學(xué)習(xí)的參數(shù),h(0)v,h(k)e∈ 研發(fā)。在每一層,GNNs通過(guò)

其中CONCAT(·,·)將兩個(gè)向量作為輸入并將它們串聯(lián)起來(lái)。由于下游任務(wù)是ego網(wǎng)絡(luò)分類(lèi),所以我們?cè)谇度胝麄€(gè)ego網(wǎng)絡(luò)的同時(shí),使用了中心節(jié)點(diǎn)vcenter的嵌入。更具體地說(shuō),我們通過(guò)hG獲得圖級(jí)表示

其他GNN架構(gòu)。

對(duì)于GCN、GraphSAGE和GAT,我們采用Pytorch幾何庫(kù)(Fey&Lenssen,2019)中的實(shí)現(xiàn),其中我們將GAT注意頭的數(shù)量設(shè)置為2。節(jié)點(diǎn)嵌入的維度以及GNN層的數(shù)量與GIN保持相同。這些模型最初并不處理邊緣特征。我們?cè)谶@些模型中加入了邊緣特征,就像我們?cè)谲埫迿C(jī)上所做的那樣;我們?cè)诠?jié)點(diǎn)嵌入中加入邊嵌入,并對(duì)得到的節(jié)點(diǎn)嵌入執(zhí)行GNN消息傳遞。

B

經(jīng)典圖分類(lèi)基準(zhǔn)實(shí)驗(yàn)

在表3中,我們報(bào)告了我們對(duì)常用經(jīng)典圖分類(lèi)基準(zhǔn)的實(shí)驗(yàn)(Kersting等人,2016)。在Xu等人(2019)使用的數(shù)據(jù)集中,MUTAG、PTC和NCI1是用于二元分類(lèi)的分子數(shù)據(jù)集。在這三個(gè)數(shù)據(jù)集中,我們排除了NCI1數(shù)據(jù)集,因?yàn)樗z漏了邊緣信息(即鍵類(lèi)型),因此,我們無(wú)法恢復(fù)原始的分子信息,這是構(gòu)建附錄C中描述的輸入表示所必需的。為了公平比較,我們使用了與Xu等人(2019)完全相同的評(píng)估方案,即報(bào)告10倍交叉驗(yàn)證準(zhǔn)確率。我們實(shí)驗(yàn)中的所有超參數(shù)在主實(shí)驗(yàn)中保持不變,只是在微調(diào)階段我們額外調(diào)整了從{0,0.2,0.5}的退出率和從{8,64}的批大小。

雖然預(yù)先訓(xùn)練好的GNNs(特別是具有上下文預(yù)測(cè)的GNNs)具有良好的性能,但是所有的精度(包括以前的所有方法)都在一個(gè)標(biāo)準(zhǔn)差之內(nèi),因此很難可靠地比較不同的方法。正如Xu et al.(2019)所指出的,這是由于數(shù)據(jù)集非常?。幻總€(gè)折疊處的驗(yàn)證集僅包含MUTAG和PTC的19到35個(gè)分子。鑒于這些結(jié)果,我們認(rèn)為有必要使用更大的數(shù)據(jù)集進(jìn)行可靠的比較,因此我們?cè)诒狙芯恐兄饕P(guān)注分子網(wǎng)(Wu et al.,2018)。

C

分子數(shù)據(jù)集的細(xì)節(jié)

輸入圖形表示法。

為了簡(jiǎn)單起見(jiàn),我們使用了一組最小的節(jié)點(diǎn)和鍵特征來(lái)明確描述分子的二維結(jié)構(gòu)。我們使用RDKit(Landrum等人)獲得這些特征。

?節(jié)點(diǎn)特征:–原子數(shù):[1,118]–手性標(biāo)記:{未指定,四面體順時(shí)針,四面體逆時(shí)針,其他}?邊緣特征:–鍵類(lèi)型:{單,雙,三,芳香}–鍵方向:{–,endupright,enddownright}

下游任務(wù)數(shù)據(jù)集。

Moleculenet(Wu等人)的8個(gè)二進(jìn)制圖分類(lèi)數(shù)據(jù)集用于評(píng)估模型性能。

?BBBP公司。血腦屏障滲透(膜通透性)(Martins等人,2012年)。

?毒性21。12個(gè)生物靶點(diǎn)的毒性數(shù)據(jù),包括核受體和應(yīng)激反應(yīng)途徑(Tox21)。

?毒物投射。基于600多次體外高通量篩選的毒理學(xué)測(cè)量(Richard等人,2016)。

?側(cè)邊。上市藥物和藥物不良反應(yīng)(ADR)數(shù)據(jù)庫(kù),分為27個(gè)系統(tǒng)器官類(lèi)別(Kuhn et al.,2015)。

?臨床試驗(yàn)。定性數(shù)據(jù)對(duì)FDA批準(zhǔn)的藥物和因毒性原因未通過(guò)臨床試驗(yàn)的藥物進(jìn)行分類(lèi)(Novick等人,2013;AACT)。

?MUV。PubChem生物測(cè)定的子集,通過(guò)應(yīng)用改進(jìn)的最近鄰分析,設(shè)計(jì)用于驗(yàn)證虛擬篩選技術(shù)(Gardiner等人,2011)。

?艾滋病毒。實(shí)驗(yàn)測(cè)量了抑制HIV復(fù)制的能力(?)。

?BACE公司。一組人類(lèi)免疫抑制劑的定性結(jié)合結(jié)果β-分泌酶1(Subramanian等人,2016)。蛋白質(zhì)數(shù)據(jù)集的詳細(xì)信息

輸入圖形表示法。蛋白質(zhì)子圖只有邊特征。

?邊緣特征:

–鄰域:{True,F(xiàn)alse}–融合:{True,F(xiàn)alse}–共現(xiàn):{True,F(xiàn)alse}–共表達(dá):{True,F(xiàn)alse}–實(shí)驗(yàn):{True,F(xiàn)alse}–數(shù)據(jù)庫(kù):{True,F(xiàn)alse}–文本:{True,F(xiàn)alse}

這些邊緣特征表明一對(duì)蛋白質(zhì)之間是否存在特定類(lèi)型的關(guān)系:

?鄰域:如果一對(duì)基因在彼此的基因組鄰域中被一致地觀察到?融合:如果一對(duì)蛋白質(zhì)將其各自的同源基因融合到另一生物體中的單個(gè)蛋白質(zhì)編碼基因?共現(xiàn):如果一對(duì)蛋白質(zhì)傾向于在同一生物體子集中觀察到存在或不存在?共表達(dá):如果一對(duì)蛋白質(zhì)具有相似的表達(dá)模式

?實(shí)驗(yàn):如果在實(shí)驗(yàn)中觀察到一對(duì)蛋白質(zhì)在物理上相互作用?數(shù)據(jù)庫(kù):如果一對(duì)蛋白質(zhì)屬于同一途徑,根據(jù)人類(lèi)館長(zhǎng)的評(píng)估?文本挖掘:如果一對(duì)蛋白質(zhì)在PubMed摘要中一起提及

數(shù)據(jù)集。

使用了包含50個(gè)物種蛋白質(zhì)子圖的數(shù)據(jù)集(Ztinik等人,2019)。原始的PPI網(wǎng)絡(luò)沒(méi)有節(jié)點(diǎn)屬性,但是包含與7種不同類(lèi)型的蛋白質(zhì)-蛋白質(zhì)關(guān)系的置信度相對(duì)應(yīng)的邊緣屬性。邊權(quán)重的范圍從0(表示沒(méi)有特定關(guān)系的證據(jù))到1000(表示置信度最高)。對(duì)PPI網(wǎng)絡(luò)的加權(quán)邊緣進(jìn)行閾值化,使得50個(gè)PPI網(wǎng)絡(luò)的邊緣類(lèi)型分布均勻。然后,對(duì)于PPI網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn),通過(guò)以下方法生成以每個(gè)節(jié)點(diǎn)為中心的子圖:(1)執(zhí)行廣度優(yōu)先搜索以選擇子圖節(jié)點(diǎn),搜索深度限制為2,每個(gè)節(jié)點(diǎn)隨機(jī)擴(kuò)展的最大鄰居數(shù)為10,(2)包括選定的子圖節(jié)點(diǎn)和這些節(jié)點(diǎn)之間的所有邊,以形成結(jié)果子圖。

整個(gè)數(shù)據(jù)集包含來(lái)自50個(gè)物種的394925個(gè)蛋白質(zhì)子圖。在這50個(gè)物種中,有8個(gè)物種(擬南芥、芹菜屬、ecoli、蒼蠅、人類(lèi)、小鼠、酵母、斑馬魚(yú))具有GO蛋白注釋。該數(shù)據(jù)集包含來(lái)自這8個(gè)物種的88000個(gè)蛋白質(zhì)子圖,其中57448個(gè)蛋白質(zhì)具有至少一個(gè)正粗粒度GO蛋白注釋?zhuān)?2876個(gè)蛋白質(zhì)具有至少一個(gè)正細(xì)粒度GO蛋白注釋。對(duì)于自監(jiān)督預(yù)訓(xùn)練數(shù)據(jù)集,我們使用了所有394925個(gè)蛋白質(zhì)子圖。

我們將細(xì)粒度蛋白質(zhì)功能定義為基因本體論(GO)注釋?zhuān)碐O層次中的葉子,并將粗粒度蛋白質(zhì)功能定義為GO注釋?zhuān)慈~子的直接親本(Ashburner et al.,2000;聯(lián)合體,2018年)。例如,細(xì)粒度的蛋白質(zhì)功能是“因子X(jué)II激活”,而粗粒度的功能是“蛋白質(zhì)的正調(diào)控”。前者是后者的一種特殊類(lèi)型,更難從實(shí)驗(yàn)中推導(dǎo)出來(lái)。GO層次結(jié)構(gòu)信息是使用GOATOOLS獲得的(Klopfenstein等人,2018)。監(jiān)督預(yù)訓(xùn)練數(shù)據(jù)集和下游評(píng)估數(shù)據(jù)集來(lái)自8個(gè)標(biāo)記物種,如附錄E所述。第40個(gè)最常見(jiàn)的細(xì)粒度蛋白質(zhì)標(biāo)簽只有121個(gè)正注釋蛋白質(zhì),而第40個(gè)最常見(jiàn)的粗粒度蛋白質(zhì)標(biāo)簽有9386個(gè)正注釋蛋白質(zhì)。這說(shuō)明了我們下游任務(wù)的極度匱乏。

對(duì)于有監(jiān)督的預(yù)訓(xùn)練,我們將前面描述的訓(xùn)練集、驗(yàn)證集和先驗(yàn)集與5000個(gè)最常見(jiàn)的粗粒度蛋白質(zhì)功能注釋結(jié)合起來(lái)作為二進(jìn)制標(biāo)簽。對(duì)于我們的下游任務(wù),我們預(yù)測(cè)了40個(gè)最常見(jiàn)的細(xì)粒度蛋白質(zhì)功能注釋?zhuān)源_保每個(gè)蛋白質(zhì)功能在我們的測(cè)試集中至少有10個(gè)陽(yáng)性標(biāo)簽。

E數(shù)據(jù)集拆分的詳細(xì)信息

對(duì)于分子預(yù)測(cè)任務(wù),遵循Ramsundar等人(2019),我們通過(guò)支架(分子圖子結(jié)構(gòu))(Bemis和Murcko,1996)對(duì)分子進(jìn)行聚類(lèi),并通過(guò)在訓(xùn)練集中放置最常見(jiàn)的支架來(lái)重組聚類(lèi),產(chǎn)生包含結(jié)構(gòu)不同分子的驗(yàn)證和測(cè)試集。先前的研究表明,與隨機(jī)拆分相比,這種支架拆分在前瞻性評(píng)估中提供了更現(xiàn)實(shí)的模型性能估計(jì)(Chen等人,2012;謝里丹。列車(chē)/驗(yàn)證/測(cè)試集的分割為80%:10%:10%。

在PPI網(wǎng)絡(luò)中,物種分裂模擬了這樣一種情況:我們對(duì)感興趣的物種(我們的實(shí)驗(yàn)中的人類(lèi))中的蛋白質(zhì)子集(先驗(yàn)集)只有高水平的粗粒度知識(shí),并希望預(yù)測(cè)該物種中其他蛋白質(zhì)的細(xì)粒度生物功能(測(cè)試集)。對(duì)于物種分裂,我們使用50%的人類(lèi)蛋白質(zhì)子圖作為測(cè)試集,50%作為只包含粗粒度蛋白質(zhì)注釋的先驗(yàn)集。來(lái)自其他7個(gè)標(biāo)記物種(擬南芥、芹菜屬、ecoli、蒼蠅、小鼠、酵母、斑馬魚(yú))的蛋白質(zhì)子圖被用作訓(xùn)練集和驗(yàn)證集,分為85%:15%。列車(chē)/驗(yàn)證/先前/測(cè)試集的有效分割率為69%:12%:9.5%:9.5%。

F培訓(xùn)前的時(shí)間復(fù)雜性

本文分析了在屬性掩蔽和上下文預(yù)測(cè)中處理圖的時(shí)間復(fù)雜度。首先,屬性掩蔽的時(shí)間復(fù)雜度與邊/節(jié)點(diǎn)數(shù)呈線性關(guān)系,因?yàn)樗簧婕耙诒蔚牟蓸庸?jié)點(diǎn)/邊。第二,上下文預(yù)測(cè)的時(shí)間復(fù)雜度與邊/節(jié)點(diǎn)的數(shù)目同樣是線性的,因?yàn)樗婕皩?duì)每個(gè)圖的中心節(jié)點(diǎn)進(jìn)行采樣,再加上提取K-hop鄰域和上下文圖。鄰域/上下文圖的提取是通過(guò)廣度優(yōu)先搜索進(jìn)行的,該搜索相對(duì)于圖中的邊數(shù)最多需要線性時(shí)間??傊?,我們的兩種預(yù)訓(xùn)練方法的時(shí)間復(fù)雜度與邊緣數(shù)最多是線性的,這與GNNs中的消息傳遞計(jì)算一樣有效,因此與使用GNNs的普通有監(jiān)督學(xué)習(xí)一樣有效。此外,在動(dòng)態(tài)轉(zhuǎn)換數(shù)據(jù)時(shí)(例如,屏蔽輸入節(jié)點(diǎn)/邊特征,對(duì)上下文圖進(jìn)行采樣),幾乎沒(méi)有內(nèi)存開(kāi)銷(xiāo)。

實(shí)驗(yàn)裝置的進(jìn)一步細(xì)節(jié)

優(yōu)化。

所有模型均采用Adam optimizer(Kingma&amp;Ba,2015)進(jìn)行訓(xùn)練,學(xué)習(xí)率為0.001。我們使用Pytork(Paszke et al.,2017)和Pytork Geometric(Fey&amp;Lenssen,2019)進(jìn)行所有實(shí)施。我們?cè)?00個(gè)時(shí)代里運(yùn)行所有的預(yù)訓(xùn)練方法。對(duì)于自監(jiān)督預(yù)訓(xùn)練,我們使用256的批大小,而對(duì)于監(jiān)督預(yù)訓(xùn)練,我們使用32的批大小,輟學(xué)率為20%。

微調(diào)。

在預(yù)訓(xùn)練之后,我們按照第3.3節(jié)中的步驟對(duì)下游數(shù)據(jù)集的訓(xùn)練集上的模型進(jìn)行微調(diào)。我們使用的批量大小為32,退出率為50%。具有多個(gè)預(yù)測(cè)任務(wù)的數(shù)據(jù)集是聯(lián)合擬合的。在分子性質(zhì)預(yù)測(cè)數(shù)據(jù)集上,我們訓(xùn)練了100個(gè)時(shí)期的模型,而在蛋白質(zhì)功能預(yù)測(cè)數(shù)據(jù)集(有40個(gè)二元預(yù)測(cè)任務(wù))上,我們訓(xùn)練了50個(gè)時(shí)期的模型。

評(píng)價(jià)。

我們使用ROC-AUC(Bradley,1997)和驗(yàn)證早期停止協(xié)議評(píng)估下游任務(wù)的測(cè)試性能,即報(bào)告在最佳驗(yàn)證期測(cè)試ROC-AUC。對(duì)于具有多個(gè)預(yù)測(cè)任務(wù)的數(shù)據(jù)集,我們?nèi)∑渌腥蝿?wù)的平均ROC-AUC。下游實(shí)驗(yàn)用10個(gè)隨機(jī)種子進(jìn)行,我們報(bào)告平均ROC-AUC和標(biāo)準(zhǔn)差。

訓(xùn)練前的計(jì)算時(shí)間。

我們預(yù)培訓(xùn)的兩個(gè)階段的計(jì)算時(shí)間報(bào)告如下?;瘜W(xué):自我監(jiān)督的預(yù)訓(xùn)練大約需要24小時(shí),而監(jiān)督的預(yù)訓(xùn)練大約需要11小時(shí)。生物學(xué):自我監(jiān)督預(yù)訓(xùn)練約需3.8小時(shí),監(jiān)督預(yù)訓(xùn)練約需2.5小時(shí)。

H不同GNN結(jié)構(gòu)的預(yù)訓(xùn)練比較表4顯示了化學(xué)數(shù)據(jù)集上不同GNN結(jié)構(gòu)的詳細(xì)比較。我們看到,與其他表現(xiàn)力較弱的模型相比,最具表現(xiàn)力的GIN體系結(jié)構(gòu)從預(yù)訓(xùn)練中受益最大。

額外的培訓(xùn)和驗(yàn)證曲線

培訓(xùn)和驗(yàn)證曲線。

在圖5中,我們繪制了用于分子性質(zhì)預(yù)測(cè)實(shí)驗(yàn)的所有數(shù)據(jù)集的訓(xùn)練和驗(yàn)證曲線。ROC AUC的其他散點(diǎn)圖比較。

在圖6中,我們將上下文預(yù)測(cè)+圖級(jí)監(jiān)督預(yù)訓(xùn)練與非預(yù)訓(xùn)練模型和圖級(jí)監(jiān)督預(yù)訓(xùn)練模型進(jìn)行了比較。從左圖中我們可以看到,組合策略再次完全避免了所有40個(gè)下游任務(wù)的負(fù)遷移。此外,我們從右圖中可以看出,在40個(gè)下游任務(wù)中,添加節(jié)點(diǎn)級(jí)上下文預(yù)測(cè)預(yù)訓(xùn)練幾乎總能提高有監(jiān)督預(yù)訓(xùn)練模型的ROC-AUC分?jǐn)?shù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容