歸納偏置,深度學(xué)習(xí),和圖網(wǎng)絡(luò)

https://mp.weixin.qq.com/s/rzFtpI28XbyxONh5X0Pvaw

Relational inductive biases, deep learning, and graph networks

arXiv:1806.01261?[pdf,?other]

40頁pdf

Relational?inductive?biases,?deep?learning, and?graph?networks

Authors:?Peter W. Battaglia,?Jessica B. Hamrick,?Victor Bapst,?Alvaro Sanchez-Gonzalez,?Vinicius Zambaldi,?Mateusz Malinowski,?Andrea Tacchetti,?David Raposo,?Adam Santoro,?Ryan Faulkner,?Caglar Gulcehre,?Francis Song,?Andrew Ballard,?Justin Gilmer,?George Dahl,?Ashish Vaswani,?Kelsey Allen,?Charles Nash,?Victoria Langston,?Chris Dyer,?Nicolas Heess,?Daan Wierstra,?Pushmeet Kohli,?Matt Botvinick,?Oriol Vinyals?, et al. (2 additional authors not shown)

Submitted?17 October, 2018;?v1?submitted 4 June, 2018;?originally announced?June 2018.

摘要:人工智能(AI)最近經(jīng)歷了一次復(fù)興,在視覺、語言、控制和決策等關(guān)鍵領(lǐng)域取得了重大進展。這在一定程度上是因為廉價的數(shù)據(jù)和廉價的計算資源符合深度學(xué)習(xí)的自然優(yōu)勢。然而,在不同的壓力下發(fā)展起來的人類智力的許多決定性特征,仍然是當(dāng)前方法無法達到的。特別是,對現(xiàn)代人工智能來說,超越個人經(jīng)驗的概括(這是人類從嬰兒期起的智能特征)仍然是一項艱巨的挑戰(zhàn)。

以下是部分立場文件、部分回顧和部分統(tǒng)一。我們認為,組合泛化必須是人工智能實現(xiàn)類人能力的首要任務(wù),結(jié)構(gòu)化表示和計算是實現(xiàn)這一目標(biāo)的關(guān)鍵。正如生物學(xué)將先天和后天培養(yǎng)結(jié)合起來一樣,我們拒絕在“手工工程”和“端到端”學(xué)習(xí)之間做出錯誤的選擇,相反,我們提倡一種受益于它們互補優(yōu)勢的方法。我們探討了在深度學(xué)習(xí)架構(gòu)中使用關(guān)系歸納偏置如何促進對實體、關(guān)系和組合規(guī)則的學(xué)習(xí)。我們?yōu)锳I工具包提供了一個新的構(gòu)建塊,它具有強大的關(guān)系歸納偏置——圖網(wǎng)絡(luò)——它概括和擴展了各種用于對圖形進行操作的神經(jīng)網(wǎng)絡(luò)的方法,并為操作結(jié)構(gòu)化知識和生成結(jié)構(gòu)化行為提供了一個直觀的界面。我們討論了圖網(wǎng)絡(luò)如何支持關(guān)系推理和組合泛化,為更復(fù)雜、可解釋和靈活的推理模式奠定基礎(chǔ)。作為本文的補充,我們發(fā)布了一個用于構(gòu)建圖網(wǎng)絡(luò)的開源軟件庫,并演示了如何在實踐中使用它們。

1導(dǎo)言

人類智力的一個關(guān)鍵特征是“無限利用有限手段”(洪堡,1836年;喬姆斯基,1965年)的能力,在這種能力中,一小部分元素(如單詞)可以以無限的方式(如新句子)有效地組合。這反映了組合泛化的原理,即從已知的構(gòu)建塊構(gòu)造新的推理、預(yù)測和行為。在這里,我們探討了如何通過將學(xué)習(xí)偏向于結(jié)構(gòu)化表示和計算,特別是在圖形上操作的系統(tǒng),來提高現(xiàn)代人工智能的組合泛化能力。

人類的組合概括能力在很大程度上取決于我們表達結(jié)構(gòu)和推理關(guān)系的認知機制。我們將復(fù)雜系統(tǒng)表示為實體的組成及其相互作用1(Navon,1977年;McClelland和Rumelhart,1981年;Plaut等人,1996年;Marcus,2001年;Goodwin和Johnson Laird,2005年;Kemp和Tenenbaum,2008年),例如判斷一堆雜亂無章的物體是否穩(wěn)定(Battaglia等人,2013年)。我們使用層次結(jié)構(gòu)從細粒度的差異中抽象出來,并捕獲表示和行為之間更一般的共性(Botvinick,2008;Tenenbaum et al.,2011),例如對象的部分、場景中的對象、城鎮(zhèn)中的社區(qū)和國家中的城鎮(zhèn)。我們通過編寫熟悉的技能和常規(guī)(Anderson,1982)來解決新問題,例如,通過編寫熟悉的程序和目標(biāo)(如“乘飛機旅行”、“去圣地亞哥”、“在家吃飯”和“印度餐館”)到新地點旅行。我們通過調(diào)整兩個領(lǐng)域之間的關(guān)系結(jié)構(gòu),并根據(jù)對另一個領(lǐng)域的相應(yīng)知識對其中一個領(lǐng)域進行推斷,從而得出類比(Gentner和Markman,1997;Hummel和Holyoak,2003)。

肯尼斯·克雷克(Kenneth Craik)的《解釋的本質(zhì)》(1943年)將世界的構(gòu)成結(jié)構(gòu)與我們內(nèi)部心理模型的組織方式聯(lián)系起來:

...[人類心理模型]與它所模仿的過程具有相似的關(guān)系結(jié)構(gòu)。我所說的“關(guān)系結(jié)構(gòu)”并不是指某個模糊的非物理實體參與到模型中,而是指它是一個工作的物理模型,其工作方式與它并行的過程相同。。。顯然,物理實在是由幾個基本類型的單位建立起來的,這些單位的性質(zhì)決定了最復(fù)雜現(xiàn)象的許多性質(zhì),這似乎充分解釋了機制之間出現(xiàn)的類比以及這些組合之間關(guān)系結(jié)構(gòu)的相似性,而無需任何客觀普遍性理論。(克雷克,1943年,第51-55頁)

也就是說,世界是由成分構(gòu)成的,或者至少,我們從成分的角度來理解它。在學(xué)習(xí)時,我們要么將新知識融入現(xiàn)有的結(jié)構(gòu)化表示,要么調(diào)整結(jié)構(gòu)本身,以更好地適應(yīng)(并利用)新知識和舊知識(Tenenbaum等人,2006年;Griffiths等人,2010年;Ullman等人,2017年)。如何構(gòu)建具有組合泛化能力的人工系統(tǒng)的問題自人工智能誕生以來一直是人工智能的核心,也是許多結(jié)構(gòu)化方法的核心,包括邏輯、語法、經(jīng)典規(guī)劃、圖形模型、因果推理、貝葉斯非參數(shù)學(xué)、,和概率規(guī)劃(喬姆斯基,1957年;尼爾森和菲克斯,1970年;珀爾,1986年,2009年;拉塞爾和諾維格,2009年;Hjort等人,2010年;古德曼等人,2012年;Ghahramani,2015年)。整個子領(lǐng)域都專注于以實體和關(guān)系為中心的顯性學(xué)習(xí),如關(guān)系強化學(xué)習(xí)(Dˇzeroski等人,2001)和統(tǒng)計關(guān)系學(xué)習(xí)(Getoor和Taskar,2007)。在以前的時代,結(jié)構(gòu)化方法對機器學(xué)習(xí)如此重要的一個關(guān)鍵原因,部分是因為數(shù)據(jù)和計算資源非常昂貴,而結(jié)構(gòu)化方法強大的歸納偏置所提供的改進的樣本復(fù)雜性非常有價值。

與人工智能的過去方法相比,現(xiàn)代深度學(xué)習(xí)方法(LeCun等人,2015;Schmidhuber,2015;Goodfelle等人,2016)通常遵循“端到端”的設(shè)計理念,強調(diào)最小的先驗表征和計算假設(shè),并尋求避免顯式結(jié)構(gòu)和“手工工程”。這種強調(diào)與當(dāng)前豐富的廉價數(shù)據(jù)和廉價計算資源非常契合,也可能得到了肯定,這使得權(quán)衡樣本效率以獲得更靈活的學(xué)習(xí)成為一種理性選擇。從圖像分類(Krizhevsky et al.,2012;Szegedy et al.,2017),到自然語言處理(Sutskever et al.,2014;Bahdanau et al.,2015),再到游戲(Mnih et al.,2015;Silver et al.,2016;Moravˇc?k et al.,2017),在許多具有挑戰(zhàn)性的領(lǐng)域取得了顯著而迅速的進步,是對這一極簡主義原則的證明。一個突出的例子是語言平移,序列到序列的方法(Sutskever et al.,2014;Bahdanau et al.,2015)在不使用顯式解析樹或語言實體之間的復(fù)雜關(guān)系的情況下被證明非常有效。

盡管deep learning取得了成功,但重要的評論(Marcus,2001;Shalev Shwartz et al.,2017;Lake et al.,2017;Lake and Baroni,2018;Marcus,2018a,b;Pearl,2018;Yuille and Liu,2018)強調(diào)了其在復(fù)雜語言和場景理解、結(jié)構(gòu)化數(shù)據(jù)推理方面面臨的關(guān)鍵挑戰(zhàn),將學(xué)習(xí)轉(zhuǎn)移到訓(xùn)練條件之外,并從少量經(jīng)驗中學(xué)習(xí)。這些挑戰(zhàn)需要組合泛化,因此避免組合性和顯式結(jié)構(gòu)的方法很難滿足這些挑戰(zhàn),這也許并不奇怪。

當(dāng)深度學(xué)習(xí)的聯(lián)結(jié)主義者(Rumelhart et al.,1987)的先輩們面臨來自結(jié)構(gòu)化、象征性立場的類似批評時(Fodor和Pylyshyn,1988;Pinker和Prince,1988),他們做出了建設(shè)性的努力(Bobrow和Hinton,1990;Marcus,2001),直接而謹慎地應(yīng)對這些挑戰(zhàn)。在類比、語言分析、符號操作和其他形式的關(guān)系推理等領(lǐng)域,開發(fā)了各種用于表示和推理結(jié)構(gòu)化對象的創(chuàng)新亞符號方法(Smolensky,1990;Hinton,1990;Pollack,1990;Elman,1991;Plate,1995;Eliasmith,2013),以及關(guān)于大腦如何工作的更為綜合的理論(Marcus,2001)。這些工作也有助于培養(yǎng)更近期的深度學(xué)習(xí)進步,即使用分布式向量表示法捕獲文本中豐富的語義內(nèi)容(Mikolov等人,2013年;Pennington等人,2014年)、圖形(Narayanan等人,2016年、2017年)、代數(shù)和邏輯表達式(Allamanis等人,2017年;Evans等人,2018年),和項目(Devlin等人,2017年;Chen等人,2018b)。

我們認為,現(xiàn)代人工智能的一個關(guān)鍵發(fā)展方向是將組合泛化作為首要任務(wù),我們主張采用綜合方法來實現(xiàn)這一目標(biāo)。正如生物學(xué)不會在先天和后天之間做出選擇一樣,它將先天和后天結(jié)合起來,以建立一個大于其各部分總和的整體,我們也拒絕結(jié)構(gòu)和靈活性在某種程度上不一致或不相容的概念,并接受兩者,目的是收獲它們的互補優(yōu)勢。本著基于結(jié)構(gòu)的方法和深度學(xué)習(xí)的原則混合的眾多最新實例的精神(例如,里德和德弗雷塔斯,2016年;加內(nèi)洛等人,2016年;里奇等人,2016年;吳等人,2017年;丹尼爾等人,2017年;哈德遜和曼寧,2018年),我們看到,通過利用完整的人工智能工具包,將當(dāng)今的最佳方法與數(shù)據(jù)和計算處于高價時所必需的方法結(jié)合起來,綜合新技術(shù)將大有可為。

最近,在深度學(xué)習(xí)和結(jié)構(gòu)化方法的交叉點上出現(xiàn)了一類模型,其重點是關(guān)于顯式結(jié)構(gòu)化數(shù)據(jù)的推理方法,特別是圖表(如Scarselli等人,2009年b;Bronstein等人,2017年;Gilmer等人,2017年;Wang等人,2018c;Li等人,2018年;Kipf等人,2018年;Gulcehre等人,2018年)。這些方法的共同點是對離散實體及其關(guān)系執(zhí)行計算的能力。與經(jīng)典方法不同的是如何學(xué)習(xí)實體和關(guān)系的表示和結(jié)構(gòu)以及相應(yīng)的計算,從而減輕了需要提前指定它們的負擔(dān)。至關(guān)重要的是,這些方法帶有強烈的關(guān)系歸納偏置,表現(xiàn)為特定的架構(gòu)假設(shè),指導(dǎo)這些方法學(xué)習(xí)實體和關(guān)系(Mitchell,1980),我們,與其他許多人(Spelke等人,1992年;Spelke和Kinzler,2007年;Marcus,2001年;Tenenbaum等人,2011年;Lake等人,2017年;Lake和Baroni,2018年;Marcus,2018b)一起認為,大腦是類人智能的重要組成部分。

框1:關(guān)系推理

我們將結(jié)構(gòu)定義為組成一組已知構(gòu)建塊的產(chǎn)物?!敖Y(jié)構(gòu)化表示”捕獲這種組合(即元素的排列),并且“結(jié)構(gòu)化計算”操作元素及其作為一個整體的組合。因此,關(guān)系推理涉及到操縱實體和關(guān)系的結(jié)構(gòu)化表示,并使用規(guī)則來確定它們的組合方式。我們使用這些術(shù)語來獲取認知科學(xué)、理論計算機科學(xué)和人工智能的概念,如下所示:

? 實體是具有屬性的元素,例如具有大小和質(zhì)量的物理對象。

? 關(guān)系是實體之間的屬性。兩個對象之間的關(guān)系可能包括與大小相同、比重以及與的距離。關(guān)系也可以有屬性。大于X倍的關(guān)系使用屬性X,該屬性確定關(guān)系的相對權(quán)重閾值為真與假。關(guān)系也可能對全球環(huán)境敏感。對于一塊石頭和一根羽毛來說,它們之間的關(guān)系下降的加速度要大于背景是在空氣中還是在真空中。這里我們重點討論實體之間的成對關(guān)系。

? 規(guī)則是一個函數(shù)(類似于非二進制邏輯謂詞),它將實體和關(guān)系映射到其他實體和關(guān)系,例如比例尺比較,如實體X大嗎?實體X比實體Y重嗎?。在這里,我們考慮采用一個或兩個參數(shù)(一元和二進制)的規(guī)則,并返回一元屬性值。

作為機器學(xué)習(xí)中關(guān)系推理的一個示例,圖形模型(Pearl,1988;Koller和Friedman,2009)可以通過在隨機變量之間建立明確的隨機條件獨立來表示復(fù)雜的聯(lián)合分布。這些模型非常成功,因為它們捕捉了許多真實世界生成過程背后的稀疏結(jié)構(gòu),并且支持有效的學(xué)習(xí)和推理算法。例如,隱馬爾可夫模型將潛在狀態(tài)約束為條件獨立于前一時間步的其他狀態(tài),并將觀測值約束為條件獨立于當(dāng)前時間步的潛在狀態(tài),這與許多現(xiàn)實世界因果過程的關(guān)系結(jié)構(gòu)非常匹配。顯式表示變量之間的稀疏依賴關(guān)系提供了各種有效的推理和推理算法,例如消息傳遞,它在圖形模型中跨局部應(yīng)用公共信息傳播過程,從而實現(xiàn)可組合和部分并行,推理程序,可應(yīng)用于不同尺寸和形狀的圖形模型。

在本文的剩余部分中,我們通過關(guān)系歸納偏置的視角考察了各種深度學(xué)習(xí)方法,表明現(xiàn)有方法通常帶有關(guān)系假設(shè),這些假設(shè)并不總是明確的或立即明顯的。然后,我們提出了一個基于實體和關(guān)系的推理的通用框架,我們稱之為圖網(wǎng)絡(luò),用于統(tǒng)一和擴展現(xiàn)有的圖形方法,并描述了使用圖網(wǎng)絡(luò)作為構(gòu)建塊構(gòu)建強大架構(gòu)的關(guān)鍵設(shè)計原則。我們還發(fā)布了一個用于構(gòu)建圖網(wǎng)絡(luò)的開源庫,可以在這里找到:github。com/deepmind/graph-nets。

2相關(guān)歸納偏置

機器學(xué)習(xí)和人工智能中具有關(guān)系推理能力的許多方法(框1)使用關(guān)系歸納偏置。雖然不是一個精確、正式的定義,但我們使用該術(shù)語通常指的是歸納偏置(框2),它對學(xué)習(xí)過程中實體之間的關(guān)系和交互施加了約束。

近年來,創(chuàng)新性的新機器學(xué)習(xí)架構(gòu)迅速發(fā)展,實踐者通常遵循一種設(shè)計模式,即組合基本構(gòu)建塊,形成更復(fù)雜、更深入的計算層次結(jié)構(gòu)和圖形。諸如“完全連接”層之類的構(gòu)建塊被堆疊到“多層感知器”(MLP)中,“卷積層”被堆疊到“卷積神經(jīng)網(wǎng)絡(luò)”(CNN)中,并且圖像處理網(wǎng)絡(luò)的標(biāo)準(zhǔn)配方通常是由MLP組成的某種CNN。這種層的組合提供了一種特定類型的關(guān)系歸納偏置,即分階段執(zhí)行計算的分層處理,通常導(dǎo)致輸入信號中的信息之間的距離越來越遠的交互。正如我們在下面探討的,構(gòu)建塊本身也帶有各種關(guān)系歸納偏置(表1)。盡管超出了本文的范圍,但深度學(xué)習(xí)中也使用了各種非相關(guān)的歸納偏置:例如,激活非線性、權(quán)重衰減、dropout(Srivastava等人,2014年)、批次和層歸一化(Ioffe和Szegedy,2015年;Ba等人,2016年)、數(shù)據(jù)增強、訓(xùn)練課程、,優(yōu)化算法都對學(xué)習(xí)的軌跡和結(jié)果施加約束。

框2:歸納偏置

學(xué)習(xí)是通過觀察世界和與世界互動來理解有用知識的過程。它涉及到尋找一個解決方案空間,以期為數(shù)據(jù)提供更好的解釋或獲得更高的回報。但在許多情況下,有多種同樣好的解決方案(古德曼,1955)。歸納偏置允許學(xué)習(xí)算法將一種解決方案(或解釋)優(yōu)先于另一種解決方案(或解釋),與觀測數(shù)據(jù)無關(guān)(Mitchell,1980)。在貝葉斯模型中,歸納偏置通常通過先驗分布的選擇和參數(shù)化來表示(Griffiths et al.,2010)。在其他情況下,歸納偏置可能是為了避免過度擬合而添加的正則化項(McClelland,1994),也可能在算法本身的架構(gòu)中進行編碼。歸納偏置通常通過提高樣本復(fù)雜度來交換靈活性,并且可以通過偏置-方差權(quán)衡來理解(Geman et al.,1992)。理想情況下,歸納偏置既可以在不顯著降低性能的情況下改進對解決方案的搜索,也可以幫助找到以理想方式概括的解決方案;然而,不匹配的歸納偏置也可能通過引入太強的約束而導(dǎo)致次優(yōu)性能。

歸納偏置可以表示關(guān)于數(shù)據(jù)生成過程或解決方案空間的假設(shè)。例如,當(dāng)將一維函數(shù)擬合到數(shù)據(jù)時,線性最小二乘法遵循近似函數(shù)為線性模型的約束,并且在二次懲罰下近似誤差應(yīng)最小。這反映了一種假設(shè),即數(shù)據(jù)生成過程可以簡單地解釋為被加性高斯噪聲破壞的線性過程。類似地,L2正則化優(yōu)先考慮參數(shù)值較小的解,并且可以為其他不適定問題引入唯一解和全局結(jié)構(gòu)。這可以解釋為關(guān)于學(xué)習(xí)過程的一個假設(shè):當(dāng)解決方案之間的歧義較少時,尋找好的解決方案更容易。注意,這些假設(shè)不需要明確,它們反映了對模型或算法如何與世界交互的解釋。

為了探索各種深度學(xué)習(xí)方法中表達的關(guān)系歸納偏置,我們必須確定幾個關(guān)鍵成分,類似于方框1中的成分:什么是實體,什么是關(guān)系,組成實體和關(guān)系的規(guī)則是什么,以及計算它們的含義?在深度學(xué)習(xí)中,實體和關(guān)系通常表示為分布式表示,規(guī)則表示為神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器;然而,實體、關(guān)系和規(guī)則的精確形式因架構(gòu)而異。為了理解架構(gòu)之間的這些差異,我們可以進一步詢問每種架構(gòu)如何通過探測來支持關(guān)系推理:

? 規(guī)則函數(shù)的參數(shù)(例如,提供哪些實體和關(guān)系作為輸入)。

? 如何在計算圖中重用或共享規(guī)則函數(shù)(例如,在不同的實體和關(guān)系中,在不同的時間或處理步驟中,等等)。

? 架構(gòu)如何定義表示之間的交互與隔離(例如,通過應(yīng)用規(guī)則得出有關(guān)相關(guān)實體的結(jié)論,而不是單獨處理它們)。

2.1標(biāo)準(zhǔn)深度學(xué)習(xí)構(gòu)建塊中的關(guān)系歸納偏置

2.1.1完全連接的層

也許最常見的構(gòu)造塊是完全連接的層(Rosenblatt,1961)。通常實現(xiàn)為向量輸入的非線性向量值函數(shù),輸出向量的每個元素或“單位”是權(quán)重向量(后跟附加偏置項)和最終非線性(例如校正線性單位(ReLU))之間的點積。因此,實體是網(wǎng)絡(luò)中的單元,關(guān)系是all to all(層i中的所有單元都連接到層j中的所有單元),規(guī)則由權(quán)重和偏置指定。該規(guī)則的參數(shù)是完整的輸入信號,沒有重用,也沒有信息隔離(圖1a)。因此,在完全連接的層中,隱含的關(guān)系歸納偏置非常弱:所有輸入單元都可以相互作用,獨立地跨輸出確定任何輸出單元的值(表1)。

2.1.2個卷積層

另一個常見的構(gòu)造塊是卷積層(Fukushima,1980;LeCun等人,1989)。它通過將輸入向量或張量與相同秩的核卷積、添加偏置項以及應(yīng)用逐點非線性來實現(xiàn)。這里的實體仍然是單獨的單位(或網(wǎng)格元素,例如像素),但關(guān)系更為稀疏。完全連接層和卷積層之間的差異造成了一些重要的關(guān)系歸納偏置:局部性和平移不變性(圖1b)。局部性反映了關(guān)系規(guī)則的參數(shù)是那些在輸入信號的坐標(biāo)空間中彼此非常接近、與遠端實體隔離的實體。平移不變性反映了在輸入的不同位置重復(fù)使用相同的規(guī)則。這些偏置對于處理自然圖像數(shù)據(jù)非常有效,因為局部鄰域內(nèi)的協(xié)方差很高,隨著距離的增加而減小,并且統(tǒng)計數(shù)據(jù)在整個圖像中大部分是固定的(表1)。

2.1.3個遞歸層

第三個常用構(gòu)建塊是遞歸層(Elman,1990),它通過一系列步驟實現(xiàn)。在這里,我們可以將每個處理步驟的輸入和隱藏狀態(tài)視為實體,將一個步驟的隱藏狀態(tài)對前一個隱藏狀態(tài)和當(dāng)前輸入的馬爾可夫依賴性視為關(guān)系。組合實體的規(guī)則將步驟的輸入和隱藏狀態(tài)作為參數(shù)來更新隱藏狀態(tài)。該規(guī)則在每個步驟中都被重復(fù)使用(圖1c),這反映了時間不變性的相關(guān)歸納偏置(類似于CNN在空間中的平移不變性)。例如,某些物理事件序列的結(jié)果不應(yīng)取決于一天中的時間。RNN還通過其馬爾可夫結(jié)構(gòu)(表1)在序列中帶有局部性偏置。

2.2集合和圖形的計算

雖然標(biāo)準(zhǔn)的深度學(xué)習(xí)工具包包含具有各種形式的關(guān)系歸納偏置的方法,但沒有在任意關(guān)系結(jié)構(gòu)上操作的“默認”深度學(xué)習(xí)組件。我們需要具有實體和關(guān)系的顯式表示的模型,以及能夠找到計算它們的交互規(guī)則的學(xué)習(xí)算法,以及將它們建立在數(shù)據(jù)基礎(chǔ)上的方法。重要的是,世界上的實體(如對象和代理)沒有自然秩序;相反,排序可以通過其關(guān)系的屬性來定義。例如,一組對象的大小之間的關(guān)系可以潛在地用于對它們進行排序,它們的質(zhì)量、年齡、毒性和價格也是如此。除了關(guān)系之外,對順序的不變性是一種屬性,理想情況下,這種屬性應(yīng)該通過關(guān)系推理的深度學(xué)習(xí)組件反映出來。

集合是由順序未定義或無關(guān)的實體描述的系統(tǒng)的自然表示;特別是,他們的關(guān)系歸納偏置不是來自于某件事的存在,而是來自于某件事的缺失。為了說明,考慮由N行星組成的太陽系的質(zhì)量中心的預(yù)測任務(wù),其屬性(例如質(zhì)量、位置、速度等)由{x1,x2,…,xn}表示。對于這樣的計算,我們考慮行星的順序并不重要,因為狀態(tài)只能用聚集的、平均的量來描述。然而,如果我們將MLP用于此任務(wù),學(xué)習(xí)特定輸入(x1,x2,…,xn)的預(yù)測不一定會轉(zhuǎn)移到以不同順序(xn,x1,…,x2)對相同輸入進行預(yù)測。因為有n!這種可能的排列,在最壞的情況下,MLP可以考慮每個排序是根本不同的,因此需要指數(shù)數(shù)量的輸入/輸出訓(xùn)練實例來學(xué)習(xí)近似函數(shù)。處理這種組合爆炸的自然方法是只允許預(yù)測依賴于輸入屬性的對稱函數(shù)。這可能意味著計算每個對象共享的特征{f(x1),…,f(xn)},然后以對稱方式聚合這些特征(例如,通過取它們的平均值)。這種方法是深集和相關(guān)模型的精髓(Zaheer等人,2017年;Edwards和Storkey,2016年;Pevn`y和Somol,2017年),我們將在第4.2節(jié)中進一步探討。3.

當(dāng)然,在許多問題中,排列不變性并不是底層結(jié)構(gòu)的唯一重要形式。例如,集合中的每個對象都可能受到與集合中其他對象成對交互的影響(Hartford等人,2018)。在我們的行星場景中,現(xiàn)在考慮在一個時間間隔之后預(yù)測每個行星的位置的任務(wù),?t、 在這種情況下,使用聚合平均信息是不夠的,因為每個行星的運動取決于其他行星對其施加的力。相反,我們可以將每個物體的狀態(tài)計算為x0i=f(xi,Pj g(xi,xj)),其中g(shù)可以計算第i顆行星上第j顆行星產(chǎn)生的力,f可以計算第i顆行星的未來狀態(tài),該狀態(tài)由力和動力學(xué)產(chǎn)生。事實上,我們在任何地方都使用相同的g,這也是系統(tǒng)的全局置換不變性的結(jié)果;但是,它也支持不同的關(guān)系結(jié)構(gòu),因為g現(xiàn)在接受兩個參數(shù)而不是一個參數(shù)。4.

上面的太陽系例子說明了兩種關(guān)系結(jié)構(gòu):一種是沒有關(guān)系的,另一種是由所有成對關(guān)系組成的。然而,許多現(xiàn)實世界的系統(tǒng)(如圖2)在這兩個極端之間的某個地方有一個關(guān)系結(jié)構(gòu),一些實體對擁有關(guān)系,而另一些實體則沒有關(guān)系。在我們太陽系的例子中,如果系統(tǒng)由行星及其衛(wèi)星組成,人們可能會忽略不同行星的衛(wèi)星之間的相互作用,從而試圖對其進行近似計算。實際上,這意味著只計算某些對象對之間的交互,即x0i=f(xi,Pj∈δ(i)g(xi,xj)),其中δ(i)? {1,…,n}是節(jié)點i周圍的一個鄰域。這對應(yīng)于一個圖,因為第i個對象僅與由其鄰域描述的其他對象的子集交互。注意,更新后的狀態(tài)仍然不依賴于我們描述鄰域的順序。5.

一般來說,圖是一種支持任意(成對)關(guān)系結(jié)構(gòu)的表示,圖上的計算提供了一種強大的關(guān)系歸納偏置,超出了卷積層和遞歸層所能提供的。

3圖網(wǎng)絡(luò)

在“圖形神經(jīng)網(wǎng)絡(luò)”的保護下(Gori等人,2005年;Scarselli等人,2005年,2009年a;Li等人,2016年),對在圖形上運行并相應(yīng)構(gòu)造其計算的神經(jīng)網(wǎng)絡(luò)進行了十多年的開發(fā)和廣泛探索,但近年來其范圍和普及度迅速增長。我們將在下一小節(jié)(3.1)中對這些方法的文獻進行綜述。然后在剩下的小節(jié)中,我們介紹了我們的圖網(wǎng)絡(luò)框架,它概括和擴展了這一領(lǐng)域的幾行工作。

3.1背景

圖形神經(jīng)網(wǎng)絡(luò)家族中的模型(Gori等人,2005年;Scarselli等人,2005年,2009年a;Li等人,2016年)已經(jīng)在不同的問題領(lǐng)域進行了探索,包括監(jiān)督、半監(jiān)督、無監(jiān)督和強化學(xué)習(xí)設(shè)置。它們在被認為具有豐富關(guān)系結(jié)構(gòu)的任務(wù)中非常有效,例如視覺場景理解任務(wù)(Raposo等人,2017年;Santoro等人,2017年)和few-shot學(xué)習(xí)(Garcia和Bruna,2018年)。它們還被用于學(xué)習(xí)物理系統(tǒng)的動力學(xué)(Battaglia等人,2016;Chang等人,2017;Watters等人,2017;van Steenkiste等人,2018;Sanchez Gonzalez等人,2018)和多智能體系統(tǒng)(Sukhbatar等人,2016;Hoshen,2017;Kipf等人,2018),推理知識圖(Bordes等人,2013年;O?noro Rubio等人,2017年;Hamaguchi等人,2017年),預(yù)測分子的化學(xué)性質(zhì)(Duvenaud等人,2015年;Gilmer等人,2017年),預(yù)測道路交通(Li等人,2017年;Cui等人,2018年),對圖像和視頻(Wang等人,2018c;Hu等人,2017)以及三維網(wǎng)格和點云(Wang等人,2018d)進行分類和分割,對圖像中的區(qū)域進行分類(Chen等人,2018a),執(zhí)行半監(jiān)督文本分類(Kipf和Welling,2017),以及機器平移(Vaswani等人,2017年;Shaw等人,2018年;Gulcehre等人,2018年)。它們被用于無模型(Wang等人,2018b)和基于模型(Hamrick等人,2017;Pascanu等人,2017;Sanchez-Gonzalez等人,2018)的連續(xù)控制、無模型強化學(xué)習(xí)(Hamrick等人,2018;Zambaldi等人,2018)以及更經(jīng)典的規(guī)劃方法(Toyer等人,2017)。

許多涉及離散實體和結(jié)構(gòu)推理的傳統(tǒng)計算機科學(xué)問題也已通過圖形神經(jīng)網(wǎng)絡(luò)進行了探索,如組合優(yōu)化(Bello et al.,2016;Nowak et al.,2017;Dai et al.,2017)、布爾可滿足性(Selsam et al.,2018),程序表示和驗證(Allamanis等人,2018;Li等人,2016),細胞自動機和圖靈機建模(Johnson,2017),以及在圖形模型中執(zhí)行推理(Yoon等人,2018)。最近的工作還側(cè)重于建立圖的生成模型(Li等人,2018;De Cao和Kipf,2018;You等人,2018;Bojchevski等人,2018),以及圖嵌入的無監(jiān)督學(xué)習(xí)(Perozzi等人,2014;Tang等人,2015;Grover和Leskovec,2016;Garc?a-Dur'an和Niepert,2017)。

上面引用的工作絕不是一個詳盡的列表,而是提供了圖形神經(jīng)網(wǎng)絡(luò)已被證明有用的領(lǐng)域?qū)挾鹊拇硇詸M截面。我們向感興趣的讀者介紹了一些現(xiàn)有的評論,這些評論更深入地研究了圖形神經(jīng)網(wǎng)絡(luò)的工作。特別是,Scarselli等人(2009a)提供了早期圖形神經(jīng)網(wǎng)絡(luò)方法的權(quán)威概述。Bronstein等人(2017年)對非歐幾里德數(shù)據(jù)的深度學(xué)習(xí)進行了出色的調(diào)查,并探索了圖形神經(jīng)網(wǎng)絡(luò)、圖形卷積網(wǎng)絡(luò)和相關(guān)光譜方法。最近,Gilmer等人(2017)介紹了消息傳遞神經(jīng)網(wǎng)絡(luò)(MPNN),通過類比圖形模型中的信息傳遞,統(tǒng)一了各種圖形神經(jīng)網(wǎng)絡(luò)和圖形卷積網(wǎng)絡(luò)方法(Monti et al.,2017;Bruna et al.,2014;Henaff et al.,2015;Defferard et al.,2016;Niepert et al.,2016;Kipf and Welling,2017;Bronstein et al.,2017)。類似地,Wang et al.(2018c)引入了非局部神經(jīng)網(wǎng)絡(luò)(NLNN),該網(wǎng)絡(luò)通過類比計算機視覺和圖形模型的方法,統(tǒng)一了各種“自注意”式方法(Vaswani et al.,2017;Hoshen,2017;Veliˇckovi'c et al.,2018),用于捕獲信號中的長距離依賴性。

3.2圖網(wǎng)絡(luò)(GN)塊

現(xiàn)在,我們提出了我們的圖網(wǎng)絡(luò)(GN)框架,它定義了一類用于圖結(jié)構(gòu)表示的關(guān)系推理的函數(shù)。我們的GN框架概括和擴展了各種圖形神經(jīng)網(wǎng)絡(luò)、MPNN和NLNN方法(Scarselli等人,2009a;Gilmer等人,2017;Wang等人,2018c),并支持從簡單的構(gòu)建塊構(gòu)建復(fù)雜的架構(gòu)。注意,我們避免在“圖網(wǎng)絡(luò)”標(biāo)簽中使用術(shù)語“神經(jīng)”,以反映它們可以用神經(jīng)網(wǎng)絡(luò)以外的函數(shù)實現(xiàn),盡管這里我們的重點是神經(jīng)網(wǎng)絡(luò)實現(xiàn)。

GN框架中的主要計算單元是GN塊,這是一個“圖對圖”模塊,它將圖形作為輸入,對結(jié)構(gòu)執(zhí)行計算,并將圖形作為輸出返回。如框3所述,實體由圖的節(jié)點表示,關(guān)系由邊表示,系統(tǒng)級屬性由全局屬性表示。GN框架的塊組織強調(diào)可定制性和合成新架構(gòu),以表達所需的關(guān)系歸納偏置。關(guān)鍵的設(shè)計原則是:靈活的表示(見第4.1節(jié));在區(qū)塊結(jié)構(gòu)內(nèi)可配置(見第4.2節(jié));和可組合的多塊架構(gòu)(見第4.3節(jié))。

我們將介紹一個激勵示例,以幫助使GN形式主義更具體??紤]在任意重力場中預(yù)測一組橡膠球的運動,而不是相互碰撞,每一個都有一個或多個彈簧將它們連接到一些(或全部)其它的。我們將在下面的定義中引用這個運行示例,以激發(fā)圖形表示和在其上運行的計算。圖2描述了一些其他常見場景,這些場景可以用圖形表示,并使用圖網(wǎng)絡(luò)進行推理。

3.2.1“圖形”的定義

在我們的GN框架中,圖被定義為3元組G=(u,V,E)(有關(guān)圖表示的詳細信息,請參見框3)。u是一個全局屬性;例如,u可能代表重力場。V={vi}i=1:Nv是節(jié)點集(基數(shù)Nv),其中每個vi是節(jié)點的屬性。例如,V可以表示每個球,具有位置、速度和質(zhì)量屬性。E={(ek,rk,sk)}k=1:Ne是邊的集合(基數(shù)Ne),其中每個ek是邊的屬性,rk是接收方節(jié)點的索引,sk是發(fā)送方節(jié)點的索引。例如,E可能表示不同球之間存在彈簧,以及相應(yīng)的彈簧常數(shù)。

方框3:我們對“圖”的定義

這里,我們使用“圖”來表示具有全局屬性的有向、有屬性的多重圖。在我們的術(shù)語中,節(jié)點表示為vi,邊表示為ek,全局屬性表示為u。我們還使用sk和rk分別表示邊k的發(fā)送方和接收方節(jié)點的索引(見下文)。更準(zhǔn)確地說,我們將這些術(shù)語定義為:定向:單向邊,從“發(fā)送方”節(jié)點到“接收方”節(jié)點。屬性:可以編碼為向量、集合甚至其他圖形的屬性。屬性化:邊和頂點具有與其關(guān)聯(lián)的屬性。全局屬性:圖形級屬性。多圖:頂點之間可以有多條邊,包括自邊。圖2顯示了與我們可能對建模感興趣的真實數(shù)據(jù)相對應(yīng)的各種不同類型的圖形,包括物理系統(tǒng)、分子、圖像和文本。

3.2.2 GN塊的內(nèi)部結(jié)構(gòu)

GN塊包含三個“更新”函數(shù)φ和三個“聚合”函數(shù)ρ,

其中E0i={(e0k,rk,sk)}rk=i,k=1:Ne,v0={v0i}i=1:Nv,E0=Si E0i={(e0k,rk,sk)}k=1:Ne。φe跨所有邊映射以計算每邊更新,φv跨所有節(jié)點映射以計算每節(jié)點更新,φu作為全局更新應(yīng)用一次。ρ函數(shù)都以一個集合作為輸入,并將其簡化為表示聚合信息的單個元素。關(guān)鍵的是,ρ函數(shù)必須對其輸入的排列保持不變,并且應(yīng)采用可變數(shù)量的參數(shù)(例如,元素求和、平均值、最大值等)。

3.2.GN塊內(nèi)的3個計算步驟

當(dāng)圖形G作為GN塊的輸入提供時,計算從邊開始,到節(jié)點,再到全局級別。圖3顯示了每個計算中涉及的圖形元素,圖4a顯示了完整的GN塊及其更新和聚合功能。算法1顯示了以下計算步驟:


1.φe應(yīng)用于每條邊,帶有參數(shù)(ek、vrk、vsk、u),并返回e0k。在我們的例子中,這可能對應(yīng)于兩個相連的球之間的力或勢能。每個節(jié)點i的結(jié)果每邊輸出集是E0i={(e0k,rk,sk)}rk=i,k=1:Ne。E0=Si E0i={(e0k,rk,sk)}k=1:Ne是所有每邊輸出的集合。

2.ρe→v應(yīng)用于E0i,并將投影到頂點i的邊的邊更新聚合到“E0i”中,該更新將在下一步的節(jié)點更新中使用。在我們的運行示例中,這可能對應(yīng)于作用在第i個球上的所有力或勢能的總和。

3.φv應(yīng)用于每個節(jié)點i,以計算更新的節(jié)點屬性v0i。在我們的跑步示例中,φv可以計算類似于每個球的更新位置、速度和動能。每節(jié)點輸出的結(jié)果集是,v0={v0i}i=1:Nv。

4.ρe→u應(yīng)用于E0,并將所有邊緣更新聚合為“E0”,然后在下一步的全局更新中使用。在我們的運行示例中,ρe→u可以計算合力(在這種情況下,根據(jù)牛頓第三定律,合力應(yīng)為零)和彈簧的勢能。

5.ρv→u應(yīng)用于V0,并將所有節(jié)點更新聚合到“V0”,然后將在下一步的全局更新中使用。在我們的運行示例中,ρv→u可以計算系統(tǒng)的總動能。

6.φu對每個圖形應(yīng)用一次,并計算全局屬性u0的更新。在我們的運行示例中,φu可能計算出與物理系統(tǒng)的凈力和總能量類似的東西。

注意,盡管我們在這里假設(shè)了這一系列步驟,但順序并沒有嚴格執(zhí)行:例如,可以反轉(zhuǎn)更新函數(shù),從全局更新到每節(jié)點更新,再到每邊更新。Kearnes等人(2016年)以類似的方式計算節(jié)點的邊緣更新。

3.2.圖網(wǎng)絡(luò)中的4個關(guān)系歸納偏置

我們的GN框架在用作學(xué)習(xí)過程中的組件時施加了幾個強關(guān)系歸納偏置。首先,圖形可以表示實體之間的任意關(guān)系,這意味著GN的輸入決定表示如何交互和隔離,而不是由固定的架構(gòu)決定這些選擇。例如,假設(shè)兩個實體具有關(guān)系,因此應(yīng)該相互作用,這一假設(shè)由實體對應(yīng)節(jié)點之間的邊表示。類似地,缺少邊表示節(jié)點之間沒有關(guān)系且不應(yīng)直接影響彼此的假設(shè)。

第二,圖將實體及其關(guān)系表示為集合,集合對置換是不變的。這意味著GNs對這些元素的順序保持不變6,這通常是可取的。例如,場景中的對象沒有自然順序(請參見第2.2節(jié))。

第三,GN的每邊和每節(jié)點函數(shù)分別在所有邊和節(jié)點上重用。這意味著GNs自動支持一種組合泛化形式(見第5.1節(jié)):因為圖形由邊、節(jié)點和全局特征組成,單個GN可以對不同大?。ㄟ吅凸?jié)點數(shù)量)和形狀(邊連通性)的圖形進行操作。

4圖網(wǎng)絡(luò)架構(gòu)的設(shè)計原則

根據(jù)上文第3.2節(jié)中列出的設(shè)計原則,GN框架可用于實現(xiàn)多種架構(gòu),這些原則也對應(yīng)于下文的小節(jié)(4.1、4.2和4.3)。一般來說,該框架對特定的屬性表示和函數(shù)形式是不可知的。然而,在這里,我們主要注意深度學(xué)習(xí)架構(gòu),它允許GNs充當(dāng)可學(xué)習(xí)的圖到圖函數(shù)近似器。

4.1靈活表述

圖網(wǎng)絡(luò)以兩種方式支持高度靈活的圖表示:第一,在屬性表示方面;第二,關(guān)于圖本身的結(jié)構(gòu)。

4.1.1屬性

GN塊的全局、節(jié)點和邊屬性可以使用任意表示格式。在深度學(xué)習(xí)實現(xiàn)中,實值向量和張量是最常見的。但是,也可以使用其他數(shù)據(jù)結(jié)構(gòu),例如序列、集合甚至圖形。

問題的需求通常會決定屬性應(yīng)該使用什么表示。例如,當(dāng)輸入數(shù)據(jù)是圖像時,屬性可以表示為圖像圖塊的張量;然而,當(dāng)輸入數(shù)據(jù)是文本文檔時,屬性可能是對應(yīng)于句子的單詞序列。

對于更廣泛架構(gòu)內(nèi)的每個GN塊,邊緣和節(jié)點輸出通常對應(yīng)于向量或張量列表,每個邊緣或節(jié)點一個,全局輸出對應(yīng)于單個向量或張量。這允許GN的輸出被傳遞到其他深度學(xué)習(xí)構(gòu)建塊,如MLP、CNN和RNN。

GN塊的輸出也可以根據(jù)任務(wù)的需求進行調(diào)整。特別地,

? 注意邊緣的GN使用邊緣作為輸出,例如,對實體之間的交互做出決策(Kipf等人,2018年;Hamrick等人,2018年)。

? 以節(jié)點為中心的GN使用節(jié)點作為輸出,例如對物理系統(tǒng)進行推理(Battaglia等人,2016;Chang等人,2017;Wang等人,2018b;Sanchez Gonzalez等人,2018)。

? 聚焦于圖形的GN使用全局作為輸出,例如預(yù)測物理系統(tǒng)的勢能(Battaglia et al.,2016)、分子的性質(zhì)(Gilmer et al.,2017)或?qū)σ曈X場景問題的回答(Santoro et al.,2017)。

節(jié)點、邊和全局輸出也可以根據(jù)任務(wù)進行混合和匹配。例如,Hamrick et al.(2018)使用輸出邊緣和全局屬性來計算針對行動的策略。

4.1.2圖結(jié)構(gòu)

在定義如何將輸入數(shù)據(jù)表示為圖形時,通常有兩種情況:第一,輸入明確指定關(guān)系結(jié)構(gòu);其次,必須推斷或假設(shè)關(guān)系結(jié)構(gòu)。這些并不是嚴格的區(qū)分,而是一個連續(xù)統(tǒng)的極端。

具有更明確指定實體和關(guān)系的數(shù)據(jù)示例包括知識圖、社交網(wǎng)絡(luò)、解析樹、優(yōu)化問題、化學(xué)圖、道路網(wǎng)絡(luò)和具有已知交互的物理系統(tǒng)。圖2a-d說明了如何將此類數(shù)據(jù)表示為圖形。

關(guān)系結(jié)構(gòu)不明確且必須推斷或假設(shè)的數(shù)據(jù)示例包括可視場景、文本語料庫、編程語言源代碼和多代理系統(tǒng)。在這些類型的設(shè)置中,數(shù)據(jù)可以被格式化為一組沒有關(guān)系的實體,或者甚至只是向量或張量(例如,圖像)。如果未明確指定實體,則可以假設(shè)它們,例如,通過將句子中的每個單詞(Vaswani et al.,2017)或CNN輸出特征圖中的每個局部特征向量視為節(jié)點(Watters et al.,2017;Santoro et al.,2017;Wang et al.,2018c)(圖2e-f)?;蛘撸梢允褂脝为毜膶W(xué)習(xí)機制從非結(jié)構(gòu)化信號中推斷實體(Luong等人,2015年;Mnih等人,2014年;Eslami等人,2016年;van Steenkiste等人,2018年)。如果關(guān)系不可用,最簡單的方法是實例化實體之間所有可能的有向邊(圖2f)。然而,這對于大量實體來說是禁止的,因為可能的邊的數(shù)量隨著節(jié)點的數(shù)量呈二次增長。因此,開發(fā)從非結(jié)構(gòu)化數(shù)據(jù)推斷稀疏結(jié)構(gòu)的更復(fù)雜方法(Kipf et al.,2018)是一個重要的未來方向。

4.2在塊結(jié)構(gòu)內(nèi)可配置

GN塊中的結(jié)構(gòu)和功能可以以不同的方式配置,這提供了靈活性,可以將哪些信息作為其功能的輸入,以及如何生成輸出邊緣、節(jié)點和全局更新。特別是,方程1中的每個φ都必須用函數(shù)f來實現(xiàn),其中f的參數(shù)簽名決定了它需要什么樣的信息作為輸入;在圖4中,每個φ的輸入箭頭表示是否將u、V和E作為輸入。Hamrick等人(2018年)和Sanchez Gonzalez等人(2018年)使用了圖4a所示的完整GN塊。他們的φ實現(xiàn)使用了神經(jīng)網(wǎng)絡(luò)(下面表示為NNe、NNv和NNu,以表明它們是具有不同參數(shù)的不同函數(shù))。他們的ρ實現(xiàn)使用元素求和,但也可以使用平均值和max/min,其中[x,y,z]表示向量/張量串聯(lián)。對于向量屬性,MLP通常用于φ,而對于張量(如圖像特征貼圖),CNN可能更適合。

φ函數(shù)也可以使用RNN,這需要額外的隱藏狀態(tài)作為輸入和輸出。圖4b顯示了一個非常簡單的GN塊版本,其中RNN作為φ函數(shù):在這個公式中沒有消息傳遞,這種類型的塊可能用于某些動態(tài)圖形狀態(tài)的循環(huán)平滑。當(dāng)然,RNN作為φ函數(shù)也可以在完整的GN塊中使用(圖4a)。

各種其他架構(gòu)可以在GN框架中表示,通常是不同的功能選擇和塊內(nèi)配置。剩下的小節(jié)將探討如何以不同的方式配置塊結(jié)構(gòu)中的GN,并舉例說明使用此類配置的已發(fā)布作品。詳情見附錄。

4.2.1消息傳遞神經(jīng)網(wǎng)絡(luò)(MPNN)

Gilmer等人(2017年)的MPNN概括了許多以前的架構(gòu),可以自然地轉(zhuǎn)化為GN形式主義。遵循MPNN論文的術(shù)語(見Gilmer等人(2017),第2-4頁):

? 消息函數(shù)Mt起GNφe的作用,但不將u作為輸入,

? 元素相加用于GN的ρe→五、? 更新函數(shù)Ut起著GN的φv的作用,

? 讀出函數(shù)R起著GN的φu的作用,但不將u或E0作為輸入,因此是對GN的ρe的模擬→u不是必需的;

? dmaster的用途與GN的u大致相似,但定義為連接到所有其他節(jié)點的額外節(jié)點,因此不會直接影響邊緣和全局更新。然后可以在GN的V中表示它。

圖4c顯示了MPNN是如何根據(jù)GN框架構(gòu)建的。有關(guān)詳細信息和各種MPNN架構(gòu),請參見附錄。

4.2.2非局部神經(jīng)網(wǎng)絡(luò)(NLNN)

Wang et al.(2018c)的NLNN統(tǒng)一了各種“內(nèi)部/自/頂點/圖形注意”方法(Lin et al.,2017;Vaswani et al.,2017;Hoshen,2017;Veliˇckovi'c et al.,2018;Shaw et al.,2018),也可以轉(zhuǎn)化為GN形式主義。標(biāo)簽“注意”是指節(jié)點如何更新:每個節(jié)點更新都基于其鄰居的節(jié)點屬性(某些函數(shù))的加權(quán)和,其中節(jié)點與其一個鄰居之間的權(quán)重由其屬性之間的標(biāo)量成對函數(shù)計算(然后在鄰居之間歸一化)。已發(fā)布的NLNN形式不明確包含邊,而是計算所有節(jié)點之間的成對注意權(quán)重。但各種符合NLNN的模型,如頂點注意交互網(wǎng)絡(luò)(Hoshen,2017)和圖形注意網(wǎng)絡(luò)(Veliˇckovi'c等人,2018),能夠通過有效地將不共享邊的節(jié)點之間的權(quán)重設(shè)置為零來處理顯式邊。

如圖4d和圖5所示,φe被分解成標(biāo)量成對相互作用函數(shù),該函數(shù)返回非歸一化注意項,表示為αe(vrk,vsk)=a0k,以及向量值非成對項,表示為βe(vsk)=b0k。在ρe中→v聚合時,a0k項在每個接收器的邊緣進行歸一化,b0k和元素相加:

在NLNN論文的術(shù)語中(見Wang等人(2018c),第2-4頁):

? 它們的f起著上述α的作用,

? 其g起上述β的作用。

此公式可能有助于僅注意與下游任務(wù)最相關(guān)的交互,尤其是當(dāng)輸入實體是一個集合時,通過在它們之間添加所有可能的邊形成一個圖形。

Vaswani等人(2017年)的多頭自注意機制增加了一個有趣的特征,其中φe和ρe→v由一組并行函數(shù)實現(xiàn),其結(jié)果作為ρe的最后一步連接在一起→五、這可以解釋為使用類型化邊,其中不同類型索引到不同的φe分量函數(shù),類似于Li等人(2016)。

有關(guān)詳細信息和各種NLNN架構(gòu),請參見附錄。

4.2.3其他圖網(wǎng)絡(luò)變體

如第4.1節(jié)所述,完整GN(方程式2)可用于預(yù)測完整圖或(u0,v0,E0)的任何子集。1.例如,要預(yù)測圖的全局屬性,可以忽略v0和E0。類似地,如果輸入中未指定全局、節(jié)點或邊屬性,則這些向量的長度可以為零,即不作為顯式輸入?yún)?shù)。同樣的想法也適用于不使用全套映射(φ)和歸約(ρ)函數(shù)的其他GN變體。例如,交互網(wǎng)絡(luò)(Battaglia et al.,2016;Watters et al.,2017)和神經(jīng)物理引擎(Chang et al.,2017)使用完整的GN,但由于缺乏全局更新邊緣屬性(詳見附錄)。

各種模型,包括CommNet(Sukhbatar et al.,2016)、structure2vec(Dai et al.,2016)(在(Dai et al.,2017)的版本中)和門控圖序列神經(jīng)網(wǎng)絡(luò)(Li et al.,2016)都使用了φe,它不直接計算成對交互,而是忽略接收節(jié)點,僅在發(fā)送方節(jié)點上操作,在某些情況下為邊緣屬性。這可以通過φe的實現(xiàn)來表示,具有以下簽名,例如:

詳見附錄。

關(guān)系網(wǎng)絡(luò)(Raposo et al.,2017;Santoro et al.,2017)完全繞過節(jié)點更新,直接從匯集的邊緣信息預(yù)測全局輸出(見圖4e),

深度集(Zaheer et al.,2017)完全繞過邊緣更新,直接從集合節(jié)點信息預(yù)測全局輸出(圖4f),

PointNet(Qi等人,2017年)使用類似的更新規(guī)則,ρv的最大聚合→u和兩步節(jié)點更新。

4.3可組合多塊架構(gòu)

圖網(wǎng)絡(luò)的一個關(guān)鍵設(shè)計原則是通過組合GN塊來構(gòu)造復(fù)雜的架構(gòu)。我們將GN塊定義為始終將由邊、節(jié)點和全局元素組成的圖作為輸入,并返回具有相同組成元素的圖作為輸出(當(dāng)這些元素未顯式更新時,只需將輸入元素傳遞到輸出)。該圖對圖輸入/輸出接口確保一個GN塊的輸出可以作為輸入傳遞給另一個GN塊,即使它們的內(nèi)部配置不同,類似于標(biāo)準(zhǔn)深度學(xué)習(xí)工具包的張量對張量接口。在最基本的形式中,兩個GN塊GN1和GN2可以組成GN1? 通過將第一個的輸出作為輸入傳遞給第二個:G0=GN2(GN1(G))。

可以組成任意數(shù)量的GN塊,如圖6a所示。這些塊可以是非共享的(不同的函數(shù)和/或參數(shù),類似于CNN的層),GN1=GN2=··6=GNM,或共享的(重用的函數(shù)和參數(shù),類似于展開的RNN),GN1=GN2=·GNM。圖6a中GNcore周圍的白色框表示M個重復(fù)的內(nèi)部處理子步驟,其中包含共享或非共享GN塊。共享配置類似于消息傳遞(Gilmer et al.,2017),其中重復(fù)應(yīng)用相同的本地更新過程以在整個結(jié)構(gòu)中傳播信息(圖7)。如果我們排除全局u(它聚合來自節(jié)點和邊的信息),則節(jié)點在m個傳播步驟后可以訪問的信息由最多m個跳躍的節(jié)點和邊集確定。這可以解釋為將復(fù)雜的計算分解為更小的基本步驟。這些步驟也可用于及時捕獲順序性。在我們的球彈簧示例中,如果每個傳播步驟預(yù)測持續(xù)時間的一個時間步驟的物理動力學(xué)?t、 然后,M個傳播步驟導(dǎo)致總模擬時間M·?T

一種常見的架構(gòu)設(shè)計是我們所稱的編碼過程解碼配置(Hamrick等人(2018年);另請參見圖6ba):輸入圖Ginp通過編碼器GNenc轉(zhuǎn)換為潛在表示G0;共享核心塊GNcore被應(yīng)用M次以返回GM;最后,輸出圖形Gout由GNdec解碼。例如,在我們的運行示例中,編碼器可能會計算球之間的初始力和交互能量,核心可能會應(yīng)用基本動力學(xué)更新,解碼器可能會從更新的圖形狀態(tài)中讀取最終位置。

與編碼-處理-解碼設(shè)計類似,通過維護隱藏圖Gt hid,將觀察圖Gt inp作為輸入,并在每個步驟上返回輸出圖Gt out,可以構(gòu)建基于GN的循環(huán)架構(gòu)(見圖6c)。這種類型的架構(gòu)對于預(yù)測圖形序列特別有用,例如預(yù)測動態(tài)系統(tǒng)隨時間的軌跡(例如Sanchez-Gonzalez等人,2018)。由GNenc輸出的編碼圖形必須具有與Gt hid相同的結(jié)構(gòu),并且在傳遞到GNcore之前,可以通過連接其相應(yīng)的ek、vi和u向量(其中向上箭頭合并到圖6c中的左側(cè)水平箭頭)輕松組合它們。對于輸出,Gt hid被復(fù)制(圖6c中右側(cè)水平箭頭拆分為向下箭頭)并由GNdec解碼。該設(shè)計以幾種方式重用GN塊:GNenc、GNdec和GNcore在每個步驟中共享,t;在每個步驟中,GNcore可以執(zhí)行多個共享子步驟。

用于設(shè)計基于GN的架構(gòu)的各種其他技術(shù)可能很有用。例如,Graph skip connections會在繼續(xù)進一步計算之前將GN塊的輸入圖Gm與其輸出圖Gm+1連接起來。如圖6c所示,合并和平滑輸入和隱藏的圖形信息可以使用LSTM或GRU樣式的選通方案,而不是簡單的串聯(lián)(Li等人,2016)?;蛘撸梢栽谄渌鸊N塊之前和/或之后組合不同的重復(fù)GN塊(如圖4b),以提高多個傳播步驟中表示的穩(wěn)定性(Sanchez-Gonzalez et al.,2018)。

4.4在代碼中實現(xiàn)圖網(wǎng)絡(luò)

與自然可并行(例如在GPU上)的CNN(見圖1)類似,GNs具有自然并行結(jié)構(gòu):由于方程1中的φe和φv函數(shù)分別在邊和節(jié)點上共享,因此可以并行計算。實際上,這意味著對于φe和φv,節(jié)點和邊可以像典型的小批量訓(xùn)練模式中的批量維度一樣處理。此外,通過將多個圖視為較大圖的不相交部分,可以將它們自然地批處理在一起。通過一些額外的簿記,這允許將在幾個獨立圖形上進行的計算批處理在一起。

重用φe和φv也提高了GNs的采樣效率。同樣,與卷積核類似,用于優(yōu)化GN的φe和φv函數(shù)的樣本數(shù)分別是所有訓(xùn)練圖中的邊和節(jié)點數(shù)。例如,在Sec的球示例中。3.2,一個有四個球的場景,所有球都由彈簧連接,將提供它們之間接觸交互的十二(4×3)個示例。

我們發(fā)布了一個用于構(gòu)建GNs的開源軟件庫,可以在這里找到:github。com/deepmind/graph-nets。有關(guān)概述,請參見方框4。

方框4:Graph Nets開源軟件庫:github。com/deepmind/graph-nets

我們發(fā)布了一個開源庫,用于在Tensorflow/Sonnet中構(gòu)建GNs。它包括如何在最短路徑查找任務(wù)、排序任務(wù)和物理預(yù)測任務(wù)中創(chuàng)建、操作和訓(xùn)練GNs對圖形結(jié)構(gòu)化數(shù)據(jù)進行推理的演示。每個演示都使用相同的GN架構(gòu),這突出了該方法的靈活性。

最短路徑演示:tinyurl。com/gn最短路徑演示

此演示創(chuàng)建隨機圖,并訓(xùn)練GN標(biāo)記任意兩個節(jié)點之間最短路徑上的節(jié)點和邊。通過一系列消息傳遞步驟(如每個步驟的圖所示),該模型改進了對最短路徑的預(yù)測。

排序演示:tinyurl。com/gn排序演示

此演示創(chuàng)建隨機數(shù)列表,并訓(xùn)練GN對列表進行排序。在一系列消息傳遞步驟之后,模型準(zhǔn)確預(yù)測哪些元素(圖中的列)緊隨其后(行)。

物理演示:tinyurl。com/gn物理演示

此演示創(chuàng)建隨機質(zhì)量彈簧物理系統(tǒng),并訓(xùn)練GN預(yù)測下一時間步系統(tǒng)的狀態(tài)。模型的下一步預(yù)測可以作為輸入反饋,以創(chuàng)建未來軌跡的展開。下面的每個子圖顯示了超過50個時間步的真實和預(yù)測的質(zhì)量彈簧系統(tǒng)狀態(tài)。這類似于(Battaglia等人,2016年)的“互動網(wǎng)絡(luò)”中的模型和實驗。

4.5摘要

在本節(jié)中,我們討論了圖網(wǎng)絡(luò)背后的設(shè)計原則:靈活的表示、塊結(jié)構(gòu)內(nèi)的可配置以及可組合的多塊架構(gòu)。這三個設(shè)計原則結(jié)合在我們的框架中,非常靈活,適用于感知、語言和符號推理等廣泛領(lǐng)域。而且,正如我們將在本文的其余部分中看到的,圖網(wǎng)絡(luò)所具有的強關(guān)系歸納偏置支持組合泛化,從而使其在實現(xiàn)和理論方面都成為一個強大的工具。

5討論

在本文中,我們分析了關(guān)系歸納偏置在深度學(xué)習(xí)架構(gòu)(如MLP、CNN和RNN)中的存在程度,并得出結(jié)論,盡管CNN和RNN確實包含關(guān)系歸納偏置,但它們無法自然地處理更結(jié)構(gòu)化的表示,如集或圖。我們主張通過強調(diào)一種被稱為圖網(wǎng)絡(luò)的未充分利用的深度學(xué)習(xí)構(gòu)建塊,在深度學(xué)習(xí)架構(gòu)中構(gòu)建更強的關(guān)系歸納偏置,該構(gòu)建塊對圖形結(jié)構(gòu)化數(shù)據(jù)執(zhí)行計算。我們的圖網(wǎng)絡(luò)框架統(tǒng)一了也在圖形上運行的現(xiàn)有方法,并為將圖網(wǎng)絡(luò)組裝成復(fù)雜、復(fù)雜的架構(gòu)提供了一個簡單的接口。

5.1圖網(wǎng)絡(luò)中的組合推廣

GNs的結(jié)構(gòu)自然支持組合泛化,因為它們不嚴格在系統(tǒng)級執(zhí)行計算,但也在實體和關(guān)系之間應(yīng)用共享計算。這使得人們可以對從未見過的系統(tǒng)進行推理,因為它們是由熟悉的組件構(gòu)建而成的,反映了馮·洪堡的“有限手段的無限使用”(洪堡,1836年;喬姆斯基,1965年)。

許多研究探索了GNs的組合泛化能力。Battaglia等人(2016年)發(fā)現(xiàn),接受過一步物理狀態(tài)預(yù)測訓(xùn)練的GNs可以模擬未來數(shù)千個時間步,還可以向物理系統(tǒng)展示準(zhǔn)確的零炮轉(zhuǎn)移,其實體數(shù)量是訓(xùn)練期間的兩倍或一半。Sanchez Gonzalez等人(2018)在更復(fù)雜的物理控制設(shè)置中發(fā)現(xiàn)了類似的結(jié)果,包括在模擬多關(guān)節(jié)代理上訓(xùn)練為正向模型的GNs可以推廣到具有新關(guān)節(jié)數(shù)的代理。Hamrick et al.(2018)和Wang et al.(2018b)都發(fā)現(xiàn)基于GN的決策政策也可以轉(zhuǎn)移到新數(shù)量的實體。在組合優(yōu)化問題中,Bello等人(2016);諾瓦克等人(2017年);戴等(2017);Kool和Welling(2018)表明,GNs可以很好地推廣到與他們接受過訓(xùn)練的問題規(guī)模大不相同的問題。類似地,Toyer等人(2017年)對不同規(guī)模的規(guī)劃問題進行了概括,Hamilton等人(2017年)對以前未看到的數(shù)據(jù)生成有用的節(jié)點嵌入進行了概括。關(guān)于布爾SAT問題,Selsam et al.(2018)證明了對不同問題規(guī)模和跨問題分布的泛化:在強烈修改輸入圖的分布及其典型局部結(jié)構(gòu)后,他們的模型保持了良好的性能??紤]到GNs以實體和關(guān)系為中心的組織,這些組合泛化的顯著例子并不完全令人驚訝,但仍然為以下觀點提供了重要支持:擁抱明確的結(jié)構(gòu)和靈活的學(xué)習(xí)是實現(xiàn)現(xiàn)代人工智能中更好的樣本效率和泛化的可行方法。

5.2圖網(wǎng)絡(luò)的限制

GNs和MPNNs的學(xué)習(xí)消息傳遞形式(Shervashidze et al.,2011)的一個限制是,它不能保證解決某些類別的問題,例如區(qū)分某些非同構(gòu)圖。Kondor等人(2018年)建議最好使用協(xié)變7(Cohen和Welling,2016;Kondor和Trivedi,2018),而不是節(jié)點和邊的排列不變性,并提出了“協(xié)變成分網(wǎng)絡(luò)”,它可以保留結(jié)構(gòu)信息,并允許僅在需要時忽略它。

更一般地說,盡管圖形是表示結(jié)構(gòu)信息的一種強大方式,但它們也有局限性。例如,遞歸、控制流和條件迭代等概念不容易用圖形表示,而且至少需要額外的假設(shè)(例如,在解釋抽象語法樹時)。程序和更多“類似計算機”的處理可以提供與這些概念相關(guān)的更大的代表性和計算表達能力,一些人認為它們是人類認知的重要組成部分(Tenenbaum et al.,2011;Lake et al.,2015;Goodman et al.,2015)。

5.3開放性問題

盡管我們對圖網(wǎng)絡(luò)可能產(chǎn)生的潛在影響感到興奮,但我們警告說,這些模型只是向前邁出了一步。實現(xiàn)圖網(wǎng)絡(luò)的全部潛力可能比在一個框架下組織它們的行為更具挑戰(zhàn)性,事實上,關(guān)于使用圖網(wǎng)絡(luò)的最佳方式,存在許多尚未回答的問題。

一個緊迫的問題是:圖網(wǎng)絡(luò)從何而來?深度學(xué)習(xí)的一個特點是它能夠?qū)υ几泄贁?shù)據(jù)(如圖像和文本)執(zhí)行復(fù)雜的計算,但目前尚不清楚將感官數(shù)據(jù)轉(zhuǎn)換為圖形等更結(jié)構(gòu)化表示的最佳方法。一種方法(我們已經(jīng)討論過)假設(shè)空間或語言實體之間存在完全連通的圖形結(jié)構(gòu),如關(guān)于自注意的文獻(Vaswani et al.,2017;Wang et al.,2018c)。然而,這種表示可能不完全對應(yīng)于“真實”實體(例如,卷積特征不直接對應(yīng)于場景中的對象)。此外,許多底層圖結(jié)構(gòu)比完全連通圖要稀疏得多,如何歸納這種稀疏性是一個懸而未決的問題。一些活躍的研究正在探索這些問題(Watters等人,2017年;van Steenkiste等人,2018年;Li等人,2018年;Kipf等人,2018年),但到目前為止,還沒有一種方法能夠可靠地從感官數(shù)據(jù)中提取離散實體。開發(fā)這樣一種方法對未來的研究來說是一個令人興奮的挑戰(zhàn),一旦解決,可能會為更強大、更靈活的推理算法打開大門。

一個相關(guān)的問題是如何在計算過程中自適應(yīng)地修改圖結(jié)構(gòu)。例如,如果一個對象拆分為多個片段,則表示該對象的節(jié)點也應(yīng)拆分為多個節(jié)點。類似地,僅表示接觸對象之間的邊可能很有用,因此需要能夠根據(jù)上下文添加或刪除邊。如何支持這種適應(yīng)性的問題也在積極研究中,特別是用于識別圖形底層結(jié)構(gòu)的一些方法可能適用(例如,Li等人,2018年;Kipf等人,2018年)。

人類認知強烈地假設(shè)世界是由對象和關(guān)系組成的(Spelke和Kinzler,2007),由于GNs做出了類似的假設(shè),它們的行為往往更易于解釋。GNs操作的實體和關(guān)系通常對應(yīng)于人類理解的事物(如物理對象),從而支持更可解釋的分析和可視化(如Selsam et al.,2018)。未來工作的一個有趣方向是進一步探索圖網(wǎng)絡(luò)行為的可解釋性。

5.4學(xué)習(xí)和結(jié)構(gòu)的綜合方法

雖然我們在這里的重點一直是圖形,但本文中的一個收獲不是關(guān)于圖形本身,而是關(guān)于將強大的深度學(xué)習(xí)方法與結(jié)構(gòu)化表示相結(jié)合的方法。我們對其他類型的結(jié)構(gòu)化表示和計算的相關(guān)方法感到興奮,例如語言樹(Socher等人,2011a,b,2012,2013;Tai等人,2015;Andreas等人,2016),狀態(tài)動作圖中的部分樹遍歷(Guez等人,2018;Farquhar等人,2018),分層行動政策(Andreas等人,2017年)、多代理溝通渠道(Foerster等人,2016年)、“膠囊”(Sabour等人,2017年)和計劃(Parisotto等人,2017年)。其他方法試圖通過模擬計算機中的關(guān)鍵硬件和軟件組件以及它們?nèi)绾卧诒舜酥g傳輸信息來捕獲不同類型的結(jié)構(gòu),例如持久時隙存儲、寄存器、內(nèi)存I/O控制器、堆棧、,和排隊(例如Dyer等人,2015年;Grefenstette等人,2015年;Joulin和Mikolov,2015年;Sukhbatar等人,2015年;Kurach等人,2016年;Graves等人,2016年)。

5.5結(jié)論

在深度學(xué)習(xí)的推動下,人工智能的最新進展已經(jīng)在許多重要領(lǐng)域發(fā)生了變革。盡管如此,人類和機器智能之間仍然存在巨大的差距,特別是在高效、可推廣的學(xué)習(xí)方面。我們主張將組合泛化作為人工智能的首要任務(wù),并主張采用綜合方法,這些方法借鑒了人類認知、傳統(tǒng)計算機科學(xué)、標(biāo)準(zhǔn)工程實踐和現(xiàn)代深度學(xué)習(xí)的思想。在這里,我們探索了靈活的基于學(xué)習(xí)的方法,這些方法實現(xiàn)了強關(guān)系歸納偏置,以利用顯式結(jié)構(gòu)化表示和計算,并提出了一個稱為圖網(wǎng)絡(luò)的框架,該框架概括和擴展了應(yīng)用于圖的神經(jīng)網(wǎng)絡(luò)的各種最新方法。圖網(wǎng)絡(luò)旨在促進使用可定制的圖到圖構(gòu)建塊構(gòu)建復(fù)雜架構(gòu),它們的關(guān)系歸納偏置促進組合泛化,并提高了與其他標(biāo)準(zhǔn)機器學(xué)習(xí)構(gòu)建塊相比的樣本效率。

然而,盡管有其優(yōu)點和潛力,可學(xué)習(xí)的圖形模型只是人類智能道路上的一塊墊腳石。我們對許多其他相關(guān)但可能未得到充分重視的研究方向持樂觀態(tài)度,包括將基于學(xué)習(xí)的方法與課程相結(jié)合(Ritchie等人,2016年;Andreas等人,2016年;Gaunt等人,2016年;Evans和Grefenstette,2018年;Evans等人,2018年),開發(fā)以抽象為重點的基于模型的方法(Kansky等人,2017年;Konidaris等人,2018年;Zhang等人,2018年;Hay等人,2018年),加大對元學(xué)習(xí)的投資(Wang等人,2016年,2018a;Finn等人,2017年),探索多智能體學(xué)習(xí)和交互作為高級智能的關(guān)鍵催化劑(Nowak,2006;Ohtsuki等人,2006)。這些方向都涉及實體、關(guān)系和組合泛化的豐富概念,并且可能受益于與學(xué)習(xí)顯式結(jié)構(gòu)化表示的關(guān)系推理方法的更多交互。感謝Tobias Pfaff、Danilo Rezende、Nando de Freitas、Murray Shanahan、Thore Graepel、John Jupper、Demis Hassabis以及更廣泛的DeepMind和Google社區(qū)提供了寶貴的反饋和支持。

附錄:附加模型的公式

在本附錄中,我們將給出更多示例,說明已發(fā)布的網(wǎng)絡(luò)如何適應(yīng)方程式1定義的框架。

交互網(wǎng)絡(luò)

交互網(wǎng)絡(luò)(Battaglia et al.,2016;Watters et al.,2017)和神經(jīng)物理引擎Chang et al.(2017)使用完整的GN,但由于缺少全局更新邊緣屬性:該工作還包括對上述公式的擴展,該公式輸出全局預(yù)測,而不是每個節(jié)點預(yù)測:

非成對相互作用

門控圖序列神經(jīng)網(wǎng)絡(luò)(GGS-NN)(Li et al.,2016)使用稍微廣義的公式,其中每條邊都有一個附加類型tk∈ {1,…,T},更新為:

重復(fù)應(yīng)用這些更新(NNv是GRU(Cho等人,2014)),然后是一個全局解碼器,該解碼器計算嵌入式最終節(jié)點狀態(tài)的加權(quán)和。這里,每個NNe、tk都是一個具有特定參數(shù)的神經(jīng)網(wǎng)絡(luò)。

CommNet(Sukhbatar等人,2016年)(以(Hoshen,2017年)所述的更一般的形式)使用:

基于注意的方法

Transformer架構(gòu)(Vaswani et al.,2017)中的單頭自注意(SA)實現(xiàn)了非局部公式:其中NNα查詢、NNα鍵和NNβ同樣是具有不同參數(shù)和可能不同架構(gòu)的神經(jīng)網(wǎng)絡(luò)函數(shù)。他們還使用一個多標(biāo)題版本,該版本使用不同的NNα查詢h、NNα鍵h、NNβh計算Nh并行“e0ih”,其中h對不同的參數(shù)進行索引。這些將傳遞給f v并連接:

頂點注意交互網(wǎng)絡(luò)(Hoshen,2017)與單頭SA非常相似,但使用歐幾里德距離作為注意相似性度量,在注意輸入的嵌入中使用共享參數(shù),并在節(jié)點更新功能中使用輸入節(jié)點功能,

圖形注意網(wǎng)絡(luò)(Veliˇckovi'c et al.,2018)也類似于多頭SA,但使用神經(jīng)網(wǎng)絡(luò)作為注意相似性度量,在注意輸入的嵌入中共享參數(shù):

Shaw等人(2018)擴展了具有相對位置編碼的多頭SA,超越了特定的非局部公式?!跋鄬Α笔侵感蛄兄泄?jié)點之間的空間距離編碼或度量空間中的其他信號。這可以用GN語言表示為邊緣屬性ek,并將上述多頭SA中的βe(vsk)替換為:

信念傳播嵌入

最后,我們簡要總結(jié)了Dai等人(2016)的通用“structure2vec”算法如何適合我們的框架。為此,我們需要稍微修改主方程1,即:

邊緣的特征現(xiàn)在在接收者和發(fā)送者之間具有“消息”的含義;請注意,對于邊和節(jié)點更新,只有一組參數(shù)需要學(xué)習(xí)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容