1 Disambiguated Node Classification with Graph Neural Networks

(待續(xù))
2 LABEL-FREE NODE CLASSIFICATION ON GRAPHS
WITH LARGE LANGUAGE MODELS (LLMS)(ICLR 2024)

本文通過(guò)結(jié)合LLMs和GNNs的優(yōu)勢(shì),為圖上無(wú)標(biāo)簽節(jié)點(diǎn)分類(lèi)任務(wù)提供了一種高效且成本效益高的解決方案。LLM-GNN不僅提高了節(jié)點(diǎn)分類(lèi)的準(zhǔn)確性,還降低了對(duì)大量高質(zhì)量標(biāo)簽的依賴(lài),從而在實(shí)際應(yīng)用中具有更廣泛的適用性。
GNN訓(xùn)練需要大量真實(shí)標(biāo)注,而LLMs雖然不需要標(biāo)注,在處理圖結(jié)構(gòu)和大規(guī)模數(shù)據(jù)集時(shí)存在局限性。本文中通過(guò)研究利用LLMs的零樣本學(xué)習(xí)能力來(lái)緩解GNNs對(duì)大量訓(xùn)練數(shù)據(jù)的需求,其中面臨的挑戰(zhàn)是,在利用LLMs進(jìn)行標(biāo)注時(shí)對(duì)于產(chǎn)生噪聲標(biāo)簽的處理。對(duì)于這一挑戰(zhàn),本文提出以下策略:設(shè)計(jì)合適的prompt和選擇高質(zhì)量的訓(xùn)練節(jié)點(diǎn)。與傳統(tǒng)的圖主動(dòng)節(jié)點(diǎn)選擇方法不同,LLM-GNN考慮了LLMs對(duì)節(jié)點(diǎn)標(biāo)注的難度,從而主動(dòng)選擇節(jié)點(diǎn)。然后,它利用LLMs生成帶有置信度感知的標(biāo)注,并利用置信度分?jǐn)?shù)作為后過(guò)濾步驟來(lái)進(jìn)一步提高標(biāo)注的質(zhì)量。
2.1 方法
- 難度感知的節(jié)點(diǎn)選擇:除了考慮節(jié)點(diǎn)的多樣性和代表性,LLM-GNN還考慮了標(biāo)注質(zhì)量,引入了一種難度感知的啟發(fā)式方法,關(guān)聯(lián)了標(biāo)注質(zhì)量和特征密度。
- 置信度感知的標(biāo)注:選出節(jié)點(diǎn)集合之后,LLM-GNN利用LLMs強(qiáng)大的零樣本能力對(duì)這些節(jié)點(diǎn)進(jìn)行帶有置信度的標(biāo)注。置信度分有助于識(shí)別標(biāo)注質(zhì)量,從噪聲中篩選出高質(zhì)量標(biāo)簽。
-
可選的后過(guò)濾階段:為L(zhǎng)LM-GNN所特有,目標(biāo)是過(guò)濾掉低質(zhì)量的標(biāo)注。
工作流程整體示意圖
2.1.1 難度感知的節(jié)點(diǎn)選擇
通過(guò)對(duì)LLM標(biāo)注的初步調(diào)查發(fā)現(xiàn),LLMs標(biāo)注的準(zhǔn)確性與節(jié)點(diǎn)的聚類(lèi)密度密切相關(guān)。
從整個(gè)數(shù)據(jù)集中抽取1000個(gè)節(jié)點(diǎn),為了將它們送入大模型進(jìn)行標(biāo)注。這些節(jié)點(diǎn)根據(jù)它們最近的聚類(lèi)中心被分為了等大的10組。距離聚類(lèi)中心越近,預(yù)示著標(biāo)注質(zhì)量越高,也就是標(biāo)注難度越低。接下來(lái),利用這個(gè)距離來(lái)近似標(biāo)注的可靠性,并稱(chēng)之為C-Density:
其中,為任意節(jié)點(diǎn),它的聚類(lèi)中心為
,
表示節(jié)點(diǎn)
的特征。傳統(tǒng)的圖主動(dòng)學(xué)習(xí)方法用
表示分?jǐn)?shù),為了將其與難度感知聯(lián)合起來(lái),我們將其表示為由高到低排名的形式
,將難度感知得分也表示為排名
,然后計(jì)算聯(lián)合分?jǐn)?shù):
最后,聯(lián)合分?jǐn)?shù)高的節(jié)點(diǎn)將被選出送入大模型。

2.1.2 置信度與可靠性方法
本文研究了以下幾種策略:
- 直接詢(xún)問(wèn)置信度,記為“Vanilla(零樣本)”。
- 基于推理的提示來(lái)生成標(biāo)注,包括思維鏈(chain-of-thought)和多步推理(multi-step)。
- TopK提示,讓LLMs生成K個(gè)可能的答案,選擇最可能的一個(gè)作為答案。
- 基于一致性的提示,多次查詢(xún)大模型,選擇最常見(jiàn)的輸出作為答案,記為“最多投票”。
- 混合提示,結(jié)合了TopK提示和基于一致性的提示。
結(jié)論:
- 大模型在所有數(shù)據(jù)集上都表現(xiàn)出良好的零樣本預(yù)測(cè)性能,這表明大模型可能是潛在的優(yōu)秀標(biāo)注器。
- 與零樣本提示相比,帶有少量樣本演示的提示可以略微提高性能,但成本加倍。
-
零樣本混合策略是提取高質(zhì)量注解的最有效方法,因?yàn)橹眯哦瓤梢院芎玫刂甘咀⒔獾馁|(zhì)量。因此,我們?cè)诤罄m(xù)研究中采用了零樣本混合提示。
置信度與可靠性研究實(shí)驗(yàn)結(jié)果
2.1.3 后過(guò)濾(Post-Filtering)
直接過(guò)濾掉低置信度節(jié)點(diǎn)可能導(dǎo)致標(biāo)簽分布偏移,降低所選節(jié)點(diǎn)的多樣性,從而影響后續(xù)訓(xùn)練模型的性能。為了衡量某個(gè)節(jié)點(diǎn)對(duì)多樣性的影響,我們提出了熵變化(COE)方法。假定目前選擇的節(jié)點(diǎn)集合為,那么COE可以通過(guò)下式計(jì)算:
其中H()是Shannon熵函數(shù),
表示LLMs生成的注釋。
的值可能為正或負(fù),較小的值表明移除該節(jié)點(diǎn)可能對(duì)所選集的多樣性產(chǎn)生不利影響,可能損害訓(xùn)練模型的性能。
另外一個(gè)評(píng)價(jià)指標(biāo)是綜合過(guò)濾分?jǐn)?shù),它基于下式計(jì)算:


