節(jié)點(diǎn)分類(lèi)論文筆記

1 Disambiguated Node Classification with Graph Neural Networks

截屏2024-10-09 下午8.13.42.png

(待續(xù))

2 LABEL-FREE NODE CLASSIFICATION ON GRAPHS

WITH LARGE LANGUAGE MODELS (LLMS)(ICLR 2024)


截屏2024-10-09 下午8.15.11.png

本文通過(guò)結(jié)合LLMs和GNNs的優(yōu)勢(shì),為圖上無(wú)標(biāo)簽節(jié)點(diǎn)分類(lèi)任務(wù)提供了一種高效且成本效益高的解決方案。LLM-GNN不僅提高了節(jié)點(diǎn)分類(lèi)的準(zhǔn)確性,還降低了對(duì)大量高質(zhì)量標(biāo)簽的依賴(lài),從而在實(shí)際應(yīng)用中具有更廣泛的適用性。
GNN訓(xùn)練需要大量真實(shí)標(biāo)注,而LLMs雖然不需要標(biāo)注,在處理圖結(jié)構(gòu)和大規(guī)模數(shù)據(jù)集時(shí)存在局限性。本文中通過(guò)研究利用LLMs的零樣本學(xué)習(xí)能力來(lái)緩解GNNs對(duì)大量訓(xùn)練數(shù)據(jù)的需求,其中面臨的挑戰(zhàn)是,在利用LLMs進(jìn)行標(biāo)注時(shí)對(duì)于產(chǎn)生噪聲標(biāo)簽的處理。對(duì)于這一挑戰(zhàn),本文提出以下策略:設(shè)計(jì)合適的prompt和選擇高質(zhì)量的訓(xùn)練節(jié)點(diǎn)。與傳統(tǒng)的圖主動(dòng)節(jié)點(diǎn)選擇方法不同,LLM-GNN考慮了LLMs對(duì)節(jié)點(diǎn)標(biāo)注的難度,從而主動(dòng)選擇節(jié)點(diǎn)。然后,它利用LLMs生成帶有置信度感知的標(biāo)注,并利用置信度分?jǐn)?shù)作為后過(guò)濾步驟來(lái)進(jìn)一步提高標(biāo)注的質(zhì)量。

2.1 方法

  • 難度感知的節(jié)點(diǎn)選擇:除了考慮節(jié)點(diǎn)的多樣性和代表性,LLM-GNN還考慮了標(biāo)注質(zhì)量,引入了一種難度感知的啟發(fā)式方法,關(guān)聯(lián)了標(biāo)注質(zhì)量和特征密度。
  • 置信度感知的標(biāo)注:選出節(jié)點(diǎn)集合之后,LLM-GNN利用LLMs強(qiáng)大的零樣本能力對(duì)這些節(jié)點(diǎn)進(jìn)行帶有置信度的標(biāo)注。置信度分有助于識(shí)別標(biāo)注質(zhì)量,從噪聲中篩選出高質(zhì)量標(biāo)簽。
  • 可選的后過(guò)濾階段:為L(zhǎng)LM-GNN所特有,目標(biāo)是過(guò)濾掉低質(zhì)量的標(biāo)注。
    工作流程整體示意圖

2.1.1 難度感知的節(jié)點(diǎn)選擇

通過(guò)對(duì)LLM標(biāo)注的初步調(diào)查發(fā)現(xiàn),LLMs標(biāo)注的準(zhǔn)確性與節(jié)點(diǎn)的聚類(lèi)密度密切相關(guān)。
從整個(gè)數(shù)據(jù)集中抽取1000個(gè)節(jié)點(diǎn),為了將它們送入大模型進(jìn)行標(biāo)注。這些節(jié)點(diǎn)根據(jù)它們最近的聚類(lèi)中心被分為了等大的10組。距離聚類(lèi)中心越近,預(yù)示著標(biāo)注質(zhì)量越高,也就是標(biāo)注難度越低。接下來(lái),利用這個(gè)距離來(lái)近似標(biāo)注的可靠性,并稱(chēng)之為C-Density:
C-Density=\frac{1}{1+||x_{v_i}-x_{CC_{v_i}}||}
其中,v_i為任意節(jié)點(diǎn),它的聚類(lèi)中心為CC_{v_i}x_{v_i}表示節(jié)點(diǎn)v_i的特征。傳統(tǒng)的圖主動(dòng)學(xué)習(xí)方法用f_{act}(v_i)表示分?jǐn)?shù),為了將其與難度感知聯(lián)合起來(lái),我們將其表示為由高到低排名的形式r_{f_{act}}(v_i),將難度感知得分也表示為排名r_{C-Density}(v_i),然后計(jì)算聯(lián)合分?jǐn)?shù):
f_{DA-act}(v_i)=\alpha_0\times r_{f_{act}}(v_i)+\alpha_1\times r_{C-Density}(v_i)
最后,聯(lián)合分?jǐn)?shù)高的節(jié)點(diǎn)v_i將被選出送入大模型。

LLMs vs. 聚類(lèi)中心距離和標(biāo)注準(zhǔn)確性關(guān)系圖

2.1.2 置信度與可靠性方法

本文研究了以下幾種策略:

  • 直接詢(xún)問(wèn)置信度,記為“Vanilla(零樣本)”。
  • 基于推理的提示來(lái)生成標(biāo)注,包括思維鏈(chain-of-thought)和多步推理(multi-step)。
  • TopK提示,讓LLMs生成K個(gè)可能的答案,選擇最可能的一個(gè)作為答案。
  • 基于一致性的提示,多次查詢(xún)大模型,選擇最常見(jiàn)的輸出作為答案,記為“最多投票”。
  • 混合提示,結(jié)合了TopK提示和基于一致性的提示。

結(jié)論:

  • 大模型在所有數(shù)據(jù)集上都表現(xiàn)出良好的零樣本預(yù)測(cè)性能,這表明大模型可能是潛在的優(yōu)秀標(biāo)注器。
  • 與零樣本提示相比,帶有少量樣本演示的提示可以略微提高性能,但成本加倍。
  • 零樣本混合策略是提取高質(zhì)量注解的最有效方法,因?yàn)橹眯哦瓤梢院芎玫刂甘咀⒔獾馁|(zhì)量。因此,我們?cè)诤罄m(xù)研究中采用了零樣本混合提示。


    置信度與可靠性研究實(shí)驗(yàn)結(jié)果

2.1.3 后過(guò)濾(Post-Filtering)

直接過(guò)濾掉低置信度節(jié)點(diǎn)可能導(dǎo)致標(biāo)簽分布偏移,降低所選節(jié)點(diǎn)的多樣性,從而影響后續(xù)訓(xùn)練模型的性能。為了衡量某個(gè)節(jié)點(diǎn)對(duì)多樣性的影響,我們提出了熵變化(COE)方法。假定目前選擇的節(jié)點(diǎn)集合為\mathcal{V}_{sel},那么COE可以通過(guò)下式計(jì)算:
COE(v_i)=H(\widetilde{y}_{\mathcal{V}_{sel}-{v_i}})-H(\widetilde{y}_{\mathcal{V}_{sel}})其中H()是Shannon熵函數(shù),\widetilde{y}表示LLMs生成的注釋。COE(v_i)的值可能為正或負(fù),較小的值表明移除該節(jié)點(diǎn)可能對(duì)所選集的多樣性產(chǎn)生不利影響,可能損害訓(xùn)練模型的性能。
另外一個(gè)評(píng)價(jià)指標(biāo)是綜合過(guò)濾分?jǐn)?shù)f_{conf(v_i)},它基于下式計(jì)算:
f_{filter}(v_i)=\beta_0\times r_{f_{conf}(v_i)}+\beta_1\times r_{COE(v_i)}+\beta_2\times r_{C-Density}(v_i)

不同節(jié)點(diǎn)選擇策略的實(shí)驗(yàn)結(jié)果

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容