亚洲制服久久,小明中文字幕,情侣91av在线

1 Disambiguated Node Classification with Graph Neural Networks

截屏2024-10-09 下午8.13.42.png

（待續(xù)）

2 LABEL-FREE NODE CLASSIFICATION ON GRAPHS

WITH LARGE LANGUAGE MODELS (LLMS)(ICLR 2024)

截屏2024-10-09 下午8.15.11.png

本文通過(guò)結(jié)合LLMs和GNNs的優(yōu)勢(shì)，為圖上無(wú)標(biāo)簽節(jié)點(diǎn)分類(lèi)任務(wù)提供了一種高效且成本效益高的解決方案。LLM-GNN不僅提高了節(jié)點(diǎn)分類(lèi)的準(zhǔn)確性，還降低了對(duì)大量高質(zhì)量標(biāo)簽的依賴(lài)，從而在實(shí)際應(yīng)用中具有更廣泛的適用性。
GNN訓(xùn)練需要大量真實(shí)標(biāo)注，而LLMs雖然不需要標(biāo)注，在處理圖結(jié)構(gòu)和大規(guī)模數(shù)據(jù)集時(shí)存在局限性。本文中通過(guò)研究利用LLMs的零樣本學(xué)習(xí)能力來(lái)緩解GNNs對(duì)大量訓(xùn)練數(shù)據(jù)的需求，其中面臨的挑戰(zhàn)是，在利用LLMs進(jìn)行標(biāo)注時(shí)對(duì)于產(chǎn)生噪聲標(biāo)簽的處理。對(duì)于這一挑戰(zhàn)，本文提出以下策略：設(shè)計(jì)合適的prompt和選擇高質(zhì)量的訓(xùn)練節(jié)點(diǎn)。與傳統(tǒng)的圖主動(dòng)節(jié)點(diǎn)選擇方法不同，LLM-GNN考慮了LLMs對(duì)節(jié)點(diǎn)標(biāo)注的難度，從而主動(dòng)選擇節(jié)點(diǎn)。然后，它利用LLMs生成帶有置信度感知的標(biāo)注，并利用置信度分?jǐn)?shù)作為后過(guò)濾步驟來(lái)進(jìn)一步提高標(biāo)注的質(zhì)量。

2.1 方法

難度感知的節(jié)點(diǎn)選擇：除了考慮節(jié)點(diǎn)的多樣性和代表性，LLM-GNN還考慮了標(biāo)注質(zhì)量，引入了一種難度感知的啟發(fā)式方法，關(guān)聯(lián)了標(biāo)注質(zhì)量和特征密度。
置信度感知的標(biāo)注：選出節(jié)點(diǎn)集合之后，LLM-GNN利用LLMs強(qiáng)大的零樣本能力對(duì)這些節(jié)點(diǎn)進(jìn)行帶有置信度的標(biāo)注。置信度分有助于識(shí)別標(biāo)注質(zhì)量，從噪聲中篩選出高質(zhì)量標(biāo)簽。
可選的后過(guò)濾階段：為L(zhǎng)LM-GNN所特有，目標(biāo)是過(guò)濾掉低質(zhì)量的標(biāo)注。

工作流程整體示意圖

2.1.1 難度感知的節(jié)點(diǎn)選擇

通過(guò)對(duì)LLM標(biāo)注的初步調(diào)查發(fā)現(xiàn)，LLMs標(biāo)注的準(zhǔn)確性與節(jié)點(diǎn)的聚類(lèi)密度密切相關(guān)。
從整個(gè)數(shù)據(jù)集中抽取1000個(gè)節(jié)點(diǎn)，為了將它們送入大模型進(jìn)行標(biāo)注。這些節(jié)點(diǎn)根據(jù)它們最近的聚類(lèi)中心被分為了等大的10組。距離聚類(lèi)中心越近，預(yù)示著標(biāo)注質(zhì)量越高，也就是標(biāo)注難度越低。接下來(lái)，利用這個(gè)距離來(lái)近似標(biāo)注的可靠性，并稱(chēng)之為C-Density：
$C-Density=\frac{1}{1+||x_{v_i}-x_{CC_{v_i}}||}$
其中， $v_i$ 為任意節(jié)點(diǎn)，它的聚類(lèi)中心為 $CC_{v_i}$ ， $x_{v_i}$ 表示節(jié)點(diǎn) $v_i$ 的特征。傳統(tǒng)的圖主動(dòng)學(xué)習(xí)方法用 $f_{act}(v_i)$ 表示分?jǐn)?shù)，為了將其與難度感知聯(lián)合起來(lái)，我們將其表示為由高到低排名的形式 $r_{f_{act}}(v_i)$ ，將難度感知得分也表示為排名 $r_{C-Density}(v_i)$ ，然后計(jì)算聯(lián)合分?jǐn)?shù)：
$f_{DA-act}(v_i)=\alpha_0\times r_{f_{act}}(v_i)+\alpha_1\times r_{C-Density}(v_i)$
最后，聯(lián)合分?jǐn)?shù)高的節(jié)點(diǎn) $v_i$ 將被選出送入大模型。

LLMs vs. 聚類(lèi)中心距離和標(biāo)注準(zhǔn)確性關(guān)系圖

2.1.2 置信度與可靠性方法

本文研究了以下幾種策略：

直接詢(xún)問(wèn)置信度，記為“Vanilla（零樣本）”。
基于推理的提示來(lái)生成標(biāo)注，包括思維鏈（chain-of-thought）和多步推理（multi-step）。
TopK提示，讓LLMs生成K個(gè)可能的答案，選擇最可能的一個(gè)作為答案。
基于一致性的提示，多次查詢(xún)大模型，選擇最常見(jiàn)的輸出作為答案，記為“最多投票”。
混合提示，結(jié)合了TopK提示和基于一致性的提示。

結(jié)論：

大模型在所有數(shù)據(jù)集上都表現(xiàn)出良好的零樣本預(yù)測(cè)性能，這表明大模型可能是潛在的優(yōu)秀標(biāo)注器。
與零樣本提示相比，帶有少量樣本演示的提示可以略微提高性能，但成本加倍。
零樣本混合策略是提取高質(zhì)量注解的最有效方法，因?yàn)橹眯哦瓤梢院芎玫刂甘咀⒔獾馁|(zhì)量。因此，我們?cè)诤罄m(xù)研究中采用了零樣本混合提示。

置信度與可靠性研究實(shí)驗(yàn)結(jié)果

2.1.3 后過(guò)濾（Post-Filtering）

直接過(guò)濾掉低置信度節(jié)點(diǎn)可能導(dǎo)致標(biāo)簽分布偏移，降低所選節(jié)點(diǎn)的多樣性，從而影響后續(xù)訓(xùn)練模型的性能。為了衡量某個(gè)節(jié)點(diǎn)對(duì)多樣性的影響，我們提出了熵變化（COE）方法。假定目前選擇的節(jié)點(diǎn)集合為 $\mathcal{V}_{sel}$ ，那么COE可以通過(guò)下式計(jì)算：
$COE(v_i)=H(\widetilde{y}_{\mathcal{V}_{sel}-{v_i}})-H(\widetilde{y}_{\mathcal{V}_{sel}})$ 其中H()是Shannon熵函數(shù)， $\widetilde{y}$ 表示LLMs生成的注釋。 $COE(v_i)$ 的值可能為正或負(fù)，較小的值表明移除該節(jié)點(diǎn)可能對(duì)所選集的多樣性產(chǎn)生不利影響，可能損害訓(xùn)練模型的性能。
另外一個(gè)評(píng)價(jià)指標(biāo)是綜合過(guò)濾分?jǐn)?shù) $f_{conf(v_i)}$ ，它基于下式計(jì)算：
$f_{filter}(v_i)=\beta_0\times r_{f_{conf}(v_i)}+\beta_1\times r_{COE(v_i)}+\beta_2\times r_{C-Density}(v_i)$