閱讀論文—Knowledge-enabled BERT for aspect-based sentiment analysis

? 發(fā)表:KBS 2021 CCF-C
? 引用:Zhao A, Yu Y. Knowledge-enabled BERT for aspect-based sentiment analysis[J]. Knowledge-Based Systems, 2021, 227: 107220.

1 背景

為了提供可解釋和準確的方面術(shù)語和相應(yīng)的方面-情感檢測,考慮外部特定領(lǐng)域的知識通常很有用。
情感分析的一個主要挑戰(zhàn)是識別意見以有效的方式從文本中表達的實體。這一事實需要開發(fā)基于方面的情感分析 (ABSA),它識別給定目標實體的各個方面或特征以及針對每個方面表達的意見 [3]。

1.1 問題

現(xiàn)有的 ABSA 方法仍然存在一些問題:

  1. 方面術(shù)語和意見詞之間的精確配對信息并不總是清楚的,因為如果沒有領(lǐng)域知識,句子中的兩個實體之間的語義關(guān)系可能無法獲得。
  2. 盡管現(xiàn)有 ABSA 方法的性能很好,但它們中的大多數(shù)都無法解釋為什么一段文本-情感信息被分類為正面或負面。

受這些觀察結(jié)果的啟發(fā),有必要提供一種可解釋的方法來理解為什么某些方面-情感信息被歸類為正面或負面。情感知識圖(SKG)通常是手動更正的,包含高度可靠的情感知識。它可以用作方面-情感信息檢測的有效輔助,找到文本中方面術(shù)語和情感詞之間的內(nèi)在關(guān)系,以提高情感分析性能并提供解釋。

1.2 解決辦法

本文通過利用 SKG 更好地捕捉實體之間的高階方面-情感關(guān)系來研究可解釋方面-情感信息檢測問題。受Liu等人[5]中語言表示模型K-BERT的研究的啟發(fā),本文提出了一種基于知識的BERT模型,用于基于方面的情感分析。同時,將情感知識圖作為情感知識信息的外部來源,通過將情感領(lǐng)域知識注入 BERT 來提高情感檢測的性能。

2 相關(guān)工作

2.1. Aspect-based sentiment analysis

深度學習模型由于其能夠?qū)⒃继卣骶幋a為低維向量而不進行特征工程的能力,可以動態(tài)提取特征。例如 CNN [7]、memory networks [8,9] 和 RNN [10],以學習方面的不同注意力并生成基于注意力的句子嵌入。
graph neural networks combined with dependency trees 已被用于學習用于 ABSA 中情感分類的序列節(jié)點表示 [12,13]。
圖注意力網(wǎng)絡(luò) (GAT) 用于建立單詞之間的依賴關(guān)系,用于語法感知方面級別的情感分類 [14]。

2.2. Self-attention based models

基于自注意力的預(yù)訓練語言模型已應(yīng)用于 ABSA,并帶來了顯著的性能提升。例如,AEN-BERT,它將預(yù)訓練的語言模型 BERT 應(yīng)用于 ABSA 的任務(wù) [18] 、BERT 通過微調(diào)基于 BERT 的模型用作嵌入層 [21,22] 或 ABSA 分類輸出層 [23]、一種上下文引導的 BERT (CG-BERT) 模型等。

2.3. Knowledge-enhanced sentiment analysis

SenticLSTM 將 SenticNet 中的外部知識特征添加到神經(jīng)網(wǎng)絡(luò)中,以提高目標基于方面的情感分析的性能 [25]。
情感詞典中的外部知識整合到深度神經(jīng)網(wǎng)絡(luò)中。
通過混合來自情感詞典和句子的信息進行情感分類來學習embedded auxiliary。
將方面級情感分類和方面-意見對識別建模為聯(lián)合文本分類任務(wù)[30],提供了一個知識增強的情感分析框架KNEE。

3. Preliminaries and problem definition

3.1. Preliminaries

sentiment knowledge graph 描述了方面和情感之間的情感關(guān)系,以及正面/負面關(guān)系。例如,(CPU, fast, positive) 包含積極情緒關(guān)系,但 (Battery, fast,negative) 具有負面情緒關(guān)系。

定義1
設(shè) G_s = {A, O, R} 為情感知識圖,其中A, O和R分別為方面節(jié)點集、情感節(jié)點集和積極情緒關(guān)系集。情感知識三元組由 {(a_i, o_i, r)|a_i ∈ A, o_i ∈ O, r ∈ R} 表示,它描述了從方面節(jié)點 a_i 到情感節(jié)點 o_i 的情感關(guān)系 r。
定義2
給定一個輸入句子 s = {w_0, w_1, w_2,…,, w_n},以及一個情感知識圖 Gs = {A, O, R},一個句子知識樹 t = {w_0, w_1,., w_i{(r_{i0}, w_{i0}),..., (r_{ik}, w_{ik})},..., w_n},其中 {(w_i, r_{i0}, w_{i0}),..., (w_i, r_{ik}, w_{ik})} 是相應(yīng)情感知識三元組的集合。

4 方法

4.1. Overview

ABSA的 knowledge-enabled BERT 的整體架構(gòu)如圖 1 所示。
與現(xiàn)有的knowledge-enhanced language representation model [5] 類似,本文的模型有一個 knowledge layer 來從輸入句子和 SKG 中捕獲上下文和情感知識特征。
給定輸入 sentence = {w_0, w_1, w_2,., w_n} 長度為 n,
S1 首先從 SKG 中注入相關(guān)的情感知識三元組并生成句子知識樹。
S2 在 embedding module 中,使用具有 L 個 transformer 的 BERT 組件將句子知識樹轉(zhuǎn)換為相應(yīng)的 token-level embedding representations HL = {h^L_1,., h^L_n} ∈ R^{n×dim_h} 用于輸入句子 s,其中 dim_h 是 embedding representation vector 的維度。
S3 句子embedding representations HL 被用于特定于任務(wù)的層進行預(yù)測。

Figure 1

4.2. Generating sentence-knowledge trees

為了生成句子知識樹,需要選擇外部知識三元組并將其嵌入到輸入句子中。SKG 中可能存在大量候選知識三元組。
S1 Knowledge selection 旨在從 SKG 中識別出最有用的情感知識三元組,而忽略了不相關(guān)的三元組。本文將輸入句子 s 中涉及的所有實體名稱的知識三元組作為候選知識。
Knowledge selection 表述為 E = f (s, K)
其中 f 是知識選擇的函數(shù),K 是 SKG,E = {(w_i, r_{i0}, w_{i0}),..., (w_i, r_{ik}, w_{ik})}。

S2 利用樹結(jié)構(gòu)來表示嵌入知識三元組的句子。
通過將選定的知識三元組 E 注入句子 s 并將 E 中的知識三元組拼接到其對應(yīng)的位置來生成具有多個分支的句子知識樹 T。句子知識樹生成可以表示為 Ts = g(s, E),其中 g 是知識注入的函數(shù)。獲得的句子知識樹可以表示為 T_s = {w_0, w_1,..., w_i{(r_{i0}, w_0),..., (r_{ik}},..., w_n)}。

4.3. Knowledge enabled BERT embedding

4.3.1. Embedding

與 BERT 類似,the embedding layer 學習輸入句子知識樹 T_s 的embedding representation,embedding representation將輸入特征打包為與輸入標記對應(yīng)的token embedding、position embedding 和 segment embedding 的組合。

為了彌合 BERT 和結(jié)構(gòu)化知識的 encoder representations of BERT之間的差距,將句子知識樹轉(zhuǎn)換為 token sequence,同時保留其結(jié)構(gòu)信息以進行進一步的利用。
Token embedding 將 tokens 轉(zhuǎn)換為具有語義和句法信息的分布式表示。對于句子知識樹 T_s,本文在嵌入操作之前通過 rearrangement strategy 將 Ts 中的每個標記映射到一個序列,其中分支標記在相應(yīng)的節(jié)點之后插入,而以下標記向后移動。然而,這個重新排列的序列導致輸入句子丟失正確的結(jié)構(gòu)信息。BERT 的位置嵌入能夠?qū)⑷笔У慕Y(jié)構(gòu)信息添加到從 T_s 重新排列的 token sequence 中。為了解決序列結(jié)構(gòu)信息不正確的問題,采用 soft-position embedding 策略定位重新排列的 sequence tokens,為對應(yīng)節(jié)點和分支標記設(shè)置相同的位置數(shù)。這有助于模型從原始輸入句子中保留正確的語義信息。

4.3.2. Transformer

本文還使用 mask attention 中呈現(xiàn)的 mask self-attention 來防止由 Ts 的知識分支引起的原始輸入句子的語義變化。 Visible matrix M 用于決定每個標記的可見區(qū)域,以便即使位置嵌入彼此接近,連接序列節(jié)點也不會受到相互影響。

4.4. Model prediction

在 BERT 架構(gòu)中,transformer layers 逐層細化 token level 特征。
對于給定的輸入句子 s,L Mask-Transformer 層,隱藏大小為 H,輸入序列的表示可以計算為 H^l = Mask ? Transformer_l(H^{l?1}),
其中包含輸入句子和外部知識的語義和情感知識信息。
H^L 視為輸入序列的知識啟用嵌入表示,并使用它們來對 ABSA 任務(wù)做出特定的預(yù)測。

5 實驗

5.1 數(shù)據(jù)集

從兩個中國大學 MOOC 平臺上的 MOOC 產(chǎn)品中收集的數(shù)據(jù)。高級語言編程課程按課程類型收集的 9123 個帖子,由 7590 個不同的學習者在不同的高級語言編程課程中。最終數(shù)據(jù)集由 13167 個句子組成,包含 1692 個獨特的術(shù)語。句子的方面術(shù)語和情感術(shù)語分為兩組:名詞和形容詞。
還將電子領(lǐng)域的一些知識元組作為補充信息,這與教育領(lǐng)域和計算機科學有關(guān)。最終的情感知識圖譜由 1324 個正面 tripes、796 個負面tripes 和 182 個中性 tripes 組成,其中包括電子、計算機科學和教育部分領(lǐng)域方面術(shù)語和情感詞的共同搭配,以及它們的情感極性。

5.2. 評估指標

accuracy, Macro-F1 and the F1-score

5.3. Baselines

? KNEE [30]: knowledge-enhanced models aspect-level sentiment classification and aspect–opinion pair identification as a joint text classification task.
? CG-BERT [24]: Context-guided BERT learns to distribute attention under different contexts.
? R-GAT+BERT [15]: relational graph attention network (R-GAT) encodes the tree structure for sentiment prediction.
? BERT+Liner [20]: A BERT-based architecture is built with a simple linear classification layer for the ABSA task.

5.4. Results analysis

實驗結(jié)果如圖 2 所示。
Figure 2

該方法利用了基于自注意力的預(yù)訓練語言模型獲得的先驗知識和語言信息有助于提高 ABSA 任務(wù)的性能。

3 類分類的 F1 分數(shù)性能如圖 3 所示。每個類的 F1 分數(shù)旨在進一步展示外部知識對 SKG 的影響。結(jié)果表明,用于 ABSA 任務(wù)的知識感知 BERT 從外部情感知識中受益匪淺,以補償有限的訓練數(shù)據(jù)。
Figure 3
為了進一步測試外部知識對 ABSA 知識支持 BERT 的性能的影響,首先,給定訓練數(shù)據(jù)集,從 0% 到 100% 隨機修改 SKG 的情感知識三元組集的占比。macro-F1 結(jié)果如圖 4 所示。很明顯,隨著從 SKG 中加入更多的知識三元組,macro-F1 穩(wěn)步增加。
Figure 4
其次,給定 SKG,將訓練集的百分比從 20% 隨機更改為 80%。結(jié)果如圖 5 所示。
Figure 5

這表明外部領(lǐng)域知識對于提高模型的性能特別有用。為了說明 sentiment knowledge graph 解釋 ABSA 結(jié)果的重要性,例如,“The teacher's rhythm is too fast”(negative)和“Programming practice is fast”(positive)。實驗結(jié)果表明,knowledge-enabled BERT 模型能夠從 SKG 中加入外部知識信息,并為 ABSA 產(chǎn)生更好的 token embedding representations。

6 貢獻

(i) 本文通過利用情感知識圖來研究可解釋的基于方面的情感分析問題更好地捕捉方面和情感術(shù)語之間的情感關(guān)系。
(ii) 建議將外部領(lǐng)域知識合并到 BERT 語言表示模型中,以獲得知識庫中實體的 embedding vector,并在一致的向量空間中獲得文本中的單詞。
(iii) 使用情感知識圖來提供外部領(lǐng)域知識來提高 ABSA 性能。

討論

  • 通過結(jié)合來自 SKG 的知識三元組,需要將原始輸入句子轉(zhuǎn)換為知識豐富的句子形式。
  • 情感分析的性能部分取決于知識三元組查詢和基于上下文的過濾。因此,不適當?shù)慕Y(jié)合情感知識會影響性能。
  • 由于注入過多的外部知識,輸入句子的原始含義可能會改變。因此,需要一種有效的解決方案來防止在嵌入學習過程中轉(zhuǎn)移輸入句子的正確含義。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容