論文閱讀筆記:Conditional Augmentation for Aspect Term Extraction via Masked Sequence-to-Sequence Genera...

pdf:https://www.aclweb.org/anthology/2020.acl-main.631.pdf

概述:

- 有監(jiān)督的方面術(shù)語抽取任務(wù)面臨的最大的挑戰(zhàn)是沒有足夠多標注好的訓練數(shù)據(jù)。這篇論文提出用數(shù)據(jù)增強的方法來生成新的訓練數(shù)據(jù)。為了保證生成的新數(shù)據(jù)的質(zhì)量,作者提出了條件生成方法,生成與原句子具有相同序列標簽的句子。

- 提出蒙版序列到序列方法(a masked sequence-to-sequence method)進行條件下文本生成。

方法:

-?碎片掩蔽策略(Fragment Masking Strategy):(1)遮蔽連續(xù)續(xù)詞序列,從下標u到v;(2)只遮蔽標簽為O的詞;(3)遮蔽碎片的長度由r來控制,r是遮蔽概率。

-?采樣策略(Sampling?Strategy):按照概率p隨機抽取一個樣本;決定掩蔽碎片的起始位置;按照掩蔽策略來掩蔽序列。

-?訓練目標:根據(jù)遮蔽過的樣本\hat{X}和標簽序列L來重新構(gòu)建(reconstruct)原本的碎片序列Y。

? ? ?>? 編碼器:H=Enc(\hat{X},L)?

? ? ?>? 解碼器:P(Y|X,L) = \prod_{t=1}^m P(y_t|y_{1:t-1},l_t,H)

? ? ? ? ? ? ? ? ? ? ??P(y_t|y_{1:t-1},l_t,H)=softmax(Ws_t+b)

? ? ? ? ? ? ? ? ? ? ? ? s_t=z_t+Emb_l(l_t)

? ? ? ? ? ? ? ? ? ? ? ??                         z_t=Dec(x_{t-1},l+{t-1})

-?數(shù)據(jù)增強:避免每次從從一個位置開始遮蔽,手動的選擇起始位置,用beam?search來生成。系統(tǒng)會按照不同的起始位置,重復(fù)跑很多次,以讓每個樣本都能實現(xiàn)數(shù)據(jù)增強。

實驗:

實驗結(jié)果
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容