pdf:https://www.aclweb.org/anthology/2020.acl-main.631.pdf
概述:
- 有監(jiān)督的方面術(shù)語抽取任務(wù)面臨的最大的挑戰(zhàn)是沒有足夠多標注好的訓練數(shù)據(jù)。這篇論文提出用數(shù)據(jù)增強的方法來生成新的訓練數(shù)據(jù)。為了保證生成的新數(shù)據(jù)的質(zhì)量,作者提出了條件生成方法,生成與原句子具有相同序列標簽的句子。
- 提出蒙版序列到序列方法(a masked sequence-to-sequence method)進行條件下文本生成。
方法:
-?碎片掩蔽策略(Fragment Masking Strategy):(1)遮蔽連續(xù)續(xù)詞序列,從下標u到v;(2)只遮蔽標簽為O的詞;(3)遮蔽碎片的長度由r來控制,r是遮蔽概率。
-?采樣策略(Sampling?Strategy):按照概率p隨機抽取一個樣本;決定掩蔽碎片的起始位置;按照掩蔽策略來掩蔽序列。
-?訓練目標:根據(jù)遮蔽過的樣本和標簽序列
來重新構(gòu)建(reconstruct)原本的碎片序列
。
? ? ?>? 編碼器:?
? ? ?>? 解碼器:
? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ??
-?數(shù)據(jù)增強:避免每次從從一個位置開始遮蔽,手動的選擇起始位置,用beam?search來生成。系統(tǒng)會按照不同的起始位置,重復(fù)跑很多次,以讓每個樣本都能實現(xiàn)數(shù)據(jù)增強。
實驗:
實驗結(jié)果