關(guān)系抽取實現(xiàn)方案

基于規(guī)則集,rule-base:

XX 是 XX
XX 類似于 XX
XX 成立于 XX年 XX月
規(guī)則集合可以設(shè)置一些限制, 比如實體的類型。

  1. 優(yōu)點:
    • 不需要訓(xùn)練數(shù)據(jù)。
    • 比較準(zhǔn)確。
  2. 缺點:
    • low recall 低召回。
    • 人力成本。
    • 規(guī)則本身難設(shè)計,容易沖突

基于模型

分類:
- 定義好關(guān)系類型
- 定義好實體類型
- 訓(xùn)練數(shù)據(jù)準(zhǔn)備:實體(類型)標(biāo)記,實體間的關(guān)系(人工成本)
(XX,YY) relation

特征工程
構(gòu)造兩個實體的特征。

  1. bag of word featrue:
    • 詞特征。1-gram,2-gram,3-gram。實體前后詞。
    • 兩個實體中間的詞。
  2. pos feature: 詞性特征
  3. 實體類別:實體標(biāo)簽
  4. 位置信息:
    • 比如 兩個實體間包含了多個個字
    • 這句話在文中的位置(第幾句)
  5. 依存句法分析/句法分析:
    • 兩個實體間的最短路徑(圖算法)
    • 是否相互依賴(0,1)

特征相關(guān)性分析:協(xié)方差,皮爾森系數(shù)

模型訓(xùn)練方式

  1. 方案1:
    • K類別+無關(guān)系:共K+1的分類模型。
  2. 方案2:
    • 二分類模型+K分類模型。
      優(yōu)點:二分類相對簡單,訓(xùn)練數(shù)據(jù)不大,并且大部分實體是不存在關(guān)系的,提升效率。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容