基于規(guī)則集,rule-base:
XX 是 XX
XX 類似于 XX
XX 成立于 XX年 XX月
規(guī)則集合可以設(shè)置一些限制, 比如實體的類型。
- 優(yōu)點:
- 不需要訓(xùn)練數(shù)據(jù)。
- 比較準(zhǔn)確。
- 缺點:
- low recall 低召回。
- 人力成本。
- 規(guī)則本身難設(shè)計,容易沖突
基于模型
分類:
- 定義好關(guān)系類型
- 定義好實體類型
- 訓(xùn)練數(shù)據(jù)準(zhǔn)備:實體(類型)標(biāo)記,實體間的關(guān)系(人工成本)
(XX,YY) relation
特征工程:
構(gòu)造兩個實體的特征。
- bag of word featrue:
- 詞特征。1-gram,2-gram,3-gram。實體前后詞。
- 兩個實體中間的詞。
- pos feature: 詞性特征
- 實體類別:實體標(biāo)簽
- 位置信息:
- 比如 兩個實體間包含了多個個字
- 這句話在文中的位置(第幾句)
- 依存句法分析/句法分析:
- 兩個實體間的最短路徑(圖算法)
- 是否相互依賴(0,1)
特征相關(guān)性分析:協(xié)方差,皮爾森系數(shù)
模型訓(xùn)練方式:
- 方案1:
- K類別+無關(guān)系:共K+1的分類模型。
- 方案2:
- 二分類模型+K分類模型。
優(yōu)點:二分類相對簡單,訓(xùn)練數(shù)據(jù)不大,并且大部分實體是不存在關(guān)系的,提升效率。
- 二分類模型+K分類模型。