大綱
知識問答概述和相關(guān)數(shù)據(jù)集
KBQA基本概念及挑戰(zhàn)
知識問答主流方法介紹
知識問答概述
IBM Watson
KBQA基本概念及挑戰(zhàn)
- 知識問答簡單流程和分類
問句;=> 語義匹配、推理;=> 答案
傳統(tǒng)問答方法(符號表示)
基于關(guān)鍵詞檢索;
基于文本蘊含推理;
基于邏輯表達式
基于深度學(xué)習(xí)的問答方法(分布式表示)
LSTM;
Attention Model;
Memory Network
基本概念
1 問句短語
Wh-words:who, what, which, when...
Wh-words+nouns, adj or adv:which party, how long
2 問句類型
- Factoid - 事實型問題
predicative questions - 謂詞型問題:what is ...
list - 列表型問題:give me all cities in Germany
superlative - 最高級型問題:what is the highest ...
yes-no - 對錯型問題:Was Margaret Thatcher a chemist - opinion - 觀點型問題
- cause & effect - 因果型問題
- process - 方法型問題
- ...
3 答案類型
4 問題主題
5 問答來源類型
6 領(lǐng)域類型
7 答案格式
-
問答質(zhì)量的評估原則
Relevance - 相關(guān)度
Correctness - 正確度
Conciseness - 精煉度
Completeness - 完備度
...
問答系統(tǒng)的基本組建 - 基于知識圖譜的問答:基本需求
High usability
High query expressivity
Accurate & comprehensive semantic matching
... - 技術(shù)挑戰(zhàn):如何將問題映射到答案
- 自然語言問題與知識圖譜之間的鴻溝
映射自然語言表達式到知識圖譜詞匯
不同的知識表示增加了映射難度
關(guān)系或?qū)傩噪[形表述
知識庫如何支持多語言問答
數(shù)據(jù)質(zhì)量和異構(gòu)性
分布式和互聯(lián)數(shù)據(jù)
回答性能和可擴展性
KBQA挑戰(zhàn)總結(jié)
縮小自然語言和規(guī)范化結(jié)構(gòu)化數(shù)據(jù)之間的鴻溝;
處理不完全、充滿噪音和異構(gòu)的數(shù)據(jù)集;
處理大規(guī)模的知識圖譜;
處理分布式數(shù)據(jù)集上的QA;
融合結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù);
降低維護成本;
快速的復(fù)制到不同的領(lǐng)域
知識問答主流方法
基于模板的方法
基于語義解析的方法
基于深度學(xué)習(xí)的方法
基于模板的方法
TBSL(Template based )
- 模板定義
結(jié)合KG的結(jié)構(gòu),以及問句的句式,進行模板定義。 - 模板生成
- 模板匹配
SPARQL template
示例:Who produced the most films?
SELECT DISTINCT ?x WHERE {
?y rdf:type ?c .
?y ?p ?x .
}
ORDER BY DESC(COUNT(?y))
OFFSET 0 LIMIT 1
?c CLASS [films]
?p PROPERTY [produced]

S1:Linguistic processing
1 獲取自然語言問題的POS tag;
2 基于POS tags,語法規(guī)則表示問句;
3 利用 domain-dependent 詞匯和 domain-independent 詞匯輔助分析問題
4 最后,將語義表示轉(zhuǎn)化為一個SPARQL模板
S2:Template instantiation Entity
模板匹配與實例化
S3:Query ranking and selection
每個 entity 根據(jù)string similarity 和 prominence 打分
基于語義解析的方法
- 資源映射
- Logic Form
- 候選答案生成
- 排序
資源映射
將自然語言短語或單詞節(jié)點映射到知識庫的實體或?qū)嶓w關(guān)系。可以通過構(gòu)造一個詞匯表(Lexicon)來完成這樣的映射。
- 邏輯表達式
即一種能讓知識庫”看懂“的表示??梢员硎局R庫中的實體、實體關(guān)系。
知識問答后部分課程缺失
