知識問答

大綱

知識問答概述和相關(guān)數(shù)據(jù)集
KBQA基本概念及挑戰(zhàn)
知識問答主流方法介紹

知識問答概述

IBM Watson

KBQA基本概念及挑戰(zhàn)

  • 知識問答簡單流程和分類
    問句;=> 語義匹配、推理;=> 答案
    傳統(tǒng)問答方法(符號表示)
    基于關(guān)鍵詞檢索;
    基于文本蘊含推理;
    基于邏輯表達式
    基于深度學(xué)習(xí)的問答方法(分布式表示)
    LSTM;
    Attention Model;
    Memory Network
基本概念

1 問句短語
Wh-words:who, what, which, when...
Wh-words+nouns, adj or adv:which party, how long
2 問句類型

  • Factoid - 事實型問題
    predicative questions - 謂詞型問題:what is ...
    list - 列表型問題:give me all cities in Germany
    superlative - 最高級型問題:what is the highest ...
    yes-no - 對錯型問題:Was Margaret Thatcher a chemist
  • opinion - 觀點型問題
  • cause & effect - 因果型問題
  • process - 方法型問題
  • ...

3 答案類型
4 問題主題
5 問答來源類型
6 領(lǐng)域類型
7 答案格式

  • 問答質(zhì)量的評估原則
    Relevance - 相關(guān)度
    Correctness - 正確度
    Conciseness - 精煉度
    Completeness - 完備度
    ...


    問答系統(tǒng)的基本組建
  • 基于知識圖譜的問答:基本需求
    High usability
    High query expressivity
    Accurate & comprehensive semantic matching
    ...
  • 技術(shù)挑戰(zhàn):如何將問題映射到答案
  • 自然語言問題與知識圖譜之間的鴻溝
    映射自然語言表達式到知識圖譜詞匯
    不同的知識表示增加了映射難度
    關(guān)系或?qū)傩噪[形表述
    知識庫如何支持多語言問答
    數(shù)據(jù)質(zhì)量和異構(gòu)性
    分布式和互聯(lián)數(shù)據(jù)
    回答性能和可擴展性
KBQA挑戰(zhàn)總結(jié)

縮小自然語言和規(guī)范化結(jié)構(gòu)化數(shù)據(jù)之間的鴻溝;
處理不完全、充滿噪音和異構(gòu)的數(shù)據(jù)集;
處理大規(guī)模的知識圖譜;
處理分布式數(shù)據(jù)集上的QA;
融合結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù);
降低維護成本;
快速的復(fù)制到不同的領(lǐng)域

知識問答主流方法

基于模板的方法
基于語義解析的方法
基于深度學(xué)習(xí)的方法

基于模板的方法

TBSL(Template based )

  • 模板定義
    結(jié)合KG的結(jié)構(gòu),以及問句的句式,進行模板定義。
  • 模板生成
  • 模板匹配

SPARQL template
示例:Who produced the most films?
SELECT DISTINCT ?x WHERE {
?y rdf:type ?c .
?y ?p ?x .
}
ORDER BY DESC(COUNT(?y))
OFFSET 0 LIMIT 1
?c CLASS [films]
?p PROPERTY [produced]

TBSL 架構(gòu)

S1:Linguistic processing
1 獲取自然語言問題的POS tag;
2 基于POS tags,語法規(guī)則表示問句;
3 利用 domain-dependent 詞匯和 domain-independent 詞匯輔助分析問題
4 最后,將語義表示轉(zhuǎn)化為一個SPARQL模板
S2:Template instantiation Entity
模板匹配與實例化
S3:Query ranking and selection
每個 entity 根據(jù)string similarity 和 prominence 打分

基于語義解析的方法

  1. 資源映射
  2. Logic Form
  3. 候選答案生成
  4. 排序
資源映射

將自然語言短語或單詞節(jié)點映射到知識庫的實體或?qū)嶓w關(guān)系。可以通過構(gòu)造一個詞匯表(Lexicon)來完成這樣的映射。

  • 邏輯表達式
    即一種能讓知識庫”看懂“的表示??梢员硎局R庫中的實體、實體關(guān)系。

知識問答后部分課程缺失

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 知識圖譜技術(shù) 知識圖譜(Knowledge Graph,KG)描述客觀世界的概念、實體、事件及其之間的關(guān)系。其中,...
    sennchi閱讀 5,419評論 0 17
  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 14,425評論 2 64
  • 提到問答網(wǎng)站不得不說到知乎和百度知道,這兩者是中國知識問答型產(chǎn)品兩大代表,當(dāng)然第三種形式現(xiàn)在就是以新浪微博中的微問...
    亂談的蛇精病閱讀 1,000評論 1 7
  • 【引言】 吧友幾次問我有關(guān)C4D模型的UV及如何展開的問題。總感覺有點早,我想等研究角色、道具等建模之后再...
    DIGITALMAN閱讀 16,802評論 20 129
  • 思考,行動,習(xí)慣,反饋,修改。 大師、專家不是看視頻得來的,而是通過千萬遍的練習(xí)得來的。 兩耳掛著耳機,就像兩個人...
    職場案例閱讀 302評論 0 0

友情鏈接更多精彩內(nèi)容