Natural Language Question Answering over RDF-A Graph Data Driven Approach 筆記

一、摘要

介紹基于RDF的QA系統(tǒng)?,F(xiàn)存的解決方案分為兩個步驟,問題理解和查詢評價。問題理解階段關(guān)鍵問題是如何消歧,大多數(shù)采用聯(lián)合消歧的辦法,這種方法擁有指數(shù)級的搜索空間。

在本文中,從數(shù)據(jù)驅(qū)動圖的視角提出了一個系統(tǒng)性的框架來解決問題。本文利用“語義查詢圖”(semantic query graph)來對問題意圖進行建模,把RDF QA任務(wù)轉(zhuǎn)換成一個子圖匹配的問題。一旦在RDF中匹配到了語義查詢圖,就解決了自然語言問題中的歧義性問題。本文和當(dāng)前最高水平的QA系統(tǒng)做了對比,不僅提高了準(zhǔn)確度也提升了系統(tǒng)的執(zhí)行效率。

二、介紹

在RDF上寫SPARQL查詢對于用戶來說太難了,自然語言QA就可以完美的解決這個問題(隱藏了邏輯復(fù)雜性,允許用戶通過直觀的途徑獲取答案)。

1、動機

在問題理解的實體鏈接階段,存在著歧義性,某個自然語言表達式對應(yīng)著RDF中的多種資源、類型或?qū)嵗龋捎寐?lián)合消歧的傳統(tǒng)方法花了太大的代價在問題理解階段,問答系統(tǒng)的響應(yīng)時間很長。

在本文中,我們把消歧的任務(wù)放在了查詢評價階段,問題理解階段允許歧義性的存在。這樣做的主要優(yōu)點是避免了在問題理解階段花費昂貴的代價處理歧義性,同時也加快了整個系統(tǒng)效率。

一個自然語言問題中的短語可以對應(yīng)多個RDF graph G中的語義項(subject、object、predicate)。當(dāng)問題的語義圖沒有在G中匹配到,歧義性也就得到了解決。本系統(tǒng)的關(guān)鍵技術(shù)是,如何定義自然語言問題N到RDF graph G的子圖匹配(match)。N是非結(jié)構(gòu)化數(shù)據(jù),G是結(jié)構(gòu)化的,為了構(gòu)建他們之間的映射關(guān)系,本文提出了一個問題語義圖Q^s來表示問題N?,F(xiàn)在的任務(wù)是尋求Q^s與RDF graph G之間的子圖匹配。

2、方法

問題理解階段,將自然語言問題N用語義查詢圖(Q^s)表示,頂點表示實體,邊表示關(guān)系。每條邊擁有兩個參數(shù),分別是兩端的兩個頂點。每個頂點或者邊對應(yīng)多個RDF中的實體和謂詞。

查詢評價階段,匹配Q^s在RDF graph上的子圖,對每個匹配到的子圖指定一個分?jǐn)?shù),,取top-k個匹配子圖。

主要貢獻:

把消歧和查詢評估一并處理,提高準(zhǔn)確度,提升系統(tǒng)執(zhí)行效率;

提出了圖搜索算法,把自然語言問題中的短語映射到RDF graph top-k個可能的謂詞,這個步驟構(gòu)建了一個釋義詞典D,格式是每個關(guān)系短語對應(yīng)RDF中的多個謂詞或謂詞路徑,同時也擁有一個置信度,這個釋義詞典D用在問題理解階段的關(guān)系鏈接上;

用語義查詢圖Q^s表示問題N,Q^s允許鏈接歧義的存在。把QA轉(zhuǎn)換成了一個在RDF graph G上的子圖匹配任務(wù),這個步驟在查詢評價階段進行;

做了大量的實驗,本系統(tǒng)不僅更有效而且更有效率;

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 本體、知識庫、知識圖譜、知識圖譜識別之間的關(guān)系? 本體:領(lǐng)域術(shù)語集合。 知識庫:知識集合。 知識圖譜:圖狀具有關(guān)聯(lián)...
    方弟閱讀 29,145評論 6 49
  • 作者:劉知遠(清華大學(xué));整理:林穎(RPI) 本文來自Big Data Intelligence知識就是力量?!?..
    墨白找閱讀 11,811評論 4 54
  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 14,425評論 2 64
  • 命名實體識別 命名實體的提出源自信息抽取問題,即從報章等非結(jié)構(gòu)化文本中抽取關(guān)于公司活動和國防相關(guān)活動的結(jié)構(gòu)化信息,...
    我偏笑_NSNirvana閱讀 10,922評論 1 35
  • 兩個人一直往前走 你在他們身后 默默的 突然他們停住了 因為你不夠耀眼 所以即使這樣 還是沒有人發(fā)現(xiàn)你就在身后
    victoriapoint閱讀 102評論 0 1

友情鏈接更多精彩內(nèi)容