一、摘要
介紹基于RDF的QA系統(tǒng)?,F(xiàn)存的解決方案分為兩個步驟,問題理解和查詢評價。問題理解階段關(guān)鍵問題是如何消歧,大多數(shù)采用聯(lián)合消歧的辦法,這種方法擁有指數(shù)級的搜索空間。
在本文中,從數(shù)據(jù)驅(qū)動圖的視角提出了一個系統(tǒng)性的框架來解決問題。本文利用“語義查詢圖”(semantic query graph)來對問題意圖進行建模,把RDF QA任務(wù)轉(zhuǎn)換成一個子圖匹配的問題。一旦在RDF中匹配到了語義查詢圖,就解決了自然語言問題中的歧義性問題。本文和當(dāng)前最高水平的QA系統(tǒng)做了對比,不僅提高了準(zhǔn)確度也提升了系統(tǒng)的執(zhí)行效率。
二、介紹
在RDF上寫SPARQL查詢對于用戶來說太難了,自然語言QA就可以完美的解決這個問題(隱藏了邏輯復(fù)雜性,允許用戶通過直觀的途徑獲取答案)。
1、動機
在問題理解的實體鏈接階段,存在著歧義性,某個自然語言表達式對應(yīng)著RDF中的多種資源、類型或?qū)嵗龋捎寐?lián)合消歧的傳統(tǒng)方法花了太大的代價在問題理解階段,問答系統(tǒng)的響應(yīng)時間很長。
在本文中,我們把消歧的任務(wù)放在了查詢評價階段,問題理解階段允許歧義性的存在。這樣做的主要優(yōu)點是避免了在問題理解階段花費昂貴的代價處理歧義性,同時也加快了整個系統(tǒng)效率。
一個自然語言問題中的短語可以對應(yīng)多個RDF graph G中的語義項(subject、object、predicate)。當(dāng)問題的語義圖沒有在G中匹配到,歧義性也就得到了解決。本系統(tǒng)的關(guān)鍵技術(shù)是,如何定義自然語言問題N到RDF graph G的子圖匹配(match)。N是非結(jié)構(gòu)化數(shù)據(jù),G是結(jié)構(gòu)化的,為了構(gòu)建他們之間的映射關(guān)系,本文提出了一個問題語義圖Q^s來表示問題N?,F(xiàn)在的任務(wù)是尋求Q^s與RDF graph G之間的子圖匹配。
2、方法
問題理解階段,將自然語言問題N用語義查詢圖(Q^s)表示,頂點表示實體,邊表示關(guān)系。每條邊擁有兩個參數(shù),分別是兩端的兩個頂點。每個頂點或者邊對應(yīng)多個RDF中的實體和謂詞。
查詢評價階段,匹配Q^s在RDF graph上的子圖,對每個匹配到的子圖指定一個分?jǐn)?shù),,取top-k個匹配子圖。
主要貢獻:
把消歧和查詢評估一并處理,提高準(zhǔn)確度,提升系統(tǒng)執(zhí)行效率;
提出了圖搜索算法,把自然語言問題中的短語映射到RDF graph top-k個可能的謂詞,這個步驟構(gòu)建了一個釋義詞典D,格式是每個關(guān)系短語對應(yīng)RDF中的多個謂詞或謂詞路徑,同時也擁有一個置信度,這個釋義詞典D用在問題理解階段的關(guān)系鏈接上;
用語義查詢圖Q^s表示問題N,Q^s允許鏈接歧義的存在。把QA轉(zhuǎn)換成了一個在RDF graph G上的子圖匹配任務(wù),這個步驟在查詢評價階段進行;
做了大量的實驗,本系統(tǒng)不僅更有效而且更有效率;