KBQA: An Online Template Based Question Answering System over Freebase論文的一個(gè)翻譯

原文地址

摘要

隨著網(wǎng)絡(luò)的不斷發(fā)展,百科網(wǎng)頁、搜索網(wǎng)頁、問答社區(qū)等也隨之發(fā)展,壯大,在這些應(yīng)用上,機(jī)器人的自動(dòng)回答,智能的答案提示等等應(yīng)用也相繼出現(xiàn)。針對于海量的知識的智能回答系統(tǒng)也發(fā)展得很火熱。其背后支持的實(shí)際技術(shù)正是問答系統(tǒng)。問答(QA)是信息檢索和自然語言處理(NLP)領(lǐng)域的一門計(jì)算機(jī)科學(xué)學(xué)科,它涉及構(gòu)建能自動(dòng)回答人類用自然語言提出的問題的系統(tǒng)。[1]QA系統(tǒng)能通過映射,將問題映射到知識庫中去,直指答案,通過這樣的方式來為用戶反饋答案。而KBQA使用的時(shí)候新的問題表達(dá)形式——模板,能夠通過百萬級的QA語料庫進(jìn)行學(xué)習(xí),之后生成大量的模板,用于后續(xù)的問題識別。我們試著舉一個(gè)這樣的例子,例如,在對于城市人口的問題上,我們的KBQA系統(tǒng)能夠從語料庫中學(xué)習(xí)生成得出以下這樣的模板:城市的人口是多少?城市中有多少人?我們將這樣的KBQA對4690關(guān)系進(jìn)行學(xué)習(xí),生成出了超過1171303個(gè)模板?;谶@些模板,KBQA能夠有效率地為解決復(fù)雜問題、2元事實(shí)問題提供支持。

問題

本身QA問題就吸引大批學(xué)者進(jìn)行研究,而在應(yīng)用上,正如摘要中所提到的那樣,各大主流網(wǎng)頁,問答社區(qū),也有采用這樣的技術(shù),對一些還沒人回答的問題,或者正在進(jìn)行提問的問題,除了進(jìn)行已有問題的匹配。也有將QA技術(shù)應(yīng)用,然后直接提示問題答案或許是這個(gè)的一些智能的提醒等等,各種很驚人的效果。但也存在明顯的問題,像是:匹配出來答案不準(zhǔn),答非所問;答案表述不自然。

研究上,一個(gè)QA系統(tǒng)通常設(shè)計(jì)成回答某一特定類型的問題,而這其中,最重要的問題類型之一就是——基于事實(shí)的問題?;谑聦?shí)的問題問的是某個(gè)實(shí)體的一些個(gè)客觀事實(shí)。而基于事實(shí)的問題中,又有一種特殊的問題——二元事實(shí)問題(BFQ)。二元事實(shí)問題問的是某個(gè)實(shí)體的某些個(gè)屬性。舉個(gè)例子,檀香山有多少人?在本文中,我們著重回答這些基于Freebase的二元事實(shí)問題。

而我們的系統(tǒng)采用KBQA的方式去解決 問題,KBQA的特點(diǎn)就是通過模板了解問題,通過這樣的方式能夠識別出問題的更多謂詞,系統(tǒng)反饋答案,映射的時(shí)候,能夠更好地識別問題的具體意圖。

方法/結(jié)果(計(jì)劃如何解決)

針對事實(shí)問題,尤其是二元事實(shí)問題,KBQA系統(tǒng)由于能夠?qū)κ聦?shí)語料庫提取中問題的模板,能夠?qū)栴}的謂詞進(jìn)行提煉,對問題的意向,問題在問什么,這樣的方面對問題的理解上有更進(jìn)一步的提升。

KBQA系統(tǒng)基于模板,舉回上面的例子:城市有多少人是模板a。不管城市指的是檀香山還是其他城市,模板a總是問某個(gè)城市的人口問題。KBQA從一個(gè)有數(shù)百萬個(gè)問答對的巨型問答語料庫(雅虎問答)來學(xué)習(xí)、訓(xùn)練,來學(xué)習(xí)模板的相應(yīng)謂詞。

以下表格顯示了KBQA學(xué)習(xí)到的謂詞和模板數(shù)量,并和Bootstrapping系統(tǒng)進(jìn)行比較。表格顯示,盡管用于學(xué)習(xí)的語料庫更小,KBQA系統(tǒng)仍然能夠生成更多的模板。也就意味著,在系統(tǒng)后續(xù)的問題識別上,能夠識別出來更多的問題謂詞,知道更多的問題的問題意向,想問實(shí)體的哪個(gè)方面的問題。在后續(xù)流程中,能夠提升QA系統(tǒng)的效率和精度。

Table 1
Figure 1

KBQA系統(tǒng)中,首先是在模板提取模型中能夠生成從模板到謂詞的映射,然后再用離線程序部分通過使用最大似然估計(jì)器(ML)來學(xué)習(xí)這些映射。實(shí)體和價(jià)值定位的結(jié)果用來做估計(jì)器的訓(xùn)練數(shù)據(jù)。另外,KBQA系統(tǒng)通過謂詞擴(kuò)展模塊來識別知識庫中的復(fù)雜問題中的謂詞形式。當(dāng)問題進(jìn)入在線程序時(shí),KBQA先將它轉(zhuǎn)化為一個(gè)或多個(gè)二元事實(shí)問題(BFQ)。對任意的二元事實(shí)問題,KBQA提取出它的模板,然后在模板庫中找這個(gè)模板。最后,KBQA系統(tǒng)返回知識庫中實(shí)體的值和謂詞來作為答案。

問題解析 在線程序的關(guān)鍵是將問題轉(zhuǎn)化為模板。KBQA用斯坦福的NER系統(tǒng)來解決這個(gè)問題,并且,用概念化[5]的方式來用概念去替換問題本身。概念化機(jī)制基于一個(gè)由數(shù)百萬個(gè)實(shí)體和概念組成的大型語義網(wǎng)絡(luò)(Probase [6]),因此KBQA具有足夠的粒度來表示不同的問題。

模板提取部分 KBQA從一個(gè)有數(shù)百萬個(gè)問答對的巨型問答語料庫(雅虎問答)來學(xué)習(xí)、訓(xùn)練,來學(xué)習(xí)模板的相應(yīng)謂詞。首先,對雅虎回答中的所有問答對,KBQA提取中問題中的實(shí)體和答案中的對應(yīng)值出來。然后,KBQA在謂詞庫中,找出實(shí)體和這個(gè)值之間用的謂詞。這其中的基本思想是,KBQA用QA對作訓(xùn)練數(shù)據(jù)。對每個(gè)模板,如果大多數(shù)對應(yīng)的問題實(shí)例共享同一個(gè)謂詞,那么KBQA就將這個(gè)模板映射到這個(gè)謂詞中去。

結(jié)論

Figure 2

KBQA的實(shí)現(xiàn)的效果,如圖2所示,在網(wǎng)頁上為用戶提供了一個(gè)簡單的界面,由三個(gè)部分組成:

(1)展示問題結(jié)果的QA部分

(2)給用戶對此問題投票的反饋部分

(3)解釋這個(gè)答案是怎么提取出來和KBQA為什么能夠提取出答案的原理解釋部分

根據(jù)問題類型進(jìn)行分類 KBQA事實(shí)上能顧滿足各個(gè)用戶的不同需求并支持各個(gè)問題類型。

  • 簡單的二元事實(shí)問題 用戶能夠提問一些簡單的二元事實(shí)問題,也就是問實(shí)體的屬性問題。圖2展示了莎士比亞的生日問題。

  • 依賴擴(kuò)展謂詞的為題 KBQA通過擴(kuò)展謂詞模塊能夠理解復(fù)雜形式的謂詞的問題。例如,F(xiàn)reebase通過擴(kuò)展謂詞spouse_s->spouse->name來表示spouse關(guān)系。

  • 復(fù)雜問題 問題轉(zhuǎn)化模型將一個(gè)復(fù)雜問題轉(zhuǎn)化為幾個(gè)簡單二元問題。這使得KBQA也能夠理解和回答出復(fù)雜問題。圖3展示了一個(gè)復(fù)雜問題的具體樣式。

Figure 3

用戶反饋部分 在反饋部分,KBQA使得用戶對答案進(jìn)行投票。這個(gè)反饋會(huì)返回去作為系統(tǒng)的輸入,并提升系統(tǒng)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容