『IR 信息檢索入門必看』#11 問答系統(tǒng)(簡(jiǎn)明)

訪問博客查看 本文 最新內(nèi)容,排版更美觀ヾ(?ω?`)o 如有錯(cuò)誤歡迎指出~

IR 信息檢索系列筆記:

在傳統(tǒng)的搜索引擎中,通常是以關(guān)鍵詞為索引,通過匹配而返回相似的文檔。然而,有時(shí)用戶在搜索引擎中檢索,并非想得到若干個(gè)網(wǎng)頁,而是直接返回詢問的答案,免去用戶人工定位信息的過程。

問答式信息檢索,是一種允許用戶以自然語言方式詢問,系統(tǒng)從單語或多語文檔集中查找并返回確切答案或者蘊(yùn)含答案文本片斷的新型信息檢索的方式。

要做到這一點(diǎn),就需要先做到:

  1. 理解問句中的查詢意圖。
  2. 根據(jù)分析結(jié)果去檢索匹配文檔,盡量縮小范圍。
  3. 在返回的文檔中提取答案信息或定位答案文本。

當(dāng)然,早期還有一種做法是構(gòu)建 FAQ (Frequently Asked Questions,常用問題解答) 庫,將用戶的問句與問題庫中的問句進(jìn)行相似度匹配,直接返回對(duì)應(yīng)的答案。

AskMSR: Shallow approach

AskMSR 是 Microsoft Research 提出的是一種簡(jiǎn)易的基于檢索的問答系統(tǒng)。

其大體步驟分為六步:

  1. Rewrite Query:重寫查詢,并將問句類型歸類。
  2. Search Engine:將所有重寫結(jié)果輸入到搜索引擎,返回前若干個(gè)文檔。
  3. Mine N-grams:文檔分詞,N 通常枚舉 1,2,3,根據(jù)出現(xiàn)頻率給出置信度。
  4. Filter N-grams:過濾分詞結(jié)果,保留與問題類型相關(guān)的。
  5. Tile N-grams:組合分詞結(jié)果,把重疊可拼接的詞 merge,置信度也相加。
  6. N-best Answers:答案通常都是多個(gè),以置信度排序。

重寫查詢 | Query Rewriting

如果只是檢索用戶輸入的問句,很可能返回的就是含有句子本身的文檔。而根據(jù)我們的直覺:用戶需要的答案通常在語義上與查詢相近的句子中。為此,我們需要將疑問句改寫成陳述句,如果在文本中有這樣一句陳述句,它可能本身就包含了問題的答案。

重寫后的陳述句不一定是滿足語法規(guī)則的句子,但是這并不影響檢索結(jié)果。一個(gè) query 可以被改寫成若干個(gè)問題,并通過搜索引擎查詢更多個(gè)相似的文本片段。

此外,重寫問句時(shí),通常要對(duì)語言的語法規(guī)則有一點(diǎn)了解,從而對(duì)問題進(jìn)行分類。如在英語中:Who 對(duì)應(yīng)人名,When 對(duì)應(yīng)時(shí)間,Where 對(duì)應(yīng)地名等。這將用于后續(xù)的分詞結(jié)果的過濾。

模式挖掘 | ISI: Surface patterns approach

在 AskMSR 中,我們只在句法相近的句子中尋找答案,但是實(shí)際上很多答案會(huì)隱藏在不同的形式中。如果我們使用特征短語——模式(Pattern),就可以檢索到不同形式的答案。

例如在問題 “When was person born ?” 中,答案的形式可能是:

  • Mozart was born in 1756.
  • Gandhi (1869-1948) ...

這兩種特征短語可以挖掘出如下的模式:

  • NAME was born in BIRTHDATE
  • NAME (BIRTHDATE - DEATHDATE)

對(duì)于不同的模式,我們也可以賦予不同的置信度(準(zhǔn)確度)。而后我們就可以用這兩種模式在搜索引擎中匹配結(jié)果,并根據(jù)置信度返回結(jié)果排序。

在 2002 年 Hovy 等人還提出 QA Typology 的問答分類體系,將常見的問答分為以下六種類型:BIRTHDATE、LOCATION、INVENTOR、DISCOVERER、DEFINITION、WHY-FAMOUS,并給出了對(duì)應(yīng)類型下常用的模式和置信度。這在使用中取得了較高的 MRR (Mean Reciprocal Rank)。

Shortcomings & Extensions

接下來分析 ISI 可能出現(xiàn)的問題,以及改進(jìn)的方法。

第一,由于使用了簡(jiǎn)單的字符串匹配,可能會(huì)在文檔中出現(xiàn)「模式符合,但并非答案」的句子,這就需要利用詞性標(biāo)注(Part-Of-Speech Tagging)對(duì)答案內(nèi)容加以分析,從而修改置信度。

第二,原始的模式不支持長(zhǎng)距離答案的匹配,實(shí)際中的陳述句中如果含有形容詞、副詞或者更長(zhǎng)的插入語,就容易割裂模式。如「Mozart, who was a famous classical composer, was born in 1756.」中,原始的模式就會(huì)漏掉答案。因此我們需要在原始的模式中插入可任意文本填充的空白字段。

第三,當(dāng)問句中的 NAME同義詞或釋義的形式出現(xiàn)時(shí),直接字符串匹配的模式也會(huì)漏掉答案。這時(shí)就需要對(duì)問句中的關(guān)鍵詞進(jìn)行語義上的擴(kuò)展,需要用到 WordNet 等詞典。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容