訪問博客查看 本文 最新內(nèi)容,排版更美觀ヾ(?ω?`)o 如有錯(cuò)誤歡迎指出~
IR 信息檢索系列筆記:
- IR學(xué)習(xí)筆記 #1 概論&布爾模型
- IR學(xué)習(xí)筆記 #2 統(tǒng)計(jì)語言模型
- IR學(xué)習(xí)筆記 #3 向量空間模型
- IR學(xué)習(xí)筆記 #4 概率模型
- IR學(xué)習(xí)筆記 #5 檢索系統(tǒng)評(píng)價(jià)
- IR學(xué)習(xí)筆記 #6 網(wǎng)絡(luò)信息檢索
- IR學(xué)習(xí)筆記 #7 IRLbot
- IR學(xué)習(xí)筆記 #8 倒排索引模型
- IR學(xué)習(xí)筆記 #9 網(wǎng)頁排序
- IR學(xué)習(xí)筆記 #10 查詢相關(guān)反饋
- IR學(xué)習(xí)筆記 #11 問答系統(tǒng)
- IR課程項(xiàng)目-文學(xué)檢索-開發(fā)文檔
在傳統(tǒng)的搜索引擎中,通常是以關(guān)鍵詞為索引,通過匹配而返回相似的文檔。然而,有時(shí)用戶在搜索引擎中檢索,并非想得到若干個(gè)網(wǎng)頁,而是直接返回詢問的答案,免去用戶人工定位信息的過程。
問答式信息檢索,是一種允許用戶以自然語言方式詢問,系統(tǒng)從單語或多語文檔集中查找并返回確切答案或者蘊(yùn)含答案文本片斷的新型信息檢索的方式。
要做到這一點(diǎn),就需要先做到:
- 理解問句中的查詢意圖。
- 根據(jù)分析結(jié)果去檢索匹配文檔,盡量縮小范圍。
- 在返回的文檔中提取答案信息或定位答案文本。
當(dāng)然,早期還有一種做法是構(gòu)建 FAQ (Frequently Asked Questions,常用問題解答) 庫,將用戶的問句與問題庫中的問句進(jìn)行相似度匹配,直接返回對(duì)應(yīng)的答案。
AskMSR: Shallow approach
AskMSR 是 Microsoft Research 提出的是一種簡(jiǎn)易的基于檢索的問答系統(tǒng)。
其大體步驟分為六步:
- Rewrite Query:重寫查詢,并將問句類型歸類。
- Search Engine:將所有重寫結(jié)果輸入到搜索引擎,返回前若干個(gè)文檔。
- Mine N-grams:文檔分詞,N 通常枚舉 1,2,3,根據(jù)出現(xiàn)頻率給出置信度。
- Filter N-grams:過濾分詞結(jié)果,保留與問題類型相關(guān)的。
- Tile N-grams:組合分詞結(jié)果,把重疊可拼接的詞 merge,置信度也相加。
- N-best Answers:答案通常都是多個(gè),以置信度排序。
重寫查詢 | Query Rewriting
如果只是檢索用戶輸入的問句,很可能返回的就是含有句子本身的文檔。而根據(jù)我們的直覺:用戶需要的答案通常在語義上與查詢相近的句子中。為此,我們需要將疑問句改寫成陳述句,如果在文本中有這樣一句陳述句,它可能本身就包含了問題的答案。
重寫后的陳述句不一定是滿足語法規(guī)則的句子,但是這并不影響檢索結(jié)果。一個(gè) query 可以被改寫成若干個(gè)問題,并通過搜索引擎查詢更多個(gè)相似的文本片段。
此外,重寫問句時(shí),通常要對(duì)語言的語法規(guī)則有一點(diǎn)了解,從而對(duì)問題進(jìn)行分類。如在英語中:Who 對(duì)應(yīng)人名,When 對(duì)應(yīng)時(shí)間,Where 對(duì)應(yīng)地名等。這將用于后續(xù)的分詞結(jié)果的過濾。
模式挖掘 | ISI: Surface patterns approach
在 AskMSR 中,我們只在句法相近的句子中尋找答案,但是實(shí)際上很多答案會(huì)隱藏在不同的形式中。如果我們使用特征短語——模式(Pattern),就可以檢索到不同形式的答案。
例如在問題 “When was person born ?” 中,答案的形式可能是:
- Mozart was born in 1756.
- Gandhi (1869-1948) ...
這兩種特征短語可以挖掘出如下的模式:
-
NAMEwas born inBIRTHDATE -
NAME(BIRTHDATE-DEATHDATE)
對(duì)于不同的模式,我們也可以賦予不同的置信度(準(zhǔn)確度)。而后我們就可以用這兩種模式在搜索引擎中匹配結(jié)果,并根據(jù)置信度返回結(jié)果排序。
在 2002 年 Hovy 等人還提出 QA Typology 的問答分類體系,將常見的問答分為以下六種類型:BIRTHDATE、LOCATION、INVENTOR、DISCOVERER、DEFINITION、WHY-FAMOUS,并給出了對(duì)應(yīng)類型下常用的模式和置信度。這在使用中取得了較高的 MRR (Mean Reciprocal Rank)。
Shortcomings & Extensions
接下來分析 ISI 可能出現(xiàn)的問題,以及改進(jìn)的方法。
第一,由于使用了簡(jiǎn)單的字符串匹配,可能會(huì)在文檔中出現(xiàn)「模式符合,但并非答案」的句子,這就需要利用詞性標(biāo)注(Part-Of-Speech Tagging)對(duì)答案內(nèi)容加以分析,從而修改置信度。
第二,原始的模式不支持長(zhǎng)距離答案的匹配,實(shí)際中的陳述句中如果含有形容詞、副詞或者更長(zhǎng)的插入語,就容易割裂模式。如「Mozart, who was a famous classical composer, was born in 1756.」中,原始的模式就會(huì)漏掉答案。因此我們需要在原始的模式中插入可任意文本填充的空白字段。
第三,當(dāng)問句中的 NAME 以同義詞或釋義的形式出現(xiàn)時(shí),直接字符串匹配的模式也會(huì)漏掉答案。這時(shí)就需要對(duì)問句中的關(guān)鍵詞進(jìn)行語義上的擴(kuò)展,需要用到 WordNet 等詞典。