韩日三级片国产精品,日本人人射网站

訪問博客查看本文最新內(nèi)容，排版更美觀ヾ(?ω?`)o 如有錯(cuò)誤歡迎指出~

IR 信息檢索系列筆記：

IR學(xué)習(xí)筆記 #1 概論&布爾模型

IR學(xué)習(xí)筆記 #2 統(tǒng)計(jì)語言模型

IR學(xué)習(xí)筆記 #3 向量空間模型

IR學(xué)習(xí)筆記 #4 概率模型

IR學(xué)習(xí)筆記 #5 檢索系統(tǒng)評(píng)價(jià)

IR學(xué)習(xí)筆記 #6 網(wǎng)絡(luò)信息檢索

IR學(xué)習(xí)筆記 #7 IRLbot

IR學(xué)習(xí)筆記 #8 倒排索引模型

IR學(xué)習(xí)筆記 #9 網(wǎng)頁排序

IR學(xué)習(xí)筆記 #10 查詢相關(guān)反饋

IR學(xué)習(xí)筆記 #11 問答系統(tǒng)

IR課程項(xiàng)目-文學(xué)檢索-開發(fā)文檔

在傳統(tǒng)的搜索引擎中，通常是以關(guān)鍵詞為索引，通過匹配而返回相似的文檔。然而，有時(shí)用戶在搜索引擎中檢索，并非想得到若干個(gè)網(wǎng)頁，而是直接返回詢問的答案，免去用戶人工定位信息的過程。

問答式信息檢索，是一種允許用戶以自然語言方式詢問，系統(tǒng)從單語或多語文檔集中查找并返回確切答案或者蘊(yùn)含答案文本片斷的新型信息檢索的方式。

要做到這一點(diǎn)，就需要先做到：

理解問句中的查詢意圖。
根據(jù)分析結(jié)果去檢索匹配文檔，盡量縮小范圍。
在返回的文檔中提取答案信息或定位答案文本。

當(dāng)然，早期還有一種做法是構(gòu)建 FAQ (Frequently Asked Questions，常用問題解答) 庫，將用戶的問句與問題庫中的問句進(jìn)行相似度匹配，直接返回對(duì)應(yīng)的答案。

AskMSR: Shallow approach

AskMSR 是 Microsoft Research 提出的是一種簡(jiǎn)易的基于檢索的問答系統(tǒng)。

其大體步驟分為六步：

Rewrite Query：重寫查詢，并將問句類型歸類。
Search Engine：將所有重寫結(jié)果輸入到搜索引擎，返回前若干個(gè)文檔。
Mine N-grams：文檔分詞，N 通常枚舉 1，2，3，根據(jù)出現(xiàn)頻率給出置信度。
Filter N-grams：過濾分詞結(jié)果，保留與問題類型相關(guān)的。
Tile N-grams：組合分詞結(jié)果，把重疊可拼接的詞 merge，置信度也相加。
N-best Answers：答案通常都是多個(gè)，以置信度排序。

重寫查詢 | Query Rewriting

如果只是檢索用戶輸入的問句，很可能返回的就是含有句子本身的文檔。而根據(jù)我們的直覺：用戶需要的答案通常在語義上與查詢相近的句子中。為此，我們需要將疑問句改寫成陳述句，如果在文本中有這樣一句陳述句，它可能本身就包含了問題的答案。

重寫后的陳述句不一定是滿足語法規(guī)則的句子，但是這并不影響檢索結(jié)果。一個(gè) query 可以被改寫成若干個(gè)問題，并通過搜索引擎查詢更多個(gè)相似的文本片段。

此外，重寫問句時(shí)，通常要對(duì)語言的語法規(guī)則有一點(diǎn)了解，從而對(duì)問題進(jìn)行分類。如在英語中：Who 對(duì)應(yīng)人名，When 對(duì)應(yīng)時(shí)間，Where 對(duì)應(yīng)地名等。這將用于后續(xù)的分詞結(jié)果的過濾。

模式挖掘 | ISI: Surface patterns approach

在 AskMSR 中，我們只在句法相近的句子中尋找答案，但是實(shí)際上很多答案會(huì)隱藏在不同的形式中。如果我們使用特征短語——模式（Pattern），就可以檢索到不同形式的答案。

例如在問題 “When was person born ?” 中，答案的形式可能是：

Mozart was born in 1756.
Gandhi (1869-1948) ...

這兩種特征短語可以挖掘出如下的模式：

NAME was born in BIRTHDATE
NAME (BIRTHDATE - DEATHDATE)

對(duì)于不同的模式，我們也可以賦予不同的置信度（準(zhǔn)確度）。而后我們就可以用這兩種模式在搜索引擎中匹配結(jié)果，并根據(jù)置信度返回結(jié)果排序。

在 2002 年 Hovy 等人還提出 QA Typology 的問答分類體系，將常見的問答分為以下六種類型：BIRTHDATE、LOCATION、INVENTOR、DISCOVERER、DEFINITION、WHY-FAMOUS，并給出了對(duì)應(yīng)類型下常用的模式和置信度。這在使用中取得了較高的 MRR (Mean Reciprocal Rank)。

Shortcomings & Extensions

接下來分析 ISI 可能出現(xiàn)的問題，以及改進(jìn)的方法。

第一，由于使用了簡(jiǎn)單的字符串匹配，可能會(huì)在文檔中出現(xiàn)「模式符合，但并非答案」的句子，這就需要利用詞性標(biāo)注（Part-Of-Speech Tagging）對(duì)答案內(nèi)容加以分析，從而修改置信度。

第二，原始的模式不支持長(zhǎng)距離答案的匹配，實(shí)際中的陳述句中如果含有形容詞、副詞或者更長(zhǎng)的插入語，就容易割裂模式。如「Mozart, who was a famous classical composer, was born in 1756.」中，原始的模式就會(huì)漏掉答案。因此我們需要在原始的模式中插入可任意文本填充的空白字段。

第三，當(dāng)問句中的 NAME 以同義詞或釋義的形式出現(xiàn)時(shí)，直接字符串匹配的模式也會(huì)漏掉答案。這時(shí)就需要對(duì)問句中的關(guān)鍵詞進(jìn)行語義上的擴(kuò)展，需要用到 WordNet 等詞典。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

『IR 信息檢索入門必看』#11 問答系統(tǒng)（簡(jiǎn)明）

『IR 信息檢索入門必看』#11 問答系統(tǒng)（簡(jiǎn)明）

AskMSR: Shallow approach

重寫查詢 | Query Rewriting

模式挖掘 | ISI: Surface patterns approach

Shortcomings & Extensions

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

『IR 信息檢索入門必看』#11 問答系統(tǒng)（簡(jiǎn)明）

AskMSR: Shallow approach

重寫查詢 | Query Rewriting

模式挖掘 | ISI: Surface patterns approach

Shortcomings & Extensions

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av