信息檢索復(fù)習(xí)(5)——相關(guān)反饋及查詢擴展

查詢優(yōu)化

  1. 全局方法
  • 基于同義詞詞典或wordnet的查詢擴展或重構(gòu)方法
  • 自動構(gòu)造同義詞詞典并基于它進(jìn)行查詢擴展
  • 類似拼寫校正的技術(shù)
  1. 局部方法
  • 相關(guān)反饋
  • 偽相關(guān)反饋
  • 間接相關(guān)反饋

相關(guān)反饋和偽相關(guān)反饋

  • RF(relevance feedback,相關(guān)反饋):在信息檢索的過程中通過用戶交互來提高最終的檢索結(jié)果。
  • 過程:
    • 用戶提交簡短的過程
    • 系統(tǒng)返回初次檢索結(jié)果
    • 用戶將部分結(jié)果進(jìn)行標(biāo)注,標(biāo)注為相關(guān)或不相關(guān)
    • 系統(tǒng)基于用戶的反饋計算出一個更好的查詢來 表示信息需求
    • 利用新查詢系統(tǒng)返回新檢索結(jié)果

Rocchio相關(guān)反饋算法

  • 基本理論:找到一個最優(yōu)查詢向量q,它與相關(guān)文檔之間的相似度最大且同時又與不相關(guān)文檔之間的相似度最小。


  • 最優(yōu)的查詢向量等于相關(guān)文檔的質(zhì)心向量和不相關(guān)文檔的質(zhì)心向量的差


  • q0 是原始的查詢向量,Dr 和Dnr 是已知的相關(guān)和不相關(guān)文檔集合。α、β 及γ 是上述三者的權(quán)重。這些權(quán)重能夠控制判定結(jié)果和原始查詢向量之間的平衡:如果存在大量已判斷的文檔,那么會給β 及γ 賦予較高的權(quán)重。修改后的新查詢從q0 開始,向著相關(guān)文檔的質(zhì)心向量靠近了一段距離,而同時又與不相關(guān)文檔的質(zhì)心向量遠(yuǎn)離了一段距離。新查詢可以采用常規(guī)的向量空間模型進(jìn)行檢索。通過減去不相關(guān)文檔的向量,我們很容易保留向量空間的正值分量。在Rocchio 算法中,文檔向量中的權(quán)重分量如果為負(fù)值,那么該分量將會被忽略,也就是說,此時會將該分量權(quán)重設(shè)為0。
    正反饋往往比負(fù)反饋更有價值,在很多IR系統(tǒng)中,會將參數(shù)設(shè)置成 y < b,一個合理的取值是 a = 1, b = 0.75, y = 0.15



基于概率的相關(guān)反饋方法

  • 如果已知一些相關(guān)和不相關(guān)文檔,我們可以通過建立分類器而不是修改查詢向量的權(quán)重進(jìn)行相關(guān)反饋。一種實現(xiàn)分類器的方法是采用樸素貝葉斯概率模型,這樣,就可以根據(jù)文檔的相關(guān)性,來估計詞項 t 出現(xiàn)在該文檔中的概率



相關(guān)反饋的作用時機

  1. 用戶需要有足夠的知識來建立一個不錯的初始查詢。
  2. 相關(guān)反饋要求相關(guān)文檔間非常相似。Rocchio相關(guān)反饋模型通過計算簇質(zhì)心向量,隱式的將相關(guān)文檔看成單個簇。如果相關(guān)文檔包括多個不同子類,即它們在向量空間中可以聚成多個簇,那么Rocchio方法效果會不太好。
  • 相關(guān)反饋不能解決的問題
    • 拼寫錯誤
    • 跨語言IR
    • 用戶的詞匯表和文檔集的詞匯表不匹配

Web上的相關(guān)反饋

  • 相關(guān)反饋技術(shù)在Web很少使用(高級搜索)
    1. 相關(guān)反饋很難向普通用戶解釋清楚
    2. 相關(guān)反饋技術(shù)主要提高召回率,而Web搜索用戶并不在乎

相關(guān)反饋策略的評價

  • 至少需要有5篇已判定的文檔
  1. q0的正確率-召回率曲線,qm的正確率-召回率曲線,一般MAP指標(biāo)會有50%的提升。(只對用戶沒有看過的文檔進(jìn)行評價)
  2. 利用剩余文檔對反饋后的結(jié)果進(jìn)行評價
  3. 給出兩個文檔集,一個用于初始查詢和相關(guān)性判定,另一個用于比較和評價
  • 更好的評價方法:進(jìn)行用戶調(diào)查
    基于時間:與其他方法相比,用戶采用相關(guān)反饋技術(shù)找到相關(guān)文檔的時間是否更短 / 用戶在固定時間內(nèi)是否能找到更多的相關(guān)文檔

偽相關(guān)反饋(pseudo relevance)(盲相關(guān)反饋 blind relevance feedback)

它將相關(guān)反饋的人工操作部分自動化,因此,不同于Rocchio算法,用戶不再需要進(jìn)行額外的交互。該方法首先進(jìn)行正常的檢索過程,返回最相關(guān)的文檔構(gòu)成初始集,然后假設(shè)排名靠前的k篇文檔時相關(guān)的,最后在此假設(shè)上像以往一樣進(jìn)行相關(guān)反饋。


間接相關(guān)反饋(隱相關(guān)反饋 implicit relevance feedback)

  • Web搜索引擎DirectHit就引入了一種文檔排序的思路,即對于某文檔,如果用戶瀏覽的次數(shù)越多,它的排名越高。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Solr&ElasticSearch原理及應(yīng)用 一、綜述 搜索 http://baike.baidu.com/it...
    樓外樓V閱讀 7,648評論 1 17
  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 14,439評論 2 64
  • 按:本文淺談信息檢索是什么,為什么,怎么做等問題,主要內(nèi)容是Manning等人著的《信息檢索導(dǎo)論》前八張的讀書筆記...
    紅色的Ricky閱讀 8,966評論 0 15
  • 連著兩個晚上看完這本書,在微盤下載的mobi版本非常好。 才知道這本書算是《達(dá)芬奇密碼》的前傳,而且2009年已經(jīng)...
    止末閱讀 904評論 0 5
  • 只是,如果你有幸遇到這個階段的女人,請善待她。即使以后不在一起,也要讓她有再愛的勇氣。因為你的所有言行,終將會刻在...
    溟夜星辰閱讀 258評論 0 1

友情鏈接更多精彩內(nèi)容