查詢優(yōu)化
- 全局方法
- 基于同義詞詞典或wordnet的查詢擴展或重構(gòu)方法
- 自動構(gòu)造同義詞詞典并基于它進(jìn)行查詢擴展
- 類似拼寫校正的技術(shù)
- 局部方法
- 相關(guān)反饋
- 偽相關(guān)反饋
- 間接相關(guān)反饋
相關(guān)反饋和偽相關(guān)反饋
- RF(relevance feedback,相關(guān)反饋):在信息檢索的過程中通過用戶交互來提高最終的檢索結(jié)果。
- 過程:
- 用戶提交簡短的過程
- 系統(tǒng)返回初次檢索結(jié)果
- 用戶將部分結(jié)果進(jìn)行標(biāo)注,標(biāo)注為相關(guān)或不相關(guān)
- 系統(tǒng)基于用戶的反饋計算出一個更好的查詢來 表示信息需求
- 利用新查詢系統(tǒng)返回新檢索結(jié)果
Rocchio相關(guān)反饋算法
-
基本理論:找到一個最優(yōu)查詢向量q,它與相關(guān)文檔之間的相似度最大且同時又與不相關(guān)文檔之間的相似度最小。
-
最優(yōu)的查詢向量等于相關(guān)文檔的質(zhì)心向量和不相關(guān)文檔的質(zhì)心向量的差
-
q0 是原始的查詢向量,Dr 和Dnr 是已知的相關(guān)和不相關(guān)文檔集合。α、β 及γ 是上述三者的權(quán)重。這些權(quán)重能夠控制判定結(jié)果和原始查詢向量之間的平衡:如果存在大量已判斷的文檔,那么會給β 及γ 賦予較高的權(quán)重。修改后的新查詢從q0 開始,向著相關(guān)文檔的質(zhì)心向量靠近了一段距離,而同時又與不相關(guān)文檔的質(zhì)心向量遠(yuǎn)離了一段距離。新查詢可以采用常規(guī)的向量空間模型進(jìn)行檢索。通過減去不相關(guān)文檔的向量,我們很容易保留向量空間的正值分量。在Rocchio 算法中,文檔向量中的權(quán)重分量如果為負(fù)值,那么該分量將會被忽略,也就是說,此時會將該分量權(quán)重設(shè)為0。
正反饋往往比負(fù)反饋更有價值,在很多IR系統(tǒng)中,會將參數(shù)設(shè)置成 y < b,一個合理的取值是 a = 1, b = 0.75, y = 0.15


基于概率的相關(guān)反饋方法
-
如果已知一些相關(guān)和不相關(guān)文檔,我們可以通過建立分類器而不是修改查詢向量的權(quán)重進(jìn)行相關(guān)反饋。一種實現(xiàn)分類器的方法是采用樸素貝葉斯概率模型,這樣,就可以根據(jù)文檔的相關(guān)性,來估計詞項 t 出現(xiàn)在該文檔中的概率
相關(guān)反饋的作用時機
- 用戶需要有足夠的知識來建立一個不錯的初始查詢。
- 相關(guān)反饋要求相關(guān)文檔間非常相似。Rocchio相關(guān)反饋模型通過計算簇質(zhì)心向量,隱式的將相關(guān)文檔看成單個簇。如果相關(guān)文檔包括多個不同子類,即它們在向量空間中可以聚成多個簇,那么Rocchio方法效果會不太好。
- 相關(guān)反饋不能解決的問題
- 拼寫錯誤
- 跨語言IR
- 用戶的詞匯表和文檔集的詞匯表不匹配
Web上的相關(guān)反饋
- 相關(guān)反饋技術(shù)在Web很少使用(高級搜索)
- 相關(guān)反饋很難向普通用戶解釋清楚
- 相關(guān)反饋技術(shù)主要提高召回率,而Web搜索用戶并不在乎
相關(guān)反饋策略的評價
- 至少需要有5篇已判定的文檔
- q0的正確率-召回率曲線,qm的正確率-召回率曲線,一般MAP指標(biāo)會有50%的提升。(只對用戶沒有看過的文檔進(jìn)行評價)
- 利用剩余文檔對反饋后的結(jié)果進(jìn)行評價
- 給出兩個文檔集,一個用于初始查詢和相關(guān)性判定,另一個用于比較和評價
- 更好的評價方法:進(jìn)行用戶調(diào)查
基于時間:與其他方法相比,用戶采用相關(guān)反饋技術(shù)找到相關(guān)文檔的時間是否更短 / 用戶在固定時間內(nèi)是否能找到更多的相關(guān)文檔
偽相關(guān)反饋(pseudo relevance)(盲相關(guān)反饋 blind relevance feedback)
它將相關(guān)反饋的人工操作部分自動化,因此,不同于Rocchio算法,用戶不再需要進(jìn)行額外的交互。該方法首先進(jìn)行正常的檢索過程,返回最相關(guān)的文檔構(gòu)成初始集,然后假設(shè)排名靠前的k篇文檔時相關(guān)的,最后在此假設(shè)上像以往一樣進(jìn)行相關(guān)反饋。
間接相關(guān)反饋(隱相關(guān)反饋 implicit relevance feedback)
- Web搜索引擎DirectHit就引入了一種文檔排序的思路,即對于某文檔,如果用戶瀏覽的次數(shù)越多,它的排名越高。



