query parameter file 中的參數(shù)寫在xml格式的文本中。下面詳細說明參數(shù)的使用方法。
<parameters>
<rule>method:linear,collectionLambda:0.4,documentLambda:0.0</rule>
<index>/home/Index</index>
<count>1000</count>
<query>
<number>51</number>
<text>#combine(Airbus Subsidies)</text>
<workingSetDocno>clueweb09-en0000-00-00004</workingSetDocno> #指定該參數(shù)后,query evaluation將在這些文檔中進行
<workingSetDocno>clueweb09-en0000-00-00005</workingSetDocno
<workingSetDocno>clueweb09-en0000-00-00006</workingSetDocno>
</query>
<query>
<number>52</number>
<text>#combine(South African Sanctions)</text>
</query>
<fbDocs>10</fbDocs>
<fbTerms>20</fbTerms>
<fbMu>0</fbMu>
<fbOrigWeight>0.5</fbOrigWeight>
<trecFormat>true</trecFormat>
<queryOffset>1</queryOffset>
<runID>indri_query_test</runID>
</parameters>
Retrieval model
- Indri提供TF-IDF,BM25,Language Model三種檢索模型。
- Language Model提供Jelinek-Mercer,Dirichlet,Two-Stage三種smoothing方法。
- Indri默認使用Language Model。
- TF-IDF,BM25通過
<baseline>設(shè)置,Language Model通過<rule>設(shè)置。
<rule>method:linear,collectionLambda:0.4,documentLambda:0.0</rule> #Jelinek-Mercer
<rule>method:dirichlet,mu:2500</rule> #Dirichlet
<rule>method:twostage,mu:2500,lambda:0.4</rule> #Two-Stage
<baseline>tfidf,k1:1.2,b:0.75</baseline> # TF-IDF
<baseline>okapi,k1:1.2, k3:7, b:0.75</baseline> #BM25
注意這里的值均為Indri默認值。
Feedback Model
- Indri的pseudo-relevance feedback model 是依據(jù) (LavrenkoCroft, 2001)中的模型實現(xiàn)的。
- 只有TF-IDF和Language Model支持feedback,BM25不支持。
- 參數(shù)說明:
fbDocs:指定用于Feedback Model的文檔數(shù),整型。
fbTerms:指定用于Feedback Model的詞數(shù),整型。
fbMu:Feedback Model中會使用Language Model進行第一次檢索,這里的mu值就是Language Model的參數(shù),默認為0,浮點型。
fbOrigWeight:指定原查詢的詞與擴展的詞的權(quán)重。默認為0.5,浮點型。
參考文獻: