搜索引擎Indri系列:檢索 (Retrieval)

query parameter file 中的參數(shù)寫在xml格式的文本中。下面詳細說明參數(shù)的使用方法。

<parameters>          
    <rule>method:linear,collectionLambda:0.4,documentLambda:0.0</rule>  
    <index>/home/Index</index>
    <count>1000</count>
    <query>  
        <number>51</number>  
        <text>#combine(Airbus Subsidies)</text>
        <workingSetDocno>clueweb09-en0000-00-00004</workingSetDocno>    #指定該參數(shù)后,query evaluation將在這些文檔中進行
        <workingSetDocno>clueweb09-en0000-00-00005</workingSetDocno
        <workingSetDocno>clueweb09-en0000-00-00006</workingSetDocno>
        </query>  
    <query>  
        <number>52</number>  
        <text>#combine(South African Sanctions)</text>
    </query> 

    <fbDocs>10</fbDocs>
    <fbTerms>20</fbTerms>
    <fbMu>0</fbMu>
    <fbOrigWeight>0.5</fbOrigWeight>

    <trecFormat>true</trecFormat>
    <queryOffset>1</queryOffset>
    <runID>indri_query_test</runID>
</parameters>  

Retrieval model

  • Indri提供TF-IDF,BM25,Language Model三種檢索模型。
  • Language Model提供Jelinek-Mercer,Dirichlet,Two-Stage三種smoothing方法。
  • Indri默認使用Language Model。
  • TF-IDF,BM25通過<baseline>設(shè)置,Language Model通過<rule>設(shè)置。
<rule>method:linear,collectionLambda:0.4,documentLambda:0.0</rule> #Jelinek-Mercer
<rule>method:dirichlet,mu:2500</rule> #Dirichlet
<rule>method:twostage,mu:2500,lambda:0.4</rule> #Two-Stage
<baseline>tfidf,k1:1.2,b:0.75</baseline> # TF-IDF
<baseline>okapi,k1:1.2, k3:7, b:0.75</baseline> #BM25

注意這里的值均為Indri默認值。

Feedback Model

  • Indri的pseudo-relevance feedback model 是依據(jù) (LavrenkoCroft, 2001)中的模型實現(xiàn)的。
  • 只有TF-IDF和Language Model支持feedback,BM25不支持。
  • 參數(shù)說明:
 fbDocs:指定用于Feedback Model的文檔數(shù),整型。
fbTerms:指定用于Feedback Model的詞數(shù),整型。
fbMu:Feedback Model中會使用Language Model進行第一次檢索,這里的mu值就是Language Model的參數(shù),默認為0,浮點型。
fbOrigWeight:指定原查詢的詞與擴展的詞的權(quán)重。默認為0.5,浮點型。

參考文獻:

  1. https://sourceforge.net/p/lemur/wiki/IndriRunQuery/
  2. http://lemur.sourceforge.net/indri/IndriRunQuery.html
  3. https://sourceforge.net/p/lemur/wiki/Indri%20Retrieval%20Model/
  4. http://lemur.sourceforge.net/indri/IndriParameters.html
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容