Solr-富文本索引

Solr支持從富文本文件中,如pdf,word中抽取內(nèi)容建立索引。

首先,需要配置支持這一功能的requestHandler。編輯solrconfig.xml,加入:

 <requestHandler name="/update/extract"     class="solr.extraction.ExtractingRequestHandler" >  
    <lst name="defaults">
      <str name="fmap.content">content</str>
      <str name="fmap.Content-Type">Content-Type</str>
      <str name="uprefix">ignored_</str>
    </lst>
    <lst name="date.formats">
      <str>yyyy-MM-dd</str>
    </lst>
  </requestHandler>  

solr.extraction.ExtractingRequestHandler就是solr中用來處理富文本的handler。為了使用這個類我們我們需要拷貝jar包:solr-dataimporthandler-extras.jar到lib目錄,并確認solrconfig.xml中的lib配置包含它。

<div class="alert alert-info" role="info">
ExtractingRequestHandler底層實際是使用apache Tika進行文件內(nèi)容抽取的,
</div>

配置解釋:

  • <requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >:其中name=update/extract為改request的請求路徑。

  • fmap.xxx 為從文件中抽取的內(nèi)容,定義這些內(nèi)容如何存儲。如在這里:

   <str name="fmap.content">content</str>  <!--文件內(nèi)容-->
   <str name="fmap.Content-Type">Content-Type</str> <!--文件類型-->

官方文檔關(guān)于fmap的描述:

意思很簡單就是字段的映射。

  • uprefix 這個配置用于將文件中其它不需要的內(nèi)容統(tǒng)一加上指定前綴,如這里加上了ignored_。在schema.xml中有該字段與類型配置:
<dynamicField name="ignored_*" type="ignored" multiValued="true"/>
<fieldType name="ignored" stored="false" indexed="false" multiValued="true" class="solr.StrField" />

這是個動態(tài)字段,即所有以ignored_開頭的字段都按ignored這個type處理。在這達到的忽略這些數(shù)據(jù)的目的。

調(diào)用/update/extract完成文件索引

調(diào)用/update/extrac的方式有很多種,下面介紹使用solr4j api在java工程里調(diào)用:

//建立客戶端連接
SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");

//單個文件索引
public void  indexFromFile(String fileName,String id) throws Exception{
        //ContentStreamUpdateRequest 是專門用來提交文件的
        ContentStreamUpdateRequest  request=new ContentStreamUpdateRequest("/update/extract");
        String contentType="application/text";
        
        request.addFile(new File(fileName), contentType);
       //literal.xxx 文件以外的字段,xxx將直接映射到schema.xml中的同名字段
        request.setParam("literal.id", String.valueOf(id));  
        request.setParam("literal.author", author);  
        request.setParam("literal.title", tilte);  

        request.setAction(AbstractUpdateRequest.ACTION.OPTIMIZE, true, true);   
        client.request(request);
        
        client.commit();
        
    }

public static void main(String[] args)  {
        try{
        SolrMananger client=new SolrMananger();
        client.indexFromFile("e:/apache-solr-ref-guide-5.3.pdf", 1, "Justn", "solr-ref");
        }catch(Exception e){
            e.printStackTrace();
        }
        }

運行后,查看solr控制臺,使用query驗證文件是否成功索引。



可以看到查詢結(jié)果,且各個字段的值都與預想一樣。

關(guān)于批量文件生成索引,需要注意性能問題,應做到:

原文:http://my.oschina.net/u/1403753/blog/468439

  • client.commit();操作應該放在最外層,即最后提交一次。
  • 不設置action。
  • 一個文件一個ContentStreamUpdateRequest對象,否則會造成contentStream遞增,從而影響效率。

代碼如下:

SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");
ContentStreamUpdateRequest request;
for(File file:files){
    request=new ContentStreamUpdateRequest("/update/extract");
    request.addFile(new File("mailing_lists.pdf"));
    request.setParam("literal.id", "mailing_lists.pdf");
    //request.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);//注釋這行代碼。
    client.request(request);
} 
client.commit();

schemal.xml:


<?xml version="1.0" encoding="UTF-8" ?>
<schema name="sjsmhp" version="1.5">
   <uniqueKey>id</uniqueKey>
   <field name="id" type="long" indexed="true" stored="true" required="true" multiValued="false" ></field> 
   <field name="content" type="text_general" indexed="true"  stored="true"  omitNorms="true"></field> 
   <field name="author" type="text_general" indexed="true" stored="true" ></field> 
   <field name="title" type="text_general" indexed="true" stored="true" ></field> 
   <field name="docType" type="string" indexed="true" stored="true" ></field>
   <field name="Content-Type" type="string" indexed="false" stored="true"></field> 
   <field name="last_modified" type="date" indexed="true" stored="true"  ></field>  
   <field name="_version_" type="long" indexed="true" stored="true"></field>
   <field name="_root_" type="string" indexed="true" stored="false"></field>
   <dynamicField name="ignored_*" type="ignored" multiValued="true"></dynamicField> 
    <fieldType name="string" class="solr.StrField" sortMissingLast="true" ></fieldType>
    <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true"></fieldType>
    <fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0" ></fieldType>
    <fieldType name="float" class="solr.TrieFloatField" precisionStep="0" positionIncrementGap="0"></fieldType>
    <fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"></fieldType>
    <fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" positionIncrementGap="0"></fieldType>
    <fieldType name="date" class="solr.TrieDateField" precisionStep="0" positionIncrementGap="0"></fieldType>
   <fieldType name="ignored" stored="false" indexed="false" multiValued="true" class="solr.StrField" ></fieldType>

   <!--中英文分詞-->
    <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"></tokenizer>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" ></filter>
        <filter class="solr.LowerCaseFilterFactory"></filter>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"></tokenizer>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" ></filter>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"></filter>
        <filter class="solr.LowerCaseFilterFactory"></filter>
      </analyzer>
    </fieldType>
</schema>

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,537評論 19 139
  • 1 準備工作及相關(guān)介紹 solr和lucene的版本是同步更新的,最新版本是6.5.0。本案例使用4.10.3 j...
    阿太哥閱讀 2,408評論 1 5
  • Spring Boot 參考指南 介紹 轉(zhuǎn)載自:https://www.gitbook.com/book/qbgb...
    毛宇鵬閱讀 47,262評論 6 342
  • 兩年前用過solr5.1版本的,當時只是簡單入個門,拿來在項目里建個全文索引,然后再query,其他什么也沒做,還...
    Coselding閱讀 3,235評論 3 22
  • 如果一個人沒有建立系統(tǒng)性思維,長期做碎片閱讀,只會讓自己的大腦充斥各種碎片思想、各種有趣的段子,但是就是沒有自己的...
    日積月累的明媚人生閱讀 74評論 0 0

友情鏈接更多精彩內(nèi)容