国产91专区,伊人大香蕉久久在线网,一区二区九色视频人妻

Solr支持從富文本文件中，如pdf,word中抽取內(nèi)容建立索引。

首先，需要配置支持這一功能的requestHandler。編輯solrconfig.xml,加入：

 <requestHandler name="/update/extract"     class="solr.extraction.ExtractingRequestHandler" >  
    <lst name="defaults">
      <str name="fmap.content">content</str>
      <str name="fmap.Content-Type">Content-Type</str>
      <str name="uprefix">ignored_</str>
    </lst>
    <lst name="date.formats">
      <str>yyyy-MM-dd</str>
    </lst>
  </requestHandler>

solr.extraction.ExtractingRequestHandler就是solr中用來處理富文本的handler。為了使用這個類我們我們需要拷貝jar包：solr-dataimporthandler-extras.jar到lib目錄，并確認solrconfig.xml中的lib配置包含它。

<div class="alert alert-info" role="info">
ExtractingRequestHandler底層實際是使用apache Tika進行文件內(nèi)容抽取的，
</div>

配置解釋：

<requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >：其中name=update/extract為改request的請求路徑。
fmap.xxx 為從文件中抽取的內(nèi)容，定義這些內(nèi)容如何存儲。如在這里：

   <str name="fmap.content">content</str>  <!--文件內(nèi)容-->
   <str name="fmap.Content-Type">Content-Type</str> <!--文件類型-->

官方文檔關(guān)于fmap的描述：

意思很簡單就是字段的映射。

uprefix 這個配置用于將文件中其它不需要的內(nèi)容統(tǒng)一加上指定前綴，如這里加上了ignored_。在schema.xml中有該字段與類型配置：

<dynamicField name="ignored_*" type="ignored" multiValued="true"/>
<fieldType name="ignored" stored="false" indexed="false" multiValued="true" class="solr.StrField" />

這是個動態(tài)字段，即所有以ignored_開頭的字段都按ignored這個type處理。在這達到的忽略這些數(shù)據(jù)的目的。

調(diào)用/update/extract完成文件索引

調(diào)用/update/extrac的方式有很多種，下面介紹使用solr4j api在java工程里調(diào)用：

//建立客戶端連接
SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");

//單個文件索引
public void  indexFromFile(String fileName,String id) throws Exception{
        //ContentStreamUpdateRequest 是專門用來提交文件的
        ContentStreamUpdateRequest  request=new ContentStreamUpdateRequest("/update/extract");
        String contentType="application/text";
        
        request.addFile(new File(fileName), contentType);
       //literal.xxx 文件以外的字段，xxx將直接映射到schema.xml中的同名字段
        request.setParam("literal.id", String.valueOf(id));  
        request.setParam("literal.author", author);  
        request.setParam("literal.title", tilte);  

        request.setAction(AbstractUpdateRequest.ACTION.OPTIMIZE, true, true);   
        client.request(request);
        
        client.commit();
        
    }

public static void main(String[] args)  {
        try{
        SolrMananger client=new SolrMananger();
        client.indexFromFile("e:/apache-solr-ref-guide-5.3.pdf", 1, "Justn", "solr-ref");
        }catch(Exception e){
            e.printStackTrace();
        }
        }

運行后，查看solr控制臺，使用query驗證文件是否成功索引。

可以看到查詢結(jié)果，且各個字段的值都與預想一樣。

關(guān)于批量文件生成索引，需要注意性能問題，應做到：

原文：http://my.oschina.net/u/1403753/blog/468439

client.commit();操作應該放在最外層，即最后提交一次。
不設置action。
一個文件一個ContentStreamUpdateRequest對象，否則會造成contentStream遞增，從而影響效率。

代碼如下：

SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");
ContentStreamUpdateRequest request;
for(File file:files){
    request=new ContentStreamUpdateRequest("/update/extract");
    request.addFile(new File("mailing_lists.pdf"));
    request.setParam("literal.id", "mailing_lists.pdf");
    //request.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);//注釋這行代碼。
    client.request(request);
} 
client.commit();

schemal.xml:


<?xml version="1.0" encoding="UTF-8" ?>
<schema name="sjsmhp" version="1.5">
   <uniqueKey>id</uniqueKey>
   <field name="id" type="long" indexed="true" stored="true" required="true" multiValued="false" ></field> 
   <field name="content" type="text_general" indexed="true"  stored="true"  omitNorms="true"></field> 
   <field name="author" type="text_general" indexed="true" stored="true" ></field> 
   <field name="title" type="text_general" indexed="true" stored="true" ></field> 
   <field name="docType" type="string" indexed="true" stored="true" ></field>
   <field name="Content-Type" type="string" indexed="false" stored="true"></field> 
   <field name="last_modified" type="date" indexed="true" stored="true"  ></field>  
   <field name="_version_" type="long" indexed="true" stored="true"></field>
   <field name="_root_" type="string" indexed="true" stored="false"></field>
   <dynamicField name="ignored_*" type="ignored" multiValued="true"></dynamicField> 
    <fieldType name="string" class="solr.StrField" sortMissingLast="true" ></fieldType>
    <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true"></fieldType>
    <fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0" ></fieldType>
    <fieldType name="float" class="solr.TrieFloatField" precisionStep="0" positionIncrementGap="0"></fieldType>
    <fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"></fieldType>
    <fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" positionIncrementGap="0"></fieldType>
    <fieldType name="date" class="solr.TrieDateField" precisionStep="0" positionIncrementGap="0"></fieldType>
   <fieldType name="ignored" stored="false" indexed="false" multiValued="true" class="solr.StrField" ></fieldType>

   <!--中英文分詞-->
    <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"></tokenizer>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" ></filter>
        <filter class="solr.LowerCaseFilterFactory"></filter>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"></tokenizer>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" ></filter>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"></filter>
        <filter class="solr.LowerCaseFilterFactory"></filter>
      </analyzer>
    </fieldType>
</schema>

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Solr-富文本索引

Solr-富文本索引

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Solr-富文本索引

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av