ik分詞器

ik分詞器出現(xiàn)的背景:
分詞:即把一段中文或者別的劃分成一個個的關(guān)鍵字,我們在搜索時候會把自己的信息進行分詞,會把數(shù)據(jù)庫中或者索引庫中的數(shù)據(jù)進行分詞,然后進行一個匹配操作,
默認(rèn)的中文分詞是將每個字看成一個詞,比如"中國的花"會被分為"中","國","的","花",這顯然是不符合要求的,所以我們需要安裝中文分詞器ik來解決這個問題。


IK提供了兩個分詞算法
ik_smart 和 ik_max_word
其中 ik_smart 為最少切分,ik_max_word為最細(xì)粒度劃分

我們分別來試一下 
(1)最小切分:在瀏覽器地址欄輸入地址 
http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text=我是程序員 
輸出的結(jié)果為:
  "tokens" : [
    {
      "token" : "我",
      "start_offset" : 0,    
      "end_offset" : 1,
      "type" : "CN_CHAR",  
      "position" : 0 
    },
    {
      "token" : "是",
      "start_offset" : 1, 
      "end_offset" : 2,
      "type" : "CN_CHAR",  
      "position" : 1 
    },
    {
      "token" : "程序員",   
      "start_offset" : 2,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 2 
    }
  ]
}
(2)最細(xì)切分:在瀏覽器地址欄輸入地址
http://127.0.0.1:9200/_analyze?analyzer=ik_max_word&pretty=true&text=我是程序員
輸出的結(jié)果為:
{  "tokens" : [
    {
      "token" : "我",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_CHAR",
      "position" : 0 
    },
    {
      "token" : "是",
      "start_offset" : 1,
      "end_offset" : 2,
      "type" : "CN_CHAR", 
      "position" : 1 
    },
    {
      "token" : "程序員", 
     "start_offset" : 2, 
     "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 2 
    },
    {
      "token" : "程序",
      "start_offset" : 2, 
     "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 3 
    },
    {
      "token" : "員",
      "start_offset" : 4, 
     "end_offset" : 5,
      "type" : "CN_CHAR",
      "position" : 4 
    }
  ]
}

ik分詞器支持自定義詞庫

默認(rèn)的分詞并沒有識別“小明”是一個詞。如果我們想讓系統(tǒng)識別“小明”是一個詞,需要編輯自定義詞庫。
步驟:
(1)進入elasticsearch/plugins/ik/config目錄
(2)新建一個my.dic文件,編輯內(nèi)容:
小明
修改IKAnalyzer.cfg.xml(在ik/config目錄下)

 <properties>
    <comment>IK Analyzer 擴展配置</comment>
    <!‐‐用戶可以在這里配置自己的擴展字典 ‐‐>
    <entry key="ext_dict">my.dic</entry>
     <!‐‐用戶可以在這里配置自己的擴展停止詞字典‐‐>
    <entry key="ext_stopwords"></entry>
</properties>

重新啟動elasticsearch即可

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容