Fuzzy Matching

拼寫錯(cuò)誤

Fuzzy matching允許查詢時(shí)匹配錯(cuò)誤拼寫的單詞。
語音語匯單元過濾器可以在索引時(shí)用來進(jìn)行近似讀音匹配。

模糊性

度量一個(gè)單詞轉(zhuǎn)換到另一個(gè)單詞需要多少次詞單字符編輯
fuzziness 參數(shù)指定最大編輯次數(shù),可以被設(shè)置為auto

模糊查詢

GET /my_index/my_type/_search
{
  "query": {
    "fuzzy": {
      "text": "surprize"
    }
  }
}

fuzzy查詢時(shí)一個(gè)詞項(xiàng)級別的查詢,所以它不做任何分析。
如何提高性能?
參數(shù)prefix_length,表示不能被'模糊化'的初始字符數(shù)。
參數(shù)max_expansions,用來限制將產(chǎn)生的模糊選項(xiàng)的總數(shù)量。

模糊匹配查詢

match查詢支持開箱即用的模糊匹配

GET /my_index/my_type/_search
{
  "query": {
    "match": {
      "text": {
        "query":     "SURPRIZE ME!",
        "fuzziness": "AUTO",
        "operator":  "and"
      }
    }
  }
}

multi_match查詢也支持fuzziness,但只有當(dāng)執(zhí)行查詢類型是best_fields或者most_fields

GET /my_index/my_type/_search
{
  "query": {
    "multi_match": {
      "fields":  [ "text", "title" ],
      "query":     "SURPRIZE ME!",
      "fuzziness": "AUTO"
    }
  }
}

模糊性評分

假如1000個(gè)文檔是Schwarzenegger ,而一個(gè)錯(cuò)誤文檔是Schwarzeneger ,根據(jù)IF/IDF,拼寫錯(cuò)誤的文檔相關(guān)度更高。所有模糊性評分恒定為1。

語音匹配

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容