拼寫錯(cuò)誤
Fuzzy matching允許查詢時(shí)匹配錯(cuò)誤拼寫的單詞。
語音語匯單元過濾器可以在索引時(shí)用來進(jìn)行近似讀音匹配。
模糊性
度量一個(gè)單詞轉(zhuǎn)換到另一個(gè)單詞需要多少次詞單字符編輯
fuzziness 參數(shù)指定最大編輯次數(shù),可以被設(shè)置為auto
模糊查詢
GET /my_index/my_type/_search
{
"query": {
"fuzzy": {
"text": "surprize"
}
}
}
fuzzy查詢時(shí)一個(gè)詞項(xiàng)級別的查詢,所以它不做任何分析。
如何提高性能?
參數(shù)prefix_length,表示不能被'模糊化'的初始字符數(shù)。
參數(shù)max_expansions,用來限制將產(chǎn)生的模糊選項(xiàng)的總數(shù)量。
模糊匹配查詢
match查詢支持開箱即用的模糊匹配
GET /my_index/my_type/_search
{
"query": {
"match": {
"text": {
"query": "SURPRIZE ME!",
"fuzziness": "AUTO",
"operator": "and"
}
}
}
}
multi_match查詢也支持fuzziness,但只有當(dāng)執(zhí)行查詢類型是best_fields或者most_fields
GET /my_index/my_type/_search
{
"query": {
"multi_match": {
"fields": [ "text", "title" ],
"query": "SURPRIZE ME!",
"fuzziness": "AUTO"
}
}
}
模糊性評分
假如1000個(gè)文檔是Schwarzenegger ,而一個(gè)錯(cuò)誤文檔是Schwarzeneger ,根據(jù)IF/IDF,拼寫錯(cuò)誤的文檔相關(guān)度更高。所有模糊性評分恒定為1。
語音匹配
略