五十二、Elasticsearch聚合分析--stringfield聚合試驗(yàn)以及fielddata原理初探

1、嘗試對(duì)field執(zhí)行aggregation

GET /test_index/test_type/_search
{
  "aggs": {
    "group_by_test_field": {
      "terms": {
        "field": "test_field1"
      }
    }
  }
}

報(bào)錯(cuò)

{
  "error": {
    "root_cause": [
      {
        "type": "illegal_argument_exception",
        "reason": "Fielddata is disabled on text fields by default. Set fielddata=true on [test_field1] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory."
      }
    ],
    "type": "search_phase_execution_exception",
    "reason": "all shards failed",
    "phase": "query",
    "grouped": true,
    "failed_shards": [
      {
        "shard": 0,
        "index": "test_index",
        "node": "rrFOnCB3RwqKOxaIeyLnUw",
        "reason": {
          "type": "illegal_argument_exception",
          "reason": "Fielddata is disabled on text fields by default. Set fielddata=true on [test_field1] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory."
        }
      }
    ],
    "caused_by": {
      "type": "illegal_argument_exception",
      "reason": "Fielddata is disabled on text fields by default. Set fielddata=true on [test_field1] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory."
    }
  },
  "status": 400
}

對(duì)分詞的field,直接執(zhí)行聚合操作,會(huì)報(bào)錯(cuò),大概意思是說(shuō),你必須要打開(kāi)fielddata,然后將正排索引數(shù)據(jù)加載到內(nèi)存中,才可以對(duì)分詞的field執(zhí)行聚合操作,而且會(huì)消耗很大的內(nèi)存。

2、給分詞的field設(shè)置fielddata=true

POST /test_index/_mapping/test_type
{
  "properties": {
    "test_field1" : {
      "type": "text",
      "fielddata": true
    }
  }
}

執(zhí)行搜索

GET /test_index/test_type/_search
{
  "size": 0,
  "aggs": {
    "group_by_test_field": {
      "terms": {
        "field": "test_field1"
      }
    }
  }
}

輸出結(jié)果

{
  "took": 23,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 2,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "group_by_test_field": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "test",
          "doc_count": 2
        }
      ]
    }
  }
}

發(fā)現(xiàn)成功了,所以必須將fielddata設(shè)置為true。

3、使用內(nèi)置field不分詞,對(duì)string field進(jìn)行聚合

GET /test_index/test_type/_search
{
  "size": 0,
  "aggs": {
    "group_by_test_field": {
      "terms": {
        "field": "test_field1.keyword"
      }
    }
  }
}

發(fā)現(xiàn)這樣也可以成功,所以如果對(duì)不分詞的field執(zhí)行聚合搜索,直接就可以執(zhí)行,不需要設(shè)置fielddata=true

4、分詞field+fielddata的工作原理

doc value --》不分詞的所有field,可以執(zhí)行聚合操作--》如果你的某個(gè)field不分詞,那么在index-time就會(huì)自動(dòng)生成doc value--》針對(duì)這些不分詞的field執(zhí)行聚合操作的時(shí)候,自動(dòng)就會(huì)用doc value來(lái)執(zhí)行

分詞field,是沒(méi)有doc vakue的,在index-time如果某個(gè)field是分詞的,那么是不會(huì)給他建立doc value正排索引的。因?yàn)榉衷~后,占用的空間過(guò)于大,所以默認(rèn)是不支持分詞field進(jìn)行聚合的。

分詞field默認(rèn)沒(méi)有doc value,所以直接對(duì)分詞field執(zhí)行聚合操作,是會(huì)報(bào)錯(cuò)的

對(duì)于分詞field,必須打開(kāi)和使用fielddata,完全存在于純內(nèi)存中。。。結(jié)構(gòu)和doc value類(lèi)似。。。如果是ngram或者是大量term,那么必將占用大量的內(nèi)存。。。

如果一定要對(duì)分詞的field執(zhí)行聚合,那么必須將fielddata=true,然后es就會(huì)在執(zhí)行聚合操作的時(shí)候,現(xiàn)場(chǎng)將field對(duì)應(yīng)的數(shù)據(jù),建立一份fielddata正排索引,fielddata正排索引的結(jié)構(gòu)跟doc value是類(lèi)似的,但是只會(huì)將fielddata正排索引加載到內(nèi)存中來(lái),然后基于內(nèi)存中的fielddata正排索引執(zhí)行分詞field的聚合操作

如果直接對(duì)分詞field執(zhí)行聚合,報(bào)錯(cuò),才會(huì)讓我們開(kāi)啟fielddata=true,告訴我們,會(huì)將fielddata uninverted index,正排索引,加載到內(nèi)存,會(huì)耗費(fèi)內(nèi)存空間

為什么fielddata必須在內(nèi)存?因?yàn)榇蠹易约核伎家幌拢衷~的字符串,需要按照term進(jìn)行聚合,需要執(zhí)行更加復(fù)雜的算法和操作,如果基于磁盤(pán)和os cache,那么性能會(huì)很差

fielddata和doc value不一樣,fielddata在內(nèi)存中的,doc vlaue是加載到磁盤(pán)的

若有興趣,歡迎來(lái)加入群,【Java初學(xué)者學(xué)習(xí)交流群】:458430385,此群有Java開(kāi)發(fā)人員、UI設(shè)計(jì)人員和前端工程師。有問(wèn)必答,共同探討學(xué)習(xí),一起進(jìn)步!
歡迎關(guān)注我的微信公眾號(hào)【Java碼農(nóng)社區(qū)】,會(huì)定時(shí)推送各種干貨:


qrcode_for_gh_577b64e73701_258.jpg
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容