亚洲欧美风情狠很操,亚洲国产人妻,东京热毛片

前言

Elasticsearch的簡(jiǎn)單入門請(qǐng)參考之前寫的一篇文章Elasticsearch簡(jiǎn)單入門篇，這篇簡(jiǎn)單介紹啦Elasticsearch的基本安裝、Docker安裝方法、基本的概念，以及如何使用Java代碼實(shí)現(xiàn)對(duì)Elasticsearch的CRUD操作等入門知識(shí)。

內(nèi)容摘要

Elastic Search分享

1.1.Elastic Stack應(yīng)用場(chǎng)景

網(wǎng)站搜索、代碼搜索等（例如生產(chǎn)環(huán)境的日志收集 ——格式化分析——全文檢索——系統(tǒng)預(yù)警）
日志管理與分析、應(yīng)用系統(tǒng)性能分析、安全指標(biāo)監(jiān)控等

1.2.Elastic Stack技術(shù)架構(gòu)

Elastic static家族產(chǎn)品

image-20190802210856808

高級(jí)架構(gòu)

Elastic的技術(shù)架構(gòu)可以簡(jiǎn)單，也可以高級(jí)，它是很具有擴(kuò)展性的，最簡(jiǎn)單的技術(shù)架構(gòu)就是使用Beats進(jìn)行數(shù)據(jù)的收集，Beats是一種抽象的稱呼，具體的可以是使用FileBeat收集數(shù)據(jù)源為文件的數(shù)據(jù)或者使用TopBeat來收集系統(tǒng)中的監(jiān)控信息，可以說類似Linux系統(tǒng)中的TOP命令，當(dāng)然還有很多的Beats的具體實(shí)現(xiàn)，再使用logstash進(jìn)行數(shù)據(jù)的轉(zhuǎn)換和導(dǎo)入到Elasticsearch中，最后使用Kibana進(jìn)行數(shù)據(jù)的操作以及數(shù)據(jù)的可視化等操作。

當(dāng)然，在生產(chǎn)環(huán)境中，我們的數(shù)據(jù)可能在不同的地方，例如關(guān)系型數(shù)據(jù)庫Postgre，或者MQ，再或者Redis中，我們可以統(tǒng)一使用Logstash進(jìn)行數(shù)據(jù)的轉(zhuǎn)換，同時(shí)，也可以根據(jù)數(shù)據(jù)的熱度不同將ES集群架構(gòu)為一種冷溫?zé)?/strong>架構(gòu)，利用ES的多節(jié)點(diǎn)，將一天以內(nèi)的數(shù)據(jù)稱謂熱數(shù)據(jù)，讀寫頻繁，就存放在ES的熱節(jié)點(diǎn)中，七天以內(nèi)的數(shù)據(jù)稱之為溫?cái)?shù)據(jù)，就是偶爾使用的數(shù)據(jù)存放在溫節(jié)點(diǎn)中，將極少數(shù)會(huì)用到的數(shù)據(jù)存放在冷節(jié)點(diǎn)中。

image-20190802212002520

1.3.ES基本概念回顧

文檔（Document）

Elasticsearch面向文檔性，文檔就是所有可搜索數(shù)據(jù)的最小單位。比如，一篇PDF中的內(nèi)容，一部電影的內(nèi)容，一首歌等，文檔會(huì)被序列化成JSON格式，保存在Elasticsearch中，必不可少的是每個(gè)文檔都會(huì)有自己的唯一標(biāo)識(shí)，可以自己指定，也可以由Elasticsearch幫你生成。類似數(shù)據(jù)庫的一行數(shù)據(jù)。

元數(shù)據(jù)（標(biāo)注文檔信息）

"_index" : "user", "_type" : "_doc", "_id" : "l0D6UmwBn8Enzbv1XLz0", "_score" : 1.6943597, "_source" : { "user" : "mj", "sex" : "男", "age" : "18" }

_index：文檔所屬的索引名稱。

_type：文檔所屬的類型名。

_id：文檔的唯一標(biāo)識(shí)。

_version：文檔的版本信息。

_score：文檔的相關(guān)性打分。

_source：文檔的原始JSON內(nèi)容。

索引（index）

索引是文檔的容器，是一類文檔的集合，類似關(guān)系數(shù)據(jù)庫中的表，索引體現(xiàn)的是一種邏輯空間的概念，每個(gè)索引都應(yīng)該有自己的Mapping定義，用于定義包含文檔的字段名和字段類型。其中Shard（分片）體現(xiàn)的是物理空間的一種概念，就是索引中的數(shù)據(jù)存放在Shard上，因?yàn)橛欣布?，要保證高空用，當(dāng)其中一個(gè)機(jī)器崩潰中，保存在它上的分片數(shù)據(jù)也能被正常訪問，因此，存在啦分片副本。

索引中有兩個(gè)重要的概念，Mapping和Setting。Mapping定義的是文檔字段和字段類型，Setting定義的是數(shù)據(jù)的不同分布。

類型（Type）

在7.0之前，一個(gè)index可以創(chuàng)建多個(gè)Type。之后就只能一個(gè)index對(duì)應(yīng)一個(gè)Type。

節(jié)點(diǎn)（Node）

一個(gè)節(jié)點(diǎn)就是一個(gè)Elaseticsearch實(shí)例，本質(zhì)就是一個(gè)JAVA進(jìn)程。每一個(gè)節(jié)點(diǎn)啟動(dòng)后，默認(rèn)就是一個(gè)master eligible節(jié)點(diǎn)。就是具備成為master資格的節(jié)點(diǎn)，你也可以狠心的指定它沒有這個(gè)資格（node.master:false），

第一個(gè)節(jié)點(diǎn)啟動(dòng)后，他就選自己成為Master節(jié)點(diǎn)類，每一個(gè)節(jié)點(diǎn)上都保存了集群狀態(tài)，但是，只有Master才能修改集群狀態(tài)信息。集群狀態(tài)信息就比如：

所有的節(jié)點(diǎn)信息。

所有的索引信息，索引對(duì)應(yīng)的mapping信息和setting信息。

分片的路由信息。

分片（shard）

主分片：用于解決數(shù)據(jù)的水平擴(kuò)展問題，通過主分片就數(shù)據(jù)分布在集群內(nèi)的不同節(jié)點(diǎn)上，主分片在創(chuàng)建索引的時(shí)候就指定了，后面就不允許修改，除非重新定義Index。

副本：用于解決高可用的問題，分片是主分片的拷貝。副本分片數(shù)可以動(dòng)態(tài)的調(diào)整，增加副本數(shù)量可以在一定的程度上提高服務(wù)的可用性。關(guān)于主分片的理解可以如下圖，看是怎樣實(shí)現(xiàn)高可用的，

image-20190802231314640

"settings" : { "index" : { // 設(shè)置主分片數(shù) "number_of_shards" : "1", "auto_expand_replicas" : "0-1", "provided_name" : "kibana_sample_data_logs", "creation_date" : "1564753951554", // 設(shè)置副本分片數(shù) "number_of_replicas" : "1", "uuid" : "VVMLRyw6TZeSfUvvLNYXEw", "version" : { "created" : "7010099" } } }

1.4.倒排索引

正排索引：就是文檔ID到文檔內(nèi)容的索引，簡(jiǎn)單講，就是根據(jù)ID找文檔。

倒排索引：就是根據(jù)文檔內(nèi)容找文檔。

倒排索引包含如下信息：

單詞詞典：用于記錄所有文檔的單詞，以及單詞到倒排列表的關(guān)聯(lián)關(guān)系。

倒排列表：記錄的是單詞對(duì)應(yīng)的文檔集合，由倒排索引項(xiàng)組成，其中包含

文檔ID

單詞出現(xiàn)的次數(shù)，用于相關(guān)性的評(píng)分

單詞出現(xiàn)的位置

偏移量，用于記錄單詞的開始位置和結(jié)束位置，用于單詞的高亮顯示

舉例說明什么是正排索引和倒排索引，其中正排索引如下：

文檔ID 文檔內(nèi)容

1101 Elasticsearch Study

1102 Elasticsearch Server

1103 master Elasticsearch

講上例Elasticsearch單詞修改為倒排索引，如下：

文檔ID（Doc ID）出現(xiàn)次數(shù)（TF）位置（Position）偏移量（Offset）

1101 1 0 <0,13>

1102 1 0 <0,13>

1103 1 1 <7,20>

Elasticsearch中的每一個(gè)字段都有自己的倒排索引，也可以指定某些字段不做索引，可以節(jié)省存儲(chǔ)空間，缺點(diǎn)就是不能被搜索到。

1.5.Analyzer分詞

Analysis：文本分析，就是將文本轉(zhuǎn)換為單詞（term或者token）的過程，其中Analyzer就是通過Analysis實(shí)現(xiàn)的，Elasticsearch給我們內(nèi)置例很多分詞器。

Standard Analyzer：默認(rèn)的分詞器，按照詞切分，并作大寫轉(zhuǎn)小寫處理

Simple Analyzer：按照非字母切分（符號(hào)被過濾），并作大寫轉(zhuǎn)小寫處理

Stop Anayzer：停用詞（the、is）切分，并作大寫轉(zhuǎn)小寫處理

Whitespace Anayzer：空格切分，不做大寫轉(zhuǎn)小寫處理

IK：中文分詞器，需要插件安裝

ICU：國(guó)際化的分詞器，需要插件安裝

jieba：時(shí)下流行的一個(gè)中文分詞器。安裝方法見附錄

PS：Elasticsearch安裝插件，[root@34d02ff9d16c elasticsearch]# bin/elasticsearch-plugin install analysis-icu

查看已經(jīng)安裝的插件：bin/elasticsearch-plugin list

1.6.Search API

在ES中，我們可以使用URL Search和Request Body Search進(jìn)行相關(guān)的查詢操作。

URL 查詢

使用基本的查詢

GET /user/_search?q=2012&df=title&sort=year:desc&from=0&size=10 { ??profile??: true }

使用q指定查詢的字符串

使用df指定查詢的字段

使用sort進(jìn)行排序，使用from和size指定分頁

使用profile可以查詢查詢是如何進(jìn)行查詢的

指定所有字段的泛查詢

GET /user/_search?q=2012 { "profile":"true" }

指定字段的查詢

GET /user/_search?q=title:2012&sort=year:desc&from=0&size=10&timeout=1s { "profile":"true" }

Term查詢

GET /user/_search?q=title:Beautiful Mind { "profile":"true" }

上例中的Beautiful和Mind就是兩個(gè)Term，Term是查詢中最小的單位。

Term查詢是OR的關(guān)系，在上例中就是title字段包含Beautiful或者包含Mind都會(huì)被檢索到。

Phrase查詢

GET /user/_search?q=title:"Beautiful Mind" { "profile":"true" }

使用引號(hào)表示Phrase查詢

Phrase查詢表示的不僅是And的關(guān)系，即Title字段中不僅要包含Beautiful Mind，而且。順序還要一致。

分組查詢

GET /user/_search?q=title:(Beautiful Mind) { "profile":"true" }

使用中括號(hào)表示分組查詢，一般使用Term查詢的時(shí)候都會(huì)帶上分組查詢。

布爾查詢

使用 AND、OR、NOT或者||、&&、!

還可以使用+（表示must）,使用-（表示must_not）

需要注意的是必須大寫

GET /user/_search?q=title:(Beautiful NOT Mind) { "profile":"true" }

GET /user/_search?q=title:(Beautiful %2BMind) { "profile":"true" }

PS：%2B表示的就是+，上例子表示的就是title字段中既要包含Beautiful，也要包含Mind字段

范圍查詢

GET /user/_search?q=title:beautiful AND age:[2002 TO 2018%7D { "profile":"true" }

使用[ ]表示閉區(qū)間，使用{ }表示開區(qū)間，例如age :[* TO 56]

使用算術(shù)符表示范圍，例如year :>=2019 && <=1970

PS：URL Search還有很多查詢方式。例如通配符查詢，正則插敘，模糊匹配，相似查詢，其中通配符查詢不建議使用。

Request Body 查詢

將查詢的條件參數(shù)放在Request Body中，調(diào)用查詢接口，就是Request Body查詢，

基本的查詢

POST /movies,404_idx/_search?ignore_unavailable=true { "profile": true, "query": { "match_all": {} } }

使用gnore_unavailable=true可以避免索引404_idx不存在導(dǎo)致的報(bào)錯(cuò)

profile和URL Search查詢一樣，可以看到查詢的執(zhí)行方式

分頁查詢

POST /movies/_search { "from":10, "size":20, "query":{ "match_all": {} } }

排序查詢

POST /movies/_search { "sort":[{"order_date":"desc"}], "query":{ "match_all": {} } }

過濾要查詢的字段

POST /movies/_search { "_source":["order_date"], "query":{ "match_all": {} } }

如果一個(gè)文檔中的字段太多，我們不需全部字段顯示，就可以使用_source指定字段?？梢允褂猛ㄅ浞?/li>

使用腳本查詢

將ES中的文檔字段進(jìn)行一定的處理后，再根據(jù)這個(gè)新的字段進(jìn)行排序，

GET /movies/_search { "script_fields": { "new_field": { "script": { "lang": "painless", "source": "doc['name'].value+'是大佬'" } } }, "query": { "match_all": {} } }

Term查詢

POST /movies/_search { "query": { "match": { "title": "last christmas" } } } POST movies/_search { "query": { "match": { "title": { "query": "last christmas", "operator": "and" } } } }

使用match，表示的就是OR的關(guān)系

使用operator，表示查詢方式

Math_phrase查詢

POST movies/_search { "query": { "match_phrase": { "title":{ "query": "one love", "slop": 4 } } } }

slop指定查詢的字符中允許出現(xiàn)的字符

1.7.Dynamic Mapping

Mapping可以簡(jiǎn)單的理解為數(shù)據(jù)庫中的Schema定義，用于定義索引中的字段的名稱，定義字段的類型，字段的倒排索引，指定字段使用何種分詞器等。Dynamic Mapping意思就是在我們創(chuàng)建文檔的時(shí)候，如果索引不存在，就會(huì)自動(dòng)的創(chuàng)建索引，同時(shí)自動(dòng)的創(chuàng)建Mapping，ElasticSearch會(huì)自動(dòng)的幫我們推算出字段的類型，當(dāng)然，也會(huì)存在推算不準(zhǔn)確的時(shí)候，就需要我們手動(dòng)的設(shè)置。常用的字段類型如下：

簡(jiǎn)單類型：Text、Date、Integer、Boolean等

復(fù)雜類型：對(duì)象類型和嵌套類型。

我們可以使用GET /shgx/_mapping查詢索引的Mapping的設(shè)置，需要注意的是以下幾點(diǎn)：

當(dāng)我們對(duì)索引中的文檔新增字段時(shí)候，希望可以更新索引的Mapping就可以可以設(shè)置Dynamic:true。

對(duì)于已經(jīng)有數(shù)據(jù)的字段，就不再允許修改其Mapping，因?yàn)?code>Lucene生成的倒排索引后就不允許修改。

Dynamic Mapping可以設(shè)置三個(gè)值，分別是：

true：文檔可被索引，新增字段也可被索引，Mapping也會(huì)被更新。

false：文檔可被索引，新增字段不能被索引，Mapping不會(huì)被更新。

strict：新增字段寫入，直接報(bào)錯(cuò)。

如何寫Mapping

第一種方式是參考官方API，純手工寫，也可以先創(chuàng)建一個(gè)臨時(shí)的Index讓ElasticSearch自動(dòng)當(dāng)我們推斷出基本的Mapping，然后自己在改吧改吧，最后把臨時(shí)索引刪掉就是啦。下面列舉一些常用的Mapping設(shè)置屬性：

index：可以設(shè)置改字段是否需要被索引到。設(shè)置為false就不會(huì)生成倒排索引，節(jié)省啦磁盤開銷

null_value：可以控制NULL是否可以被索引

cope_to：將字段值放在一個(gè)新的字段中，可以使用新的字段search，但這個(gè)字段不會(huì)出現(xiàn)在_source中。

anaylzer：指定字段的分詞器

search_anaylzer：指定索引使用的分詞器

index_options：控制倒排索引的生成結(jié)構(gòu)，有四種情況

docs：倒排索引只記錄文檔ID

freqs：記錄文檔ID和Term

positions：記錄文檔ID、Term和Term Position

offsets：記錄文檔ID、Term、Term Position和offsets

PS：Text類型的字段默認(rèn)的是Position，其它類型默認(rèn)的是docs，記錄的越多，占用的存儲(chǔ)空間就越大。

1.8.Aggregation聚合分析

ElasticSearch不僅僅是搜索強(qiáng)大，他的統(tǒng)計(jì)功能也是相當(dāng)?shù)膹?qiáng)大的，聚合分析就是統(tǒng)計(jì)整個(gè)數(shù)據(jù)的一個(gè)分類數(shù)量等，例如武侯區(qū)有多少新樓盤。天府新區(qū)有多少新樓盤，通過聚合分析我們只需要寫一條語句就可以得到。在加上Kibana的可視化分析，簡(jiǎn)直就是清晰，高效。常用的集合有以下幾種：

Bucket Aggregation：滿足特定條件的一些集合，使用關(guān)鍵字terms

Metric Aggregation：簡(jiǎn)單的數(shù)學(xué)運(yùn)算，對(duì)字段進(jìn)行統(tǒng)計(jì)分析，使用關(guān)鍵字min、max、sum、avg等，使用關(guān)鍵字aggs

Pipeline Aggregation：二次聚合

Matrix Aggregation：對(duì)多個(gè)字段進(jìn)行操作，提供一個(gè)結(jié)果矩陣

Bucket分析示例

GET kibana_sample_data_flights/_search { "size": 0, "aggs":{ "flight_dest":{ "terms":{ "field":"DestCountry" } } } }

Metric分析示例

GET kibana_sample_data_flights/_search { "size": 0, "aggs":{ "flight_dest":{ "terms":{ "field":"DestCountry" }, "aggs":{ "avg_price":{ "avg":{ "field":"AvgTicketPrice" } }, "max_price":{ "max":{ "field":"AvgTicketPrice" } }, "min_price":{ "min":{ "field":"AvgTicketPrice" } } } } } }

附錄一

相關(guān)閱讀

安裝docker ：https://www.docker.com/products/docker-desktop

安裝 docker-compose ：https://docs.docker.com/compose/install

Elasticsearch + Logstash + Kibana的 docker-compose配置：https://github.com/deviantony/docker-elk

docker安裝 Elasticsearch插件：https://www.elastic.co/cn/blog/elasticsearch-docker-plugin-management

Elasticsearch的中文社區(qū)https://elasticsearch.cn/

Beats的產(chǎn)品：https://www.elastic.co/cn/downloads/beats

不錯(cuò)的中文分詞器：https://github.com/fxsjy/jieba

不錯(cuò)的英文分詞器：https://github.com/nltk/nltk

IK分詞器：https://github.com/medcl/elasticsearch-analysis-ik

THULAC分詞器，清華大學(xué)自然語言處理系的分詞器https://github.com/thunlp/THULAC-Python

ES發(fā)展史：https://www.cnblogs.com/wangzhen3798/p/10751516.html

ELK6.0部署：：Elasticsearch+Logstash+Kibana搭建分布式日志平臺(tái)

ElasticSearch集群可視化工具cerebro

測(cè)試數(shù)據(jù)集下載

更多文章，更好的閱讀體驗(yàn)，請(qǐng)前往個(gè)人網(wǎng)站查看碼醬博客

文檔ID	文檔內(nèi)容
1101	Elasticsearch Study
1102	Elasticsearch Server
1103	master Elasticsearch

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

ElasticSearch（提高篇）

前言

內(nèi)容摘要

1.1.Elastic Stack應(yīng)用場(chǎng)景

1.2.Elastic Stack技術(shù)架構(gòu)

Elastic static家族產(chǎn)品

高級(jí)架構(gòu)

1.3.ES基本概念回顧

文檔（Document）

元數(shù)據(jù)（標(biāo)注文檔信息）

索引（index）

類型（Type）

節(jié)點(diǎn)（Node）

分片（shard）

1.4.倒排索引

1.5.Analyzer分詞

1.6.Search API

URL 查詢

使用基本的查詢

指定所有字段的泛查詢

指定字段的查詢

Term查詢

Phrase查詢

分組查詢

布爾查詢

范圍查詢

Request Body 查詢

基本 的查詢

分頁查詢

排序查詢

過濾要查詢的字段

使用腳本查詢

Term查詢

Math_phrase查詢

1.7.Dynamic Mapping

如何寫Mapping

1.8.Aggregation聚合分析

Bucket分析示例

Metric分析示例

附錄一

相關(guān)閱讀

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

基本的查詢