Elasticsearch系列---生產(chǎn)數(shù)據(jù)備份恢復方案

前言

生產(chǎn)環(huán)境中運行的組件,只要有數(shù)據(jù)存儲,定時備份、災難恢復是必修課,mysql數(shù)據(jù)庫的備份方案已經(jīng)非常成熟,Elasticsearch也同樣有成熟的數(shù)據(jù)備份、恢復方案,我們來了解一下。

概要

本篇介紹Elasticsearch生產(chǎn)集群數(shù)據(jù)的數(shù)據(jù)備份、恢復和升級的常規(guī)操作。

curl命令

curl是Linux操作的必備工具,Elasticsearch生產(chǎn)環(huán)境的搭建,不能保證都能使用kibana訪問到,而Elasticsearch Restful API都可以使用curl工具來完成訪問。

使用curl還有一個好處:有些操作需要一連串的請求才能完成,我們可以使用shell腳本將這些關聯(lián)的操作,封裝到腳本里,后續(xù)使用起來就非常方便。

如果有定時執(zhí)行的命令,也是使用shell將一系列操作封裝好,運用Linux自帶的crontab進行觸發(fā)。

后續(xù)的一些操作命令,將會用curl來完成,并且只需要將完整的curl請求拷貝到kibana的dev tools上,kibana能夠自動轉化成我們之前常見的請求,非常方便。

在Linux下的請求命令:

[esuser@elasticsearch02 ~]$ curl -XGET 'http://elasticsearch02:9200/music/children/_search?pretty' -H 'Content-Type: application/json' -d '
{
  "query": {
    "match_all": {}
  }
}
'

完整的命令拷貝到dev tools里時,自動會變成:

GET /music/children/_search
{

  "query": {

    "match_all": {}

  }

}

這工具真是強大,不過反過來操作不行的,我已經(jīng)試過了。

curl命令,有Body體的,記得加上-H 'Content-Type: application/json',?pretty參數(shù)可以讓響應結果格式化輸出。

數(shù)據(jù)備份

我們知道Elasticsearch的索引拆分成多個shard進行存儲在磁盤里,shard雖然分了primary shard和replica shard,可以保證集群的數(shù)據(jù)不丟失,數(shù)據(jù)訪問不間斷,但如果機房停電導致集群節(jié)點全部宕機這種重大事故時,我們就需要提前定期地對數(shù)據(jù)進行備份,以防萬一。

既然是磁盤文件存儲,那存儲介質(zhì)的選擇就有很多了:本地磁盤,NAS,文件存儲服務器(如FastDFS、HDFS等),各種云存儲(Amazon S3, 阿里云OSS)等

同樣的,Elasticsearch也提供snapshot api命令來完成數(shù)據(jù)備份操作,可以把集群當前的狀態(tài)和數(shù)據(jù)全部存儲到一個其他目錄上,本地路徑或網(wǎng)絡路徑均可,并且支持增量備份。可以根據(jù)數(shù)據(jù)量來決定備份的執(zhí)行頻率,增量備份的速度還是很快的。

創(chuàng)建備份倉庫

我們把倉庫地址暫定為本地磁盤的/home/esuser/esbackup目錄,

首先,我們需要在elasticsearch.yml配置文件中加上

path.repo: /home/esuser/esbackup

并重啟Elasticsearch。

啟動成功后,發(fā)送創(chuàng)建倉庫的請求:

[esuser@elasticsearch02 ~]$ curl -XPUT 'http://elasticsearch02:9200/_snapshot/esbackup?pretty' -H 'Content-Type: application/json' -d '
{
    "type": "fs", 
    "settings": {
        "location": "/home/esuser/esbackup",
        "max_snapshot_bytes_per_sec" : "50mb", 
        "max_restore_bytes_per_sec" : "50mb"
    }
}
'
{"acknowledged":true}
[esuser@elasticsearch02 ~]$ 

參數(shù)解釋:

  • type: 倉庫的類型名稱,請求里都是fs,表示file system。
  • location: 倉庫的地址,要與elasticsearch.yml配置文件相同,否則會報錯
  • max_snapshot_bytes_per_sec: 指定數(shù)據(jù)從Elasticsearch到倉庫(數(shù)據(jù)備份)的寫入速度上限,默認是20mb/s
  • max_restore_bytes_per_sec: 指定數(shù)據(jù)從倉庫到Elasticsearch(數(shù)據(jù)恢復)的寫入速度上限,默認也是20mb/s

用于限流的兩個參數(shù),需要根據(jù)實際的網(wǎng)絡進行設置,如果備份目錄在同一局域網(wǎng)內(nèi),可以設置得大一些,便于加快備份和恢復的速度。

也有查詢命令可以看倉庫的信息:

[esuser@elasticsearch02 ~]$ curl -XGET 'http://elasticsearch02:9200/_snapshot/esbackup?pretty'

{"esbackup":{"type":"fs","settings":{"location":"/home/esuser/esbackup","max_restore_bytes_per_sec":"50mb","max_snapshot_bytes_per_sec":"50mb"}}}

[esuser@elasticsearch02 ~]$

使用hdfs創(chuàng)建倉庫

大數(shù)據(jù)這塊跟hadoop生態(tài)整合還是非常推薦的方案,數(shù)據(jù)備份這塊可以用hadoop下的hdfs分布式文件存儲系統(tǒng),關于hadoop集群的搭建方法,需要自行完成,本篇末尾有補充說明,可供參考。

對Elasticsearch來說,需要安裝repository-hdfs的插件,我們的Elasticsearch版本是6.3.1,對應的插件則使用repository-hdfs-6.3.1.zip,hadoop則使用2.8.1版本的。

插件下載安裝命令:

./elasticsearch-plugin install https://artifacts.elastic.co/downloads/elasticsearch-plugins/repository-hdfs/repository-hdfs-6.3.1.zip

如果生產(chǎn)環(huán)境的服務器無法連接外網(wǎng),可以先在其他機器上下載好,上傳到生產(chǎn)服務器,解壓到本地,再執(zhí)行安裝:

./elasticsearch-plugin install file:///opt/elasticsearch/repository-hdfs-6.3.1

安裝完成后記得重啟Elasticsearch節(jié)點。

查看節(jié)點狀態(tài):

[esuser@elasticsearch02 ~]$ curl -XGET elasticsearch02:9200/_cat/nodes?v

ip             heap.percent ram.percent cpu load_1m load_5m load_15m node.role master name
192.168.17.137           38          95   2    0.03    0.03     0.05 mdi       *      node-1
創(chuàng)建hdfs倉庫

先查看節(jié)點的shard信息

[esuser@elasticsearch02 ~]$ curl -XGET 'http://elasticsearch02:9200/_count?pretty' -H 'Content-Type: application/json' -d '
 {
     "query": {
         "match_all": {}
     }
}'


{
  "count" : 5392,
  "_shards" : {
    "total" : 108,
    "successful" : 108,
    "skipped" : 0,
    "failed" : 0
  }
}

創(chuàng)建一個hdfs的倉庫,名稱為hdfsbackup

[esuser@elasticsearch02 ~]$ curl -XPUT  'http://elasticsearch02:9200/_snapshot/hdfsbackup?pretty' -H 'Content-Type: application/json' -d '
 {
   "type": "hdfs",
   "settings": {
     "uri": "hdfs://elasticsearch02:9000/",
     "path": "/home/esuser/hdfsbackup",
   "conf.dfs.client.read.shortcircuit": "false",
   "max_snapshot_bytes_per_sec" : "50mb", 
     "max_restore_bytes_per_sec" : "50mb"
   }
 }'

{
  "acknowledged" : true
}
驗證倉庫

倉庫創(chuàng)建好了之后,可以用verify命令驗證一下:

[esuser@elasticsearch02 ~]$ curl -XPOST 'http://elasticsearch02:9200/_snapshot/hdfsbackup/_verify?pretty'
{
  "nodes" : {
    "A1s1uus7TpuDSiT4xFLOoQ" : {
      "name" : "node-1"
    }
  }
}
索引備份

倉庫創(chuàng)建好并驗證完成后,可以執(zhí)行snapshot api對索引進行備份了,

如果不指定索引名稱,表示備份當前所有open狀態(tài)的索引都備份,還有一個參數(shù)wait_for_completion,表示是否需要等待備份完成后才響應結果,默認是false,請求提交后會立即返回,然后備份操作在后臺異步執(zhí)行,如果設置為true,請求就變成同步方式,后臺備份完成后,才會有響應。建議使用默認值即可,有時備份的整個過程會持續(xù)1-2小時。

示例1:備份所有的索引,備份名稱為snapshot_20200122

[esuser@elasticsearch02 ~]$ curl -XPUT 'http://elasticsearch02:9200/_snapshot/hdfsbackup/snapshot_20200122?pretty'
{
  "accepted" : true
}

示例2:備份索引music的數(shù)據(jù),備份名稱為snapshot_20200122_02,并指定wait_for_completion為true

[esuser@elasticsearch02 ~]$ curl -XPUT 'http://elasticsearch02:9200/_snapshot/hdfsbackup/snapshot_20200122_02?wait_for_completion=true&pretty' -H 'Content-Type: application/json' -d '
{
  "indices": "music",
  "ignore_unavailable": true,
  "include_global_state": false,
  "partial": true
}'


{
  "snapshot" : {
    "snapshot" : "snapshot_20200122_02",
    "uuid" : "KRXnzc6XSWagCQO92EQx6A",
    "version_id" : 6030199,
    "version" : "6.3.1",
    "indices" : [
      "music"
    ],
    "include_global_state" : false,
    "state" : "SUCCESS",
    "start_time" : "2020-01-22T07:11:06.594Z",
    "start_time_in_millis" : 1579677066594,
    "end_time" : "2020-01-22T07:11:07.313Z",
    "end_time_in_millis" : 1579677067313,
    "duration_in_millis" : 719,
    "failures" : [ ],
    "shards" : {
      "total" : 5,
      "failed" : 0,
      "successful" : 5
    }
  }
}

這條命令中幾個參數(shù)介紹:

  • indices:索引名稱,允許寫多個,用","分隔,支持通配符。
  • ignore_unavailable:可選值true/false,如果為true,indices里不存在的index就可以忽略掉,備份操作正常執(zhí)行,默認是false,如果某個index不存在,備份操作會提示失敗。
  • include_global_state:可選值true/false,含義是要不要備份集群的全局state數(shù)據(jù)。
  • partial:可選值true/false,是否支持備份部分shard的數(shù)據(jù)。默認值為false,如果索引的部分primary shard不可用,partial為false時備份過程會提示失敗。

使用snapshot api對數(shù)據(jù)的備份是增量進行的,執(zhí)行snapshotting的時候,Elasticsearch會分析已經(jīng)存在于倉庫中的snapshot對應的index file,在前一次snapshot基礎上,僅備份創(chuàng)建的或者發(fā)生過修改的index files。這就允許多個snapshot在倉庫中可以用一種緊湊的模式來存儲,非常節(jié)省存儲空間,并且snapshotting過程是不會阻塞所有的Elasticsearch讀寫操作的。

同樣的,snapshot作為數(shù)據(jù)快照,在它之后寫入index中的數(shù)據(jù),是不會反應到這次snapshot中的,snapshot數(shù)據(jù)的內(nèi)容包含index的副本,也可以選擇是否保存全局的cluster元數(shù)據(jù),元數(shù)據(jù)里面包含了全局的cluster設置和template。

每次只能執(zhí)行一次snapshot操作,如果某個shard正在被snapshot備份,那么這個shard此時就不能被移動到其他node上去,這會影響shard rebalance的操作。只有在snapshot結束之后,這個shard才能夠被移動到其他的node上去。

查看snapshot備份列表
  1. 查看倉庫內(nèi)所有的備份列表
curl -XGET 'http://elasticsearch02:9200/_snapshot/hdfsbackup/_all?pretty'
  1. 查看單個備份數(shù)據(jù)
[esuser@elasticsearch02 ~]$ curl -XGET 'http://elasticsearch02:9200/_snapshot/hdfsbackup/snapshot_20200122_02?pretty'
{
  "snapshots" : [
    {
      "snapshot" : "snapshot_20200122_02",
      "uuid" : "KRXnzc6XSWagCQO92EQx6A",
      "version_id" : 6030199,
      "version" : "6.3.1",
      "indices" : [
        "music"
      ],
      "include_global_state" : false,
      "state" : "SUCCESS",
      "start_time" : "2020-01-22T07:11:06.594Z",
      "start_time_in_millis" : 1579677066594,
      "end_time" : "2020-01-22T07:11:07.313Z",
      "end_time_in_millis" : 1579677067313,
      "duration_in_millis" : 719,
      "failures" : [ ],
      "shards" : {
        "total" : 5,
        "failed" : 0,
        "successful" : 5
      }
    }
  ]
}
刪除snapshot備份

如果需要刪除某個snapshot備份快照,一定要使用delete命令,造成別自個跑到服務器目錄下做rm操作,因為snapshot是增量備份的,里面有各種依賴關系,極可能損壞backup數(shù)據(jù),記住不要上來就自己干文件,讓人家標準的命令來執(zhí)行,命令如下:

[esuser@elasticsearch02 ~]$ curl -XDELETE 'http://elasticsearch02:9200/_snapshot/hdfsbackup/snapshot_20200122?pretty'
{
  "acknowledged" : true
}
查看備份進度

備份過程長短視數(shù)據(jù)量而定,wait_for_completion設置為true雖然可以同步得到結果,但時間太長的話也不現(xiàn)實,我們是希望備份操作后臺自己搞,我們時不時的看看進度就行,其實還是調(diào)用的snapshot的get操作命令,加上_status參數(shù)即可,備份過程中會顯示什么時間開始的,有幾個shard在備份等等信息:

curl -XGET 'http://elasticsearch02:9200/_snapshot/hdfsbackup/snapshot_20200122_02/_status?pretty'

取消備份

正在備份的數(shù)據(jù)可以執(zhí)行取消,使用的是delete命令:

curl -XDELETE 'http://elasticsearch02:9200/_snapshot/hdfsbackup/snapshot_20200122?pretty'

這個命令有兩個作用:

  1. 如果備份正在進行中,那么取消備份操作,并且刪除備份了一半的數(shù)據(jù)。
  2. 如果備份已經(jīng)完成,直接刪除備份數(shù)據(jù)。

數(shù)據(jù)恢復

生產(chǎn)環(huán)境的備份操作,是定期執(zhí)行的,執(zhí)行的頻率看實際的數(shù)據(jù)量,有1天執(zhí)行1次的,有4小時一次的,簡單的操作是使用shell腳本封裝備份的命令,然后使用Linux的crontab定時執(zhí)行。

既然數(shù)據(jù)有備份,那如果數(shù)據(jù)出現(xiàn)異常,或者需要使用到備份數(shù)據(jù)時,恢復操作就能派上用場了。

常規(guī)恢復

數(shù)據(jù)恢復使用restore命令,示例如下:

[esuser@elasticsearch02 ~]$ curl -XPOST 'http://elasticsearch02:9200/_snapshot/hdfsbackup/snapshot_20200122_02/_restore?pretty'
{
  "accepted" : true
}

注意一下被恢復的索引,必須全部是close狀態(tài)的,否則會報錯,關閉索引的命令:

[esuser@elasticsearch02 ~]$ curl -XPOST  'http://elasticsearch02:9200/music/_close?pretty'

恢復完成后,索引自動還原成open狀態(tài)。

同樣有些參數(shù)可以進行選擇:

[esuser@elasticsearch02 ~]$ curl -XPOST 'http://elasticsearch02:9200/_snapshot/hdfsbackup/snapshot_20200122_02/_restore
{
    "indices": "music", 
    "ignore_unavailable": true,
    "include_global_state": true
}

默認會把備份數(shù)據(jù)里的索引全部還原,我們可以使用indices參數(shù)指定需要恢復的索引名稱。同樣可以使用wait_for_completion參數(shù),ignore_unavailable、partial和include_global_state與備份時效果相同,不贅述。

監(jiān)控restore的進度

與備份類似,調(diào)用的recovery的get操作命令查看恢復的進度:

curl -XGET 'http://elasticsearch02:9200/music/_recovery?pretty'

music為索引名稱。

取消restore

與備份類似,delete正在恢復的索引可以取消恢復過程:

curl -XDELETE 'http://elasticsearch02:9200/music'

集群升級

我們現(xiàn)在使用的版本是6.3.1,目前官網(wǎng)最新版本已經(jīng)是7.5.2了,如果沒有重大的變更或嚴重bug報告的情況下,一般是不需要做升級,畢竟升級有風險,發(fā)布要謹慎。

這里就簡單說一下通用的步驟,謹慎操作:

  1. 查看官網(wǎng)最新版本的文檔,從當前版本到目標版本的升級,有哪些變化,新加入的功能和修復的bug。
  2. 在開發(fā)環(huán)境或測試環(huán)境先執(zhí)行升級,相應的插件也做一次匹配升級,穩(wěn)定運行幾個項目版本周期后,再考慮生產(chǎn)環(huán)境的升級事宜。
  3. 升級前對數(shù)據(jù)進行全量的備份,萬一升級失敗,還有挽救的余地。
  4. 申請生產(chǎn)環(huán)境升級的時間窗口,逐個node進行升級驗證。

補充hadoop集群搭建

Elasticsearch的數(shù)據(jù)備份,通常建議的實踐方案是結合hadoop的hdfs文件存儲,這里我們搭建一個hadoop的集群環(huán)境用作演示,hadoop相關的基礎知識請自行了解,已經(jīng)掌握的童鞋可以跳過。

版本環(huán)境:
hadoop 2.8.1

虛擬機環(huán)境

hadoop集群至少需要3個節(jié)點。我們選用elasticsearch02、elasticsearch03、elasticsearch04三臺機器用于搭建。

  1. 下載解壓

官網(wǎng)下載hadoop-2.8.1.tar.gz,解壓至/opt/hadoop目錄

  1. 設置環(huán)境變量

演示環(huán)境擁有root權限,就介紹一種最簡單的設置方法,修改/etc/profile文件,添加變量后記得source一下該文件。


[root@elasticsearch02 ~]# vi /etc/profile

# 文件末尾添加
export HADOOP_HOME=/opt/hadoop/hadoop-2.8.1
export PATH=${HADOOP_HOME}/bin:$PATH

[root@elasticsearch02 ~]# source /etc/profile
  1. 創(chuàng)建hadoop數(shù)據(jù)目錄,啟動hadoop時我們使用esuser賬戶,就在/home/esuser下創(chuàng)建目錄,如 /home/esuser/hadoopdata

  2. 修改hadoop的配置文件,在/opt/hadoop/hadoop-2.8.1/etc/hadoop目錄下,基本上是添加配置,涉及的配置文件:

  • core-site.xml
  • hdfs-site.xml
  • yarn-site.xml
  • mapred-site.xml
  • slaves(注:我們選定elasticsearch02為master,其余兩個為slave)

示例修改如下:

core-site.xml

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://elasticsearch02:9000</value>
</property>

hdfs-site.xml

<property>
  <name>dfs.namenode.name.dir</name>
  <value>/home/esuser/hadoopdata/namenode</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>/home/esuser/hadoopdata/datanode</value>
</property>

yarn-site.xml

<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>elasticsearch02</value>
</property>

mapred-site.xml

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

slaves

elasticsearch03
elasticsearch04
  1. 拷貝設置后的文件到另外兩臺機器上
scp -r /opt/hadoop/hadoop-2.8.1 esuser@elasticsearch03:/opt/hadoop/hadoop-2.8.1
scp -r /opt/hadoop/hadoop-2.8.1 esuser@elasticsearch04:/opt/hadoop/hadoop-2.8.1

拷貝的文件有點大,需要等一會兒,拷貝完成后,在elasticsearch03、elasticsearch04再設置一次HADOOP_HOME環(huán)境變量

  1. 啟動集群

格式化namenode,在hadoop master節(jié)點(elasticsearch02),HADOOP_HOME/sbin目錄下執(zhí)行hdfs namenode -format

執(zhí)行啟動命令:start-dfs.sh
這個啟動過程會建立到elasticsearch03、elasticsearch04的ssh連接,輸入esuser的密碼即可,也可以提前建立好免密ssh連接。

我們只需要用它的hdfs服務,其他的組件可以不啟動。

驗證啟動是否成功,三臺機器分別輸入jps,看下面的進程,如無意外理論上應該是這樣:
elasticsearch02:NameNode、SecondaryNameNode
elasticsearch03:DataNode
elasticsearch04:DataNode

同時在瀏覽器上輸入hadoop master的控制臺地址:http://192.168.17.137:50070/dfshealth.html#tab-overview,應該能看到這兩個界面:

image

image

datanodes看到2個結點,表示集群啟動成功,如果只能看到一個或一個都沒有,可以查看相應的日志:/opt/hadoop/hadoop-2.8.1/logs

Error: JAVA_HOME is not set and could not be found 錯誤解決辦法

這個明明已經(jīng)設置了JAVA_HOME,并且export命令也能看到,啟動時死活就是不行,不跟他杠了,直接在/opt/hadoop/hadoop-2.8.1/etc/hadoop/hadoop-env.sh文件加上

export JAVA_HOME="/opt/jdk1.8.0_211"

小結

本篇主要以hadoop分布式文件存儲為背景,講解了Elasticsearch數(shù)據(jù)的備份與恢復,可以了解一下。集群版本升級這類操作,實踐起來比較復雜,受項目本身影響比較大,這里就簡單提及要注意的地方,沒有作詳細的案例操作,真要有版本升級的操作,請各位慎重操作,多驗證,確保測試環(huán)境充分測試后再上生產(chǎn),記得數(shù)據(jù)要備份。

專注Java高并發(fā)、分布式架構,更多技術干貨分享與心得,請關注公眾號:Java架構社區(qū)

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容