使用logstash同步MySQL數(shù)據(jù)到ES

概述

在生成業(yè)務(wù)常有將MySQL數(shù)據(jù)同步到ES的需求,如果需要很高的定制化,往往需要開發(fā)同步程序用于處理數(shù)據(jù)。但沒有特殊業(yè)務(wù)需求,官方提供的logstash就很有優(yōu)勢了。
??在使用logstash我們應(yīng)先了解其特性,再決定是否使用:

  • 無需開發(fā),僅需安裝配置logstash即可;
  • 凡是SQL可以實現(xiàn)的logstash均可以實現(xiàn)(本就是通過sql查詢數(shù)據(jù))
  • 支持每次全量同步或按照特定字段(如遞增ID、修改時間)增量同步;
  • 同步頻率可控,最快同步頻率每分鐘一次(如果對實效性要求較高,慎用);
  • 不支持被物理刪除的數(shù)據(jù)同步物理刪除ES中的數(shù)據(jù)(可在表設(shè)計中增加邏輯刪除字段IsDelete標識數(shù)據(jù)刪除)。

1、安裝

前往官網(wǎng)下載logstash,下載地址www.elastic.co/downloads/l…,zip壓縮包大約160M(覺得官網(wǎng)下載慢的可前往@zxiaofan的CSDN下載);
??程序目錄:【windows】G:\ELK\logstash-6.5.4;【linux】/tomcat/logstash/logstash-6.5.4。
??下文統(tǒng)一以【程序目錄】表示不同環(huán)境的安裝目錄。

2、配置

2.1、新建目錄存放配置文件及mysql依賴包

訪問https://dev.mysql.com/downloads/connector/j/下載mysql依賴包。
wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.46.zip
??在【程序目錄】目錄(\bin同級)新建mysql目錄,將下載好的mysql-connector-java-5.1.34.jar放入此目錄;
??在【程序目錄】\mysql目錄新建jdbc.conf文件,此文件將配置數(shù)據(jù)庫連接信息、查詢數(shù)據(jù)sql、分頁信息、同步頻率等核心信息。
??注意事項請查看注釋信息。

2.2、單表同步配置

input {
    stdin {}
    jdbc {
        type => "jdbc"
         # 數(shù)據(jù)庫連接地址
        jdbc_connection_string => "jdbc:mysql://192.168.1.1:3306/TestDB?characterEncoding=UTF-8&autoReconnect=true""
         # 數(shù)據(jù)庫連接賬號密碼;
        jdbc_user => "username"
        jdbc_password => "pwd"
         # MySQL依賴包路徑;
        jdbc_driver_library => "mysql/mysql-connector-java-5.1.34.jar"
         # the name of the driver class for mysql
        jdbc_driver_class => "com.mysql.jdbc.Driver"
         # 數(shù)據(jù)庫重連嘗試次數(shù)
        connection_retry_attempts => "3"
         # 判斷數(shù)據(jù)庫連接是否可用,默認false不開啟
        jdbc_validate_connection => "true"
         # 數(shù)據(jù)庫連接可用校驗超時時間,默認3600S
        jdbc_validation_timeout => "3600"
         # 開啟分頁查詢(默認false不開啟);
        jdbc_paging_enabled => "true"
         # 單次分頁查詢條數(shù)(默認100000,若字段較多且更新頻率較高,建議調(diào)低此值);
        jdbc_page_size => "500"
         # statement為查詢數(shù)據(jù)sql,如果sql較復(fù)雜,建議配通過statement_filepath配置sql文件的存放路徑;
         # sql_last_value為內(nèi)置的變量,存放上次查詢結(jié)果中最后一條數(shù)據(jù)tracking_column的值,此處即為ModifyTime;
         # statement_filepath => "mysql/jdbc.sql"
        statement => "SELECT KeyId,TradeTime,OrderUserName,ModifyTime FROM `DetailTab` WHERE ModifyTime>= :sql_last_value order by ModifyTime asc"
         # 是否將字段名轉(zhuǎn)換為小寫,默認true(如果有數(shù)據(jù)序列化、反序列化需求,建議改為false);
        lowercase_column_names => false
         # Value can be any of: fatal,error,warn,info,debug,默認info;
        sql_log_level => warn
         #
         # 是否記錄上次執(zhí)行結(jié)果,true表示會將上次執(zhí)行結(jié)果的tracking_column字段的值保存到last_run_metadata_path指定的文件中;
        record_last_run => true
         # 需要記錄查詢結(jié)果某字段的值時,此字段為true,否則默認tracking_column為timestamp的值;
        use_column_value => true
         # 需要記錄的字段,用于增量同步,需是數(shù)據(jù)庫字段
        tracking_column => "ModifyTime"
         # Value can be any of: numeric,timestamp,Default value is "numeric"
        tracking_column_type => timestamp
         # record_last_run上次數(shù)據(jù)存放位置;
        last_run_metadata_path => "mysql/last_id.txt"
         # 是否清除last_run_metadata_path的記錄,需要增量同步時此字段必須為false;
        clean_run => false
         #
         # 同步頻率(分 時 天 月 年),默認每分鐘同步一次;
        schedule => "* * * * *"
    }
}

filter {
    json {
        source => "message"
        remove_field => ["message"]
    }
    # convert 字段類型轉(zhuǎn)換,將字段TotalMoney數(shù)據(jù)類型改為float;
    mutate {
        convert => {
            "TotalMoney" => "float"
        }
    }
}
output {
    elasticsearch {
         # host => "192.168.1.1"
         # port => "9200"
         # 配置ES集群地址
        hosts => ["192.168.1.1:9200", "192.168.1.2:9200", "192.168.1.3:9200"]
         # 索引名字,必須小寫
        index => "consumption"
         # 數(shù)據(jù)唯一索引(建議使用數(shù)據(jù)庫KeyID)
        document_id => "%{KeyId}"
    }
    stdout {
        codec => json_lines
    }
}
復(fù)制代碼

2.3、多表同步

多表配置和單表配置的區(qū)別在于input模塊的jdbc模塊有幾個type,output模塊就需對應(yīng)有幾個type;

input {
    stdin {}
    jdbc {
         # 多表同步時,表類型區(qū)分,建議命名為“庫名_表名”,每個jdbc模塊需對應(yīng)一個type;
        type => "TestDB_DetailTab"

         # 其他配置此處省略,參考單表配置
         # ...
         # ...
         # record_last_run上次數(shù)據(jù)存放位置;
        last_run_metadata_path => "mysql\last_id.txt"
         # 是否清除last_run_metadata_path的記錄,需要增量同步時此字段必須為false;
        clean_run => false
         #
         # 同步頻率(分 時 天 月 年),默認每分鐘同步一次;
        schedule => "* * * * *"
    }
    jdbc {
         # 多表同步時,表類型區(qū)分,建議命名為“庫名_表名”,每個jdbc模塊需對應(yīng)一個type;
        type => "TestDB_Tab2"
        # 多表同步時,last_run_metadata_path配置的路徑應(yīng)不一致,避免有影響;
         # 其他配置此處省略
         # ...
         # ...
    }
}

filter {
    json {
        source => "message"
        remove_field => ["message"]
    }
}

output {
    # output模塊的type需和jdbc模塊的type一致
    if [type] == "TestDB_DetailTab" {
        elasticsearch {
             # host => "192.168.1.1"
             # port => "9200"
             # 配置ES集群地址
            hosts => ["192.168.1.1:9200", "192.168.1.2:9200", "192.168.1.3:9200"]
             # 索引名字,必須小寫
            index => "detailtab1"
             # 數(shù)據(jù)唯一索引(建議使用數(shù)據(jù)庫KeyID)
            document_id => "%{KeyId}"
        }
    }
    if [type] == "TestDB_Tab2" {
        elasticsearch {
            # host => "192.168.1.1"
            # port => "9200"
            # 配置ES集群地址
            hosts => ["192.168.1.1:9200", "192.168.1.2:9200", "192.168.1.3:9200"]
            # 索引名字,必須小寫
            index => "detailtab2"
            # 數(shù)據(jù)唯一索引(建議使用數(shù)據(jù)庫KeyID)
            document_id => "%{KeyId}"
        }
    }
    stdout {
        codec => json_lines
    }
}
復(fù)制代碼

3、啟動運行

在【程序目錄】目錄執(zhí)行以下命令啟動:

【windows】
bin\logstash.bat -f mysql\jdbc.conf
【linux】
nohup ./bin/logstash -f mysql/jdbc_jx_moretable.conf &
復(fù)制代碼

可新建腳本配置好啟動命令,后期直接運行即可。
??在【程序目錄】\logs目錄會有運行日志。

Note:
??5.x/6.X/7.x版本需要jdk8支持,如果默認jdk版本不是jdk8,那么需要在logstash或logstash.lib.sh的行首位置添加兩個環(huán)境變量:

export JAVA_CMD="/usr/tools/jdk1.8.0_162/bin"
export JAVA_HOME="/usr/tools/jdk1.8.0_162/"
復(fù)制代碼

開機自啟動:

4、問題及解決方案

4.1、數(shù)據(jù)同步后,ES沒有數(shù)據(jù)

output.elasticsearch模塊的index必須是全小寫;

4.2、增量同步后last_run_metadata_path文件內(nèi)容不改變

如果lowercase_column_names配置的不是false,那么tracking_column字段配置的必須是全小寫。

4.3、提示找不到j(luò)dbc_driver_library

2032 com.mysql.jdbc.Driver not loaded.
Are you sure you've included the correct jdbc driver in :jdbc_driver_library?
復(fù)制代碼

檢測配置的地址是否正確,如果是linux環(huán)境,注意路徑分隔符是“/”,而不是“\”。

4.4、數(shù)據(jù)丟失

statement配置的sql中,如果比較字段使用的是大于“>”,可能存在數(shù)據(jù)丟失。
??假設(shè)當(dāng)同步完成后last_run_metadata_path存放的時間為2019-01-30 20:45:30,而這時候新入庫一條數(shù)據(jù)的更新時間也為2019-01-30 20:45:30,那么這條數(shù)據(jù)將無法同步。
??解決方案:將比較字段使用 大于等于“>=”。

4.5、數(shù)據(jù)重復(fù)更新

上一個問題“數(shù)據(jù)丟失”提供的解決方案是比較字段使用“大于等于”,但這時又會產(chǎn)生新的問題。
??假設(shè)當(dāng)同步完成后last_run_metadata_path存放的時間為2019-01-30 20:45:30,而數(shù)據(jù)庫中更新時間最大值也為2019-01-30 20:45:30,那么這些數(shù)據(jù)將重復(fù)更新,直到有更新時間更大的數(shù)據(jù)出現(xiàn)。
??當(dāng)上述特殊數(shù)據(jù)很多,且長期沒有新的數(shù)據(jù)更新時,會導(dǎo)致大量的數(shù)據(jù)重復(fù)同步到ES。
??何時會出現(xiàn)以上情況呢:①比較字段非“自增”;②比較字段是程序生成插入。
解決方案:

  • ①比較字段自增保證不重復(fù)或重復(fù)概率極?。ū热缡褂米栽鯥D或者數(shù)據(jù)庫的timestamp),這樣就能避免大部分異常情況了;
  • ②如果確實存在大量程序插入的數(shù)據(jù),其更新時間相同,且可能長期無數(shù)據(jù)更新,可考慮定期更新數(shù)據(jù)庫中的一條測試數(shù)據(jù),避免最大值有大量數(shù)據(jù)。

4.6、容災(zāi)

logstash本身無法集群,我們常使用的組合ELK是通過kafka集群變相實現(xiàn)集群的。
??可供選擇的處理方式:①使用任務(wù)程序推送數(shù)據(jù)到kafaka,由kafka同步數(shù)據(jù)到ES,但任務(wù)程序本身也需要容災(zāi),并需要考慮重復(fù)推送的問題;②將logstash加入守護程序,并輔以第三方監(jiān)控其運行狀態(tài)。
??具體如何選擇,需要結(jié)合自身的應(yīng)用場景了。

4.7、海量數(shù)據(jù)同步

為什么會慢?logstash分頁查詢使用臨時表分頁,每條分頁SQL都是將全集查詢出來當(dāng)作臨時表,再在臨時表上分頁查詢。這樣導(dǎo)致每次分頁查詢都要對主表進行一次全表掃描。

SELECT * FROM (SELECT * FROM `ImageCN1`
 WHERE ModifyTime>= '1970-01-01 08:00:00'
 order by ModifyTime asc) AS `t1`
 LIMIT 5000 OFFSET 10000000;
復(fù)制代碼

數(shù)據(jù)量太大,首次同步如何安全過渡同步?
??可考慮在statement對應(yīng)的sql中加上分頁條件,比如ID在什么范圍,修改時間在什么區(qū)間,將單詞同步的數(shù)據(jù)總量減少。先少量數(shù)據(jù)同步測試驗證,再根據(jù)測試情況修改區(qū)間條件啟動logstash完成同步。比如將SQL修改為:

SELECT
    * 
FROM
    `ImageCN1` 
WHERE
    ModifyTime < '2018-10-10 10:10:10' AND ModifyTime >= '1970-01-01 08:00:00' 
ORDER BY
    ModifyTime ASC
復(fù)制代碼

當(dāng)同步完ModifyTime<'2018-10-10 10:10:10'區(qū)間的數(shù)據(jù)在修改SQL同步剩余區(qū)間的數(shù)據(jù)。
??這樣需要每次同步后就修改sql,線上運營比較繁瑣,是否可以不修改sql,同時保證同步效率呢?SQL我們可以再修改下:

SELECT
    * 
FROM
    `ImageCN1` 
WHERE
    ModifyTime >= '1970-01-01 08:00:00' 
ORDER BY
    ModifyTime ASC 
    LIMIT 100000
復(fù)制代碼

這樣就能保證每次子查詢的數(shù)據(jù)量不超過10W條,實際測試發(fā)現(xiàn),數(shù)據(jù)量很大時效果很明顯。

[SQL]USE XXXDataDB;
受影響的行: 0
時間: 0.001s

[SQL]
SELECT
    * 
FROM
    ( SELECT * FROM `ImageCN1` WHERE ModifyTime >= '1970-01-01 08:00:00' ORDER BY ModifyTime ASC ) AS `t1` 
    LIMIT 5000 OFFSET 900000;
受影響的行: 0
時間: 7.229s

[SQL]
SELECT
    * 
FROM
    ( SELECT * FROM `ImageCN1` WHERE ModifyTime >= '2018-07-18 19:35:10' ORDER BY ModifyTime ASC LIMIT 100000 ) AS `t1` 
    LIMIT 5000 OFFSET 90000
受影響的行: 0
時間: 1.778s
復(fù)制代碼

測試可以看出,SQL不加limit 10W時,越往后分頁查詢越慢,耗時達到8S,而加了limit條件的SQL耗時穩(wěn)定在2S以內(nèi)。

作者:zxiaofan
鏈接:https://juejin.im/post/5daf2fa56fb9a04e054da1e3
來源:掘金
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容