data-pipeline(分布式采數(shù)應(yīng)用)

2022年08月和同事接手以前的一套老系統(tǒng),系統(tǒng)需求不高,大部分功能都是要求使用爬蟲或etl工具從第三方采集數(shù)據(jù)。以后有空再整理爬蟲,這里主要談?wù)勎覍?duì)數(shù)據(jù)采集的個(gè)人看法。
出于工作性質(zhì)原因,我接觸過不少的數(shù)據(jù)采集應(yīng)用,有使用自研工具的、也有使用類似dataX等開源工具,雖然略有側(cè)重,但核心仍是專注在采數(shù)。我們?cè)谧鲈O(shè)計(jì)的時(shí)候經(jīng)常強(qiáng)調(diào)“高內(nèi)聚,低耦合”,其一目的就是為了降低各模塊的耦合度,削弱模塊間的關(guān)聯(lián)度。回到我前面提的那套老系統(tǒng),數(shù)據(jù)采集使用了第三方ETL工具,這款ETL工具或許沒有定時(shí)調(diào)度功能,以前的開發(fā)人員便設(shè)計(jì)出了兩套調(diào)度方案,方案1:使用crontab定時(shí)調(diào)度etl工具;方案二:在java應(yīng)用遠(yuǎn)程調(diào)度shell腳本定時(shí)啟動(dòng)采數(shù),java應(yīng)用則使用第三方調(diào)度應(yīng)用定時(shí)調(diào)度。從實(shí)現(xiàn)上兩個(gè)方案都沒問題,但從設(shè)計(jì)的角度分析,我們會(huì)發(fā)現(xiàn)方案一存在一定弊端:偏系統(tǒng)底層、無法視圖化、維護(hù)成本高,如果需要臨時(shí)調(diào)度一次采數(shù),需要具備一定linux技能才能完成操作,這無形增大了系統(tǒng)的維護(hù)難度;方案二相較方案一略增加了復(fù)雜度,實(shí)際上也規(guī)避不了以上提到的弊端,調(diào)度強(qiáng)依賴第三方應(yīng)用,在多任務(wù)并發(fā)的情況下還可能威脅到服務(wù)器的穩(wěn)定。在后續(xù)的維護(hù)開發(fā)中,我們也不得不投入了大量的人力維持采數(shù)功能的正常運(yùn)行。
data-pipeline源自我以前的一次無意實(shí)現(xiàn)的demo,在經(jīng)過對(duì)老系統(tǒng)的思考,在此demo的基礎(chǔ)上進(jìn)行了二次重構(gòu)。data-pipeline并不像主流ETL工具那么強(qiáng)大,主要的優(yōu)勢(shì)就是簡(jiǎn)單、靈活、輕量級(jí)。基于spingboot、quartz實(shí)現(xiàn)的純java應(yīng)用,只需具備java技能就能進(jìn)行二次開發(fā)維護(hù),雖然目前僅支持mysql、oracle兩種類型的數(shù)據(jù)傳輸,但通過簡(jiǎn)單集成實(shí)現(xiàn),也能滿足對(duì)ES、nosql,等存儲(chǔ)介質(zhì)的數(shù)據(jù)傳輸。data-pipeline使用quartz實(shí)現(xiàn)任務(wù)的定時(shí)調(diào)度,quartz本身也提供了分布式調(diào)度的解決方案,所以data-pipeline無疑也支持分布式部署。正所謂一個(gè)好漢三個(gè)幫,一臺(tái)機(jī)器干不完的活,便多加兩臺(tái)機(jī)器,data-pipeline會(huì)把執(zhí)行任務(wù)分配到任何一臺(tái)機(jī)器,如果某臺(tái)機(jī)器宕機(jī),其他機(jī)器到執(zhí)行時(shí)間也能繼續(xù)執(zhí)行任務(wù)。關(guān)于quartz的分布式調(diào)度,有興趣的朋友可以單獨(dú)了解下。下面開始介紹data-pepeline的安裝過程:

安裝教程

  • 下載源碼:
[data-pipeline: 基于springboot實(shí)現(xiàn)分布式的數(shù)據(jù)采集應(yīng)用 (gitee.com)](https://gitee.com/juque-framework/data-pipeline)

  • 在mysql創(chuàng)建數(shù)據(jù)庫(kù):data-pipeline,其他數(shù)據(jù)庫(kù)需要自行適配DDL、DML腳本;
  • 執(zhí)行data-pipeline-server/bin下面的DDL、DML腳本;
  • 根據(jù)實(shí)際環(huán)境調(diào)整如下配置:
    spring:
      datasource:
        url: jdbc:mysql://127.0.0.1:3306/data-pipeline?useUnicode=true&characterEncoding=utf8&useSSL=false&serverTimezone=Asia/Shanghai
        username: root
        password: root
  • 啟動(dòng)應(yīng)用,控制臺(tái)訪問路徑:http://localhost:8080
  • 默認(rèn)帳號(hào)密碼:admin / 123321
  • 也可以下載發(fā)行版:release-*.zip,調(diào)整application- *.yml配置,啟動(dòng)應(yīng)用:startup.sh / startup.cmd dev(對(duì)應(yīng)環(huán)境的profile)

應(yīng)用依賴

juque-framework是本人使用空余時(shí)間維護(hù)技術(shù)棧的一個(gè)gitee集合,data-pipeline的maven依賴統(tǒng)一由juque-framework管理,部分工具類引用自framework-common,都可以在此gitee集合下面找到。本地編譯,可以先把這兩個(gè)工程clone到本地,并install。
前端是基于vue-next-admin前端框架二次開發(fā),詳情請(qǐng)移步:https://gitee.com/lyt-top/vue-next-admin。vue-data-pipeline的gitee坐標(biāo):vue-data-pipeline: 數(shù)據(jù)采集應(yīng)用的前端 (gitee.com)

應(yīng)用預(yù)覽

1.png

2.png
3.png
4.png
6.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容