2022年08月和同事接手以前的一套老系統(tǒng),系統(tǒng)需求不高,大部分功能都是要求使用爬蟲或etl工具從第三方采集數(shù)據(jù)。以后有空再整理爬蟲,這里主要談?wù)勎覍?duì)數(shù)據(jù)采集的個(gè)人看法。
出于工作性質(zhì)原因,我接觸過不少的數(shù)據(jù)采集應(yīng)用,有使用自研工具的、也有使用類似dataX等開源工具,雖然略有側(cè)重,但核心仍是專注在采數(shù)。我們?cè)谧鲈O(shè)計(jì)的時(shí)候經(jīng)常強(qiáng)調(diào)“高內(nèi)聚,低耦合”,其一目的就是為了降低各模塊的耦合度,削弱模塊間的關(guān)聯(lián)度。回到我前面提的那套老系統(tǒng),數(shù)據(jù)采集使用了第三方ETL工具,這款ETL工具或許沒有定時(shí)調(diào)度功能,以前的開發(fā)人員便設(shè)計(jì)出了兩套調(diào)度方案,方案1:使用crontab定時(shí)調(diào)度etl工具;方案二:在java應(yīng)用遠(yuǎn)程調(diào)度shell腳本定時(shí)啟動(dòng)采數(shù),java應(yīng)用則使用第三方調(diào)度應(yīng)用定時(shí)調(diào)度。從實(shí)現(xiàn)上兩個(gè)方案都沒問題,但從設(shè)計(jì)的角度分析,我們會(huì)發(fā)現(xiàn)方案一存在一定弊端:偏系統(tǒng)底層、無法視圖化、維護(hù)成本高,如果需要臨時(shí)調(diào)度一次采數(shù),需要具備一定linux技能才能完成操作,這無形增大了系統(tǒng)的維護(hù)難度;方案二相較方案一略增加了復(fù)雜度,實(shí)際上也規(guī)避不了以上提到的弊端,調(diào)度強(qiáng)依賴第三方應(yīng)用,在多任務(wù)并發(fā)的情況下還可能威脅到服務(wù)器的穩(wěn)定。在后續(xù)的維護(hù)開發(fā)中,我們也不得不投入了大量的人力維持采數(shù)功能的正常運(yùn)行。
data-pipeline源自我以前的一次無意實(shí)現(xiàn)的demo,在經(jīng)過對(duì)老系統(tǒng)的思考,在此demo的基礎(chǔ)上進(jìn)行了二次重構(gòu)。data-pipeline并不像主流ETL工具那么強(qiáng)大,主要的優(yōu)勢(shì)就是簡(jiǎn)單、靈活、輕量級(jí)。基于spingboot、quartz實(shí)現(xiàn)的純java應(yīng)用,只需具備java技能就能進(jìn)行二次開發(fā)維護(hù),雖然目前僅支持mysql、oracle兩種類型的數(shù)據(jù)傳輸,但通過簡(jiǎn)單集成實(shí)現(xiàn),也能滿足對(duì)ES、nosql,等存儲(chǔ)介質(zhì)的數(shù)據(jù)傳輸。data-pipeline使用quartz實(shí)現(xiàn)任務(wù)的定時(shí)調(diào)度,quartz本身也提供了分布式調(diào)度的解決方案,所以data-pipeline無疑也支持分布式部署。正所謂一個(gè)好漢三個(gè)幫,一臺(tái)機(jī)器干不完的活,便多加兩臺(tái)機(jī)器,data-pipeline會(huì)把執(zhí)行任務(wù)分配到任何一臺(tái)機(jī)器,如果某臺(tái)機(jī)器宕機(jī),其他機(jī)器到執(zhí)行時(shí)間也能繼續(xù)執(zhí)行任務(wù)。關(guān)于quartz的分布式調(diào)度,有興趣的朋友可以單獨(dú)了解下。下面開始介紹data-pepeline的安裝過程:
安裝教程
- 下載源碼:
[data-pipeline: 基于springboot實(shí)現(xiàn)分布式的數(shù)據(jù)采集應(yīng)用 (gitee.com)](https://gitee.com/juque-framework/data-pipeline)
- 在mysql創(chuàng)建數(shù)據(jù)庫(kù):data-pipeline,其他數(shù)據(jù)庫(kù)需要自行適配DDL、DML腳本;
- 執(zhí)行data-pipeline-server/bin下面的DDL、DML腳本;
- 根據(jù)實(shí)際環(huán)境調(diào)整如下配置:
spring:
datasource:
url: jdbc:mysql://127.0.0.1:3306/data-pipeline?useUnicode=true&characterEncoding=utf8&useSSL=false&serverTimezone=Asia/Shanghai
username: root
password: root
- 啟動(dòng)應(yīng)用,控制臺(tái)訪問路徑:http://localhost:8080;
- 默認(rèn)帳號(hào)密碼:admin / 123321
- 也可以下載發(fā)行版:release-*.zip,調(diào)整application- *.yml配置,啟動(dòng)應(yīng)用:startup.sh / startup.cmd dev(對(duì)應(yīng)環(huán)境的profile)
應(yīng)用依賴
juque-framework是本人使用空余時(shí)間維護(hù)技術(shù)棧的一個(gè)gitee集合,data-pipeline的maven依賴統(tǒng)一由juque-framework管理,部分工具類引用自framework-common,都可以在此gitee集合下面找到。本地編譯,可以先把這兩個(gè)工程clone到本地,并install。
前端是基于vue-next-admin前端框架二次開發(fā),詳情請(qǐng)移步:https://gitee.com/lyt-top/vue-next-admin。vue-data-pipeline的gitee坐標(biāo):vue-data-pipeline: 數(shù)據(jù)采集應(yīng)用的前端 (gitee.com)
應(yīng)用預(yù)覽




