Flink系列之Flink的應(yīng)用場(chǎng)景(二)

? ? ? ? 從接觸數(shù)倉(cāng)就開(kāi)始聽(tīng)說(shuō)ETL,ETL也始終貫傳數(shù)倉(cāng)倉(cāng)庫(kù),問(wèn)大家一個(gè)問(wèn)題,ETL在數(shù)倉(cāng)領(lǐng)域家喻戶曉的原因是因?yàn)樗?jiǎn)單嗎? 答案是:恰恰是因?yàn)槠鋸?fù)雜和重要。

? ? ? ? 那么ETL解決了什么問(wèn)題呢?我們?yōu)槭裁葱枰狤TL?

多源

? ? ? ? 解決的是數(shù)據(jù)孤島的問(wèn)題。

? ? ? ? 我們有了數(shù)據(jù)全局觀,才能真正去做商業(yè)智能(BI)


ETL主要應(yīng)用:

1.數(shù)據(jù)完整性:由于各個(gè)子業(yè)務(wù)系統(tǒng)的收集的信息不完整,比如字段缺失的情況

2.格式不統(tǒng)一:如日期格式

3.錯(cuò)誤數(shù)據(jù):比如由于不小心造出的,比如全角半角問(wèn)題,錯(cuò)誤的數(shù)據(jù)類型

4.重復(fù)數(shù)據(jù):維度表更需要關(guān)注

5.數(shù)據(jù)聚合:有些明細(xì)數(shù)據(jù)不是數(shù)據(jù)倉(cāng)庫(kù)中需要的,一般不會(huì)進(jìn)行聚合操作,一定程度也減少數(shù)量

6.規(guī)則過(guò)濾:由業(yè)務(wù)導(dǎo)致,某些數(shù)據(jù)不需要進(jìn)行提取,那么就要進(jìn)行提取過(guò)濾

7.其他:如url

作用

ETL的周期性和同步方式

ETL往往是一個(gè)持續(xù)的周期性的過(guò)程,不是一次性的工作,所以會(huì)根據(jù)數(shù)據(jù)量的不同周期性(小時(shí)/天/月)的進(jìn)行

1.增量方式:大多數(shù)場(chǎng)景的數(shù)據(jù)提取是增量進(jìn)行的,最常見(jiàn)的是每天提取一次業(yè)務(wù)系統(tǒng)的當(dāng)天數(shù)據(jù)增量。那么增量的提取的業(yè)務(wù)時(shí)間區(qū)間(比如天)就決定了ETL周期性

2.全量方式:這種方式多數(shù)對(duì)某些業(yè)務(wù)系統(tǒng)是文件存儲(chǔ)方式,無(wú)法識(shí)別增量數(shù)據(jù),必須進(jìn)行全量的數(shù)據(jù)提取。這種方式在數(shù)據(jù)量很大的時(shí)候,ETL的周期會(huì)越來(lái)越長(zhǎng)。

3.實(shí)時(shí)同步:某些數(shù)據(jù)源比如數(shù)據(jù)庫(kù)是可以支持觸發(fā)器機(jī)制,比如insert/update/delete的觸發(fā)器。


ETL的架構(gòu):

全景

lambda架構(gòu):

lambda架構(gòu)

kappa架構(gòu)(適用于周期的,數(shù)據(jù)量小):

kappa架構(gòu)

Flink實(shí)時(shí)ETL:



最后談一下數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展歷程

本質(zhì)上是元數(shù)據(jù)的開(kāi)放程度不同


以上

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容