數(shù)據(jù)倉庫系列6-ETL vs ELT

什么是ETL?

ETL 是 Extract、Transform 和 Load 的縮寫。在這個過程中,ETL 工具從不同的 RDBMS 源系統(tǒng)中提取數(shù)據(jù),然后應(yīng)用計算、連接等轉(zhuǎn)換數(shù)據(jù),然后將數(shù)據(jù)加載到數(shù)據(jù)倉庫系統(tǒng)中。

ETL 中,數(shù)據(jù)是從源流向目標。ETL 流程轉(zhuǎn)換引擎負責(zé)處理任何數(shù)據(jù)更改。

什么是ETL

什么是 ELT?

ELT 是查看數(shù)據(jù)移動工具方法的不同方法。ELT 不是在寫入數(shù)據(jù)之前轉(zhuǎn)換數(shù)據(jù),而是讓目標系統(tǒng)進行轉(zhuǎn)換。數(shù)據(jù)首先復(fù)制到目標,然后就地轉(zhuǎn)換。

ELT 通常與 Hadoop 集群、數(shù)據(jù)設(shè)備或云安裝等非 Sql 數(shù)據(jù)庫一起使用。

什么是 ELT

接下來,我們將了解 ETL 和 ELT 之間的區(qū)別。

主要區(qū)別

  • ETL 代表提取、轉(zhuǎn)換和加載,而 ELT 代表提取、加載、轉(zhuǎn)換。
  • ETL 首先將數(shù)據(jù)加載到登臺服務(wù)器,然后加載到目標系統(tǒng),而 ELT 將數(shù)據(jù)直接加載到目標系統(tǒng)。
  • ETL 模型用于本地、關(guān)系和結(jié)構(gòu)化數(shù)據(jù),而 ELT 用于可擴展的云結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源。
  • 比較 ELT 和 ETL,ETL 主要用于少量數(shù)據(jù),而 ELT 用于大量數(shù)據(jù)。
  • 當我們比較 ETL 與 ELT 時,ETL 不提供數(shù)據(jù)湖支持,而 ELT 提供數(shù)據(jù)湖支持。
  • 比較 ELT 與 ETL,ETL 易于實施,而 ELT 需要特定技能來實施和維護。

ETL 與 ELT 之間的區(qū)別

以下是主要的 ETL 和 ELT 區(qū)別:

參數(shù) ETL ELT
過程 數(shù)據(jù)在登臺服務(wù)器上轉(zhuǎn)換,然后傳輸?shù)?Datawarehouse DB。 數(shù)據(jù)保留在數(shù)據(jù)倉庫的 DB 中。
代碼使用 用于
* 計算密集型轉(zhuǎn)換
* 數(shù)據(jù)量小
用于大量數(shù)據(jù)
轉(zhuǎn)型 轉(zhuǎn)換在 ETL 服務(wù)器/暫存區(qū)完成。 在目標系統(tǒng)中執(zhí)行轉(zhuǎn)換
時間-加載 數(shù)據(jù)首先加載到登臺,然后加載到目標系統(tǒng)。時間密集。 數(shù)據(jù)只加載到目標系統(tǒng)一次??禳c。
時間-轉(zhuǎn)換 ETL 過程需要等待轉(zhuǎn)換完成。隨著數(shù)據(jù)大小的增長,轉(zhuǎn)換時間也會增加。 在 ELT 過程中,速度從不依賴于數(shù)據(jù)的大小。
時間-維護 它需要高維護,因為您需要選擇要加載和轉(zhuǎn)換的數(shù)據(jù)。 由于數(shù)據(jù)始終可用,因此維護成本低。
實施復(fù)雜性 在早期階段,更容易實施。 要實施 ELT 流程,組織應(yīng)該對工具和專業(yè)技能有深入的了解。
支持數(shù)據(jù)倉庫 ETL 模型用于本地、關(guān)系和結(jié)構(gòu)化數(shù)據(jù)。 用于支持結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)源的可擴展云基礎(chǔ)架構(gòu)。
數(shù)據(jù)湖支持 不支持。 允許將數(shù)據(jù)湖與非結(jié)構(gòu)化數(shù)據(jù)一起使用。
復(fù)雜 ETL 過程僅加載在設(shè)計時確定的重要數(shù)據(jù)。 此過程涉及從輸出向后開發(fā)并僅加載相關(guān)數(shù)據(jù)。
成本 中小企業(yè)成本高。 使用在線軟件即服務(wù)平臺的低入門成本。
查找 在 ETL 過程中,事實和維度都需要在 staging area 中可用。 所有數(shù)據(jù)都將可用,因為提取和加載發(fā)生在一個單一的操作中。
聚合 復(fù)雜性隨著數(shù)據(jù)集中數(shù)據(jù)量的增加而增加。 目標平臺的強大功能可以快速處理大量數(shù)據(jù)。
計算 覆蓋現(xiàn)有列或需要附加數(shù)據(jù)集并推送到目標平臺。 輕松將計算列添加到現(xiàn)有表中。
成熟度 這個過程已經(jīng)使用了二十多年。它有據(jù)可查,最佳實踐很容易獲得。 相對較新的概念且實施起來較復(fù)雜。
硬件 大多數(shù)工具都有昂貴的獨特硬件要求。 成為 Saas 硬件成本不是問題。
支持非結(jié)構(gòu)化數(shù)據(jù) 主要支持關(guān)系數(shù)據(jù) 支持隨時可用的非結(jié)構(gòu)化數(shù)據(jù)。

參考guru99

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容