深夜在线一区,久久视频一区在线看,日韩欧美图片

ETL

ETL是英文Extract-Transform-Load 的縮寫，用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract）、轉(zhuǎn)換（transform）、加載（load）至目的端的過程。

常見于數(shù)據(jù)倉庫開發(fā)中將數(shù)據(jù)由業(yè)務(wù)系統(tǒng)歸集到數(shù)據(jù)倉庫（DW）或者數(shù)據(jù)集市的過程。

ETL負責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、
平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成，最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中，成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。

相對于關(guān)系數(shù)據(jù)庫，數(shù)據(jù)倉庫技術(shù)沒有嚴格的數(shù)學(xué)理論基礎(chǔ)，它更面向?qū)嶋H工程應(yīng)用。

所以從工程應(yīng)用的角度來考慮，按著物理數(shù)據(jù)模型的要求加載數(shù)據(jù)并對數(shù)據(jù)進行一些系列處理，處理過程與經(jīng)驗直接相關(guān)，同時這部分的工作直接關(guān)系數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量，從而影響到聯(lián)機分析處理和數(shù)據(jù)挖掘的結(jié)果的質(zhì)量。

數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境，需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務(wù)處理環(huán)境、外部數(shù)據(jù)源和脫機的數(shù)據(jù)存儲介質(zhì)導(dǎo)入到數(shù)據(jù)倉庫中；

在技術(shù)上，ETL主要涉及到關(guān)聯(lián)、轉(zhuǎn)換、增量、調(diào)度和監(jiān)控等幾個方面；

數(shù)據(jù)倉庫系統(tǒng)中數(shù)據(jù)不要求與聯(lián)機事務(wù)處理系統(tǒng)中數(shù)據(jù)實時同步，所以ETL可以定時進行。

但多個ETL的操作時間、順序和成敗對數(shù)據(jù)倉庫中信息的有效性至關(guān)重要。

在ETL三個部分中，花費時間最長的是“T”(Transform，清洗、轉(zhuǎn)換)的部分，一般情況下這部分工作量是整個ETL的2/3。

ETL關(guān)鍵技術(shù)

ETL過程中的主要環(huán)節(jié)就是數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換和加工、數(shù)據(jù)裝載。

為了實現(xiàn)這些功能，各個ETL工具一般會進行一些功能上的擴充，例如工作流、調(diào)度引擎、規(guī)則引擎、腳本支持、統(tǒng)計信息等。

1. 抽取作業(yè)

數(shù)據(jù)抽取是從數(shù)據(jù)源中抽取數(shù)據(jù)的過程。實際應(yīng)用中，數(shù)據(jù)源較多采用的是關(guān)系數(shù)據(jù)庫。

1.1 從數(shù)據(jù)庫中抽取數(shù)據(jù)的方式：

1.1.1 全量抽取

全量抽取類似于數(shù)據(jù)遷移或數(shù)據(jù)復(fù)制，它將數(shù)據(jù)源中的表或視圖的數(shù)據(jù)原封不動的從數(shù)據(jù)庫中抽取出來，并轉(zhuǎn)換成自己的ETL工具可以識別的格式。

全量抽取比較簡單。

1.1.2 增量抽取

增量抽取只抽取自上次抽取以來數(shù)據(jù)庫中要抽取的表中新增或修改的數(shù)據(jù)。

在ETL使用過程中，增量抽取較全量抽取應(yīng)用更廣，如何捕獲變化的數(shù)據(jù)是增量抽取的關(guān)鍵。

對捕獲方法一般有兩點要求：

準確性，能夠?qū)I(yè)務(wù)系統(tǒng)中的變化數(shù)據(jù)按一定的頻率準確地捕獲到；

性能，不能對業(yè)務(wù)系統(tǒng)造成太大的壓力，影響現(xiàn)有業(yè)務(wù)。

1.2 手工開發(fā)抽取作業(yè)時候的常用方法：

1.2.1 當數(shù)據(jù)源和DW為同一類數(shù)據(jù)庫時

一般情況下，DBMS(SQLServer、Oracle)都會提供數(shù)據(jù)庫鏈接功能，可以在數(shù)據(jù)源（業(yè)務(wù)系統(tǒng)）和DW內(nèi)建立數(shù)據(jù)庫鏈接（如DB2的聯(lián)邦數(shù)據(jù)庫NICKNAME），然后在DW內(nèi)直接SELECT訪問。

優(yōu)點是實現(xiàn)使用簡單，邏輯簡單；

缺點是容易被濫用對源數(shù)據(jù)庫造成較大的負載壓力。

1.2.2 當數(shù)據(jù)源和ODS為不同類型數(shù)據(jù)庫時

將源數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)出為文本文件，利用FTP協(xié)議進行傳輸導(dǎo)入ODS區(qū)域。

優(yōu)點是實現(xiàn)簡單，對源系統(tǒng)壓力較小。

缺點是傳輸步驟增加了，處理需要的時間增加。

將部分數(shù)據(jù)庫間能通過ODBC建立源數(shù)據(jù)庫和目標數(shù)據(jù)庫鏈接，此時也能直接使用SELECT獲取數(shù)據(jù)。

優(yōu)點是實現(xiàn)使用簡單，邏輯簡單；

缺點是容易被濫用對源數(shù)據(jù)庫造成較大的負載壓力，且建立時較為復(fù)雜。

1.3 更新數(shù)據(jù)的時間和數(shù)量的問題

1.3.1 實時抽取數(shù)據(jù)

這類抽取方式在數(shù)據(jù)倉庫中很少見到，因為一般來說數(shù)據(jù)倉庫對數(shù)據(jù)的實時性要求并不高。

實時抽取常見于BI中的CRM系統(tǒng)，比如在實時營銷中，客戶一旦進行了某類操作就實時觸發(fā)對應(yīng)的營銷行為。

時間戳方式

要求源表中存在一個或多個字段(時間戳),其值隨著新紀錄的增加而不斷增加，執(zhí)行數(shù)據(jù)抽取時，程序定時循環(huán)檢查通過時間戳對數(shù)據(jù)進行過濾，抽取結(jié)束后，程序記錄時間戳信息。

優(yōu)點是對源系統(tǒng)的侵入較小

缺點是抽取程序需要不斷掃描源系統(tǒng)的表，對其有一定壓力

觸發(fā)器方式

要求用戶在源數(shù)據(jù)庫中有創(chuàng)建觸發(fā)器和臨時表的權(quán)限，觸發(fā)器捕獲新增的數(shù)據(jù)到臨時表中，執(zhí)行抽取時，程序自動從臨時表中讀取數(shù)據(jù)。

優(yōu)點是實時性極高

缺點是對源系統(tǒng)的侵入性較大，同時會對源數(shù)據(jù)庫造成很大的壓力（行級觸發(fā)器），很可能影響源系統(tǒng)的正常業(yè)務(wù)

程序接口方式

改造源系統(tǒng)，在修改數(shù)據(jù)時通過程序接口同步發(fā)送數(shù)據(jù)至目標庫，發(fā)送數(shù)據(jù)的動作可以跟業(yè)務(wù)修改數(shù)據(jù)動作脫耦，獨立發(fā)送。

優(yōu)點是對源系統(tǒng)的造成壓力較小，實時性較強；

缺點是需要對源系統(tǒng)的侵入性較強，需要源系統(tǒng)做較大的改造。

1.3.2 批量抽取數(shù)據(jù)

為了保證數(shù)據(jù)抽取時數(shù)據(jù)的準確性、完整性和唯一性，同時降低抽取作業(yè)對源數(shù)據(jù)庫造成的壓力，抽取作業(yè)的加載必須避開源數(shù)據(jù)的生成時間。

這種方法一般用于實時性要求不高的數(shù)據(jù)。

比如T+1或者每月1日進行抽取。

1.3.2.1常用實現(xiàn)

日志檢查

需要源數(shù)據(jù)庫生成數(shù)據(jù)完畢之后，在外部生成日志。

抽取程序定時檢查源系統(tǒng)的執(zhí)行日志，發(fā)現(xiàn)完成標志后發(fā)起抽取作業(yè)。

優(yōu)點是可靠性高，對源數(shù)據(jù)庫造成的壓力較小。

缺點是需要源數(shù)據(jù)庫配合生成可供檢查的外部日志。

約定時間抽取

可以直接約定一個加載完畢同時對源數(shù)據(jù)庫壓力較小的時間（如每日凌晨2點），抽取程序建立定時任務(wù)，時間一到自動發(fā)起抽取作業(yè)。

優(yōu)點是對源數(shù)據(jù)庫的侵入性和造成的壓力較小；

缺點是可靠性不高，可能會發(fā)生數(shù)據(jù)未生成完畢也直接進行抽取的情況。

1.3.2.2根據(jù)下載時候?qū)?shù)據(jù)的篩選方式可以分為

全量下載

適用：

源數(shù)據(jù)量較小，如維表。

數(shù)據(jù)變化較大，比如90%的數(shù)據(jù)都產(chǎn)生了變化的表。

變化的數(shù)據(jù)不能預(yù)期，無法標示，如賬戶表。

優(yōu)缺點:

優(yōu)點在于下載較為簡單且能容納任何情況的數(shù)據(jù)變化；

缺點是如果數(shù)據(jù)量較大，需要抽取相當長的時間，同時會占用大量的IO和網(wǎng)絡(luò)資源。

增量下載

常用于數(shù)據(jù)只增不減的表，如交易明細表等。

感知增量的方式如下：

觸發(fā)器

在要抽取的表上建立需要的觸發(fā)器，一般要建立插入、修改、刪除三個觸發(fā)器，每當源表中的數(shù)據(jù)發(fā)生變化，就被相應(yīng)的觸發(fā)器將變化的數(shù)據(jù)寫入一個臨時表，抽取線程從臨時表中抽取數(shù)據(jù)，臨時表中抽取過的數(shù)據(jù)被標記或刪除。

優(yōu)點是數(shù)據(jù)抽取的性能較高，下載的數(shù)據(jù)較小，速度較快，占用資源少。

缺點是要求業(yè)務(wù)表建立觸發(fā)器，對業(yè)務(wù)系統(tǒng)有一定的影響，使用限制較大，有時候需要源系統(tǒng)進行改造支持。

時間戳

它是一種基于快照比較的變化數(shù)據(jù)捕獲方式，在源表上增加一個時間戳字段，系統(tǒng)中更新修改表數(shù)據(jù)的時候，同時修改時間戳字段的值。

當進行數(shù)據(jù)抽取時，通過比較系統(tǒng)時間與時間戳字段的值來決定抽取哪些數(shù)據(jù)。

有的數(shù)據(jù)庫的時間戳支持自動更新，即表的其它字段的數(shù)據(jù)發(fā)生改變時，自動更新時間戳字段的值。

有的數(shù)據(jù)庫不支持時間戳的自動更新，這就要求業(yè)務(wù)系統(tǒng)在更新業(yè)務(wù)數(shù)據(jù)時，手工更新時間戳字段。

優(yōu)缺點

優(yōu)點：同觸發(fā)器方式一樣，時間戳方式的性能也比較好，數(shù)據(jù)抽取相對清楚簡單；

缺點：對業(yè)務(wù)系統(tǒng)也有很大的傾入性（加入額外的時間戳字段），特別是對不支持時間戳的自動更新的數(shù)據(jù)庫，還要求業(yè)務(wù)系統(tǒng)進行額外的更新時間戳操作。
另外，無法捕獲對時間戳以前數(shù)據(jù)的delete和update操作,在數(shù)據(jù)準確性上受到了一定的限制。

全表比對

典型的全表比對的方式是采用MD5校驗碼。

ETL工具事先為要抽取的表建立一個結(jié)構(gòu)類似的MD5臨時表，該臨時表記錄源表主鍵以及根據(jù)所有字段的數(shù)據(jù)計算出來的MD5校驗碼。

每次進行數(shù)據(jù)抽取時，對源表和MD5臨時表進行MD5校驗碼的比對，從而決定源表中的數(shù)據(jù)是新增、修改還是刪除，同時更新MD5校驗碼。

優(yōu)點是對源系統(tǒng)的傾入性較小（僅需要建立一個MD5臨時表）

缺點也是顯而易見的，與觸發(fā)器和時間戳方式中的主動通知不同，MD5方式是被動的進行全表數(shù)據(jù)的比對，性能較差。
當表中沒有主鍵或唯一列且含有重復(fù)記錄時，MD5方式的準確性較差。

日志對比

通過分析數(shù)據(jù)庫自身的日志來判斷變化的數(shù)據(jù)。

ETL處理的數(shù)據(jù)源除了關(guān)系數(shù)據(jù)庫外，還可能是文件，例如txt文件、excel文件、xml文件等。

對文件數(shù)據(jù)的抽取一般是進行全量抽取，一次抽取前可保存文件的時間戳或計算文件的MD5校驗碼，下次抽取時進行比對，如果相同則可忽略本次抽取。

2. 轉(zhuǎn)換作業(yè)

這一步包含了數(shù)據(jù)的清洗和轉(zhuǎn)換。

從數(shù)據(jù)源中抽取的數(shù)據(jù)不一定完全滿足目的庫的要求，例如數(shù)據(jù)格式的不一致、數(shù)據(jù)輸入錯誤、數(shù)據(jù)不完整等等，因此有必要對抽取出的數(shù)據(jù)進行數(shù)據(jù)轉(zhuǎn)換和加工。

數(shù)據(jù)的轉(zhuǎn)換和加工可以在ETL引擎中進行，也可以在數(shù)據(jù)抽取過程中利用關(guān)系數(shù)據(jù)庫的特性同時進行。

2.1 數(shù)據(jù)清洗

任務(wù)是過濾不符合條件或者錯誤的數(shù)據(jù)。

這一步常常出現(xiàn)在剛剛開始建立數(shù)據(jù)倉庫或者源業(yè)務(wù)系統(tǒng)仍未成熟的時候，此時發(fā)現(xiàn)錯誤數(shù)據(jù)需要聯(lián)系源業(yè)務(wù)系統(tǒng)進行更正，部分可預(yù)期的空值或者測試用數(shù)據(jù)可以過濾掉。

2.2 數(shù)據(jù)轉(zhuǎn)換和加工

這一步是整個ETL流程中最為占用時間和資源的一步。

數(shù)據(jù)轉(zhuǎn)換包含了簡單的數(shù)據(jù)不一致轉(zhuǎn)換，數(shù)據(jù)粒度轉(zhuǎn)換和耗時的數(shù)據(jù)關(guān)聯(lián)整合或拆分動作。

這里可能存在各種各樣千奇百怪的需求。

對于核心數(shù)據(jù)倉庫來說，里面往往是對數(shù)據(jù)進行按照主題劃分合并的動作。

同時，也會添加一些為了提升執(zhí)行效率而進行反范式化添加的冗余字段。

數(shù)據(jù)的轉(zhuǎn)換和加工可以在ETL引擎中進行，也可以在數(shù)據(jù)抽取過程中利用關(guān)系數(shù)據(jù)庫的特性同時進行。

根據(jù)實現(xiàn)方式的不同，可以區(qū)分為使用數(shù)據(jù)庫存儲過程轉(zhuǎn)換和使用高級語言轉(zhuǎn)換

2.2.1 ETL引擎中的數(shù)據(jù)轉(zhuǎn)換和加工

ETL引擎中一般以組件化的方式實現(xiàn)數(shù)據(jù)轉(zhuǎn)換。

常用的數(shù)據(jù)轉(zhuǎn)換組件有字段映射、數(shù)據(jù)過濾、數(shù)據(jù)清洗、數(shù)據(jù)替換、數(shù)據(jù)計算、數(shù)據(jù)驗證、數(shù)據(jù)加解密、數(shù)據(jù)合并、數(shù)據(jù)拆分等。

這些組件如同一條流水線上的一道道工序，它們是可插拔的，且可以任意組裝，各組件之間通過數(shù)據(jù)總線共享數(shù)據(jù)。

有些ETL工具還提供了腳本支持，使得用戶可以以一種編程的方式定制數(shù)據(jù)的轉(zhuǎn)換和加工行為。

2.2.2 在數(shù)據(jù)庫中進行數(shù)據(jù)加工

關(guān)系數(shù)據(jù)庫本身已經(jīng)提供了強大的SQL、函數(shù)來支持數(shù)據(jù)的加工，如在SQL查詢語句中添加where條件進行過濾，查詢中重命名字段名與目的表進行映射，substr函數(shù)，case條件判斷等等。

下面是一個SQL查詢的例子。

select ID as USERID, substr(TITLE, 1, 20) as TITLE, case when REMARK is null then ' ' else REMARK end as CONTENT from TB_REMARK where ID > 100;

相比在ETL引擎中進行數(shù)據(jù)轉(zhuǎn)換和加工，直接在SQL語句中進行轉(zhuǎn)換和加工更加簡單清晰，性能更高。

對于SQL語句無法處理的可以交由ETL引擎處理。

2.2.3 使用數(shù)據(jù)庫存儲過程轉(zhuǎn)換

使用SQL開發(fā)存儲過程完成轉(zhuǎn)換作業(yè)是很多銀行常用的方法。

優(yōu)點是開發(fā)簡單、能支持絕大部分轉(zhuǎn)換場景；

缺點在于占用資源多且受制于單一數(shù)據(jù)庫性能，無法做到橫向擴展。

因此，除了業(yè)務(wù)的理解能力外，對SQL海量數(shù)據(jù)處理的優(yōu)化能力在此也非常重要。

比如:

利用數(shù)據(jù)庫的分區(qū)性，選擇良好的分區(qū)鍵。

建表時合理選擇主鍵和索引，關(guān)聯(lián)時候必須使用主鍵或索引進行關(guān)聯(lián)。

關(guān)注數(shù)據(jù)庫對SQL的流程優(yōu)化邏輯，盡量選擇拆分復(fù)雜SQL，引導(dǎo)數(shù)據(jù)庫根據(jù)你選擇流程進行數(shù)據(jù)處理

合理反范式化設(shè)計表，留出適當?shù)娜哂嘧侄?，減少關(guān)聯(lián)動作。

具體的優(yōu)化根據(jù)不同的數(shù)據(jù)庫有著不同的處理方式，根據(jù)所選用的數(shù)據(jù)庫不同而定。

2.2.4 使用高級語言轉(zhuǎn)換

使用高級語言包含了常用的開發(fā)C/C++/JAVA等程序?qū)Τ槿〉臄?shù)據(jù)進行預(yù)處理。

優(yōu)點是運行效率較高，可以通過橫向擴展服務(wù)器數(shù)量來提高系統(tǒng)的轉(zhuǎn)換作業(yè)處理能力；

缺點是開發(fā)較為復(fù)雜，同時雖然能進行較為復(fù)雜的邏輯的開發(fā)，但是對于大數(shù)據(jù)量的關(guān)聯(lián)的支持能力較弱，特別是有復(fù)數(shù)的服務(wù)器并行處理的時候。

3. 加載作業(yè)

將轉(zhuǎn)換和加工后的數(shù)據(jù)裝載到目的庫中通常是ETL過程的最后步驟。

轉(zhuǎn)換作業(yè)生成的數(shù)據(jù)有可能直接插入目標數(shù)據(jù)庫，一般來說，這種情況常見于使用數(shù)據(jù)庫存儲過程進行轉(zhuǎn)換作業(yè)的方案。

此時，ETL作業(yè)位于目標數(shù)據(jù)庫上，加載作業(yè)只需要使用INSERT或者LOAD的方式導(dǎo)入目標表即可。

此時轉(zhuǎn)換作業(yè)和加載作業(yè)往往是在同一加工中完成的。

當使用高級語言開發(fā)時，ETL作業(yè)有著專門的ETL服務(wù)器，此時，轉(zhuǎn)換作業(yè)生成的往往是文本文件，在轉(zhuǎn)換作業(yè)完成后需要使用目標庫特有的工具導(dǎo)入或者通過INSERT入目標庫。

同時，根據(jù)抽取作業(yè)的數(shù)據(jù)抽取方式的不同（全量、增量），對目標表進行替換或者插入動作。

裝載數(shù)據(jù)的最佳方法取決于所執(zhí)行操作的類型以及需要裝入多少數(shù)據(jù)。當目的庫是關(guān)系數(shù)據(jù)庫時，一般來說有兩種裝載方式：

直接SQL語句進行insert、update、delete操作。

采用批量裝載方法，如bcp、bulk、關(guān)系數(shù)據(jù)庫特有的批量裝載工具或api。

大多數(shù)情況下會使用第一種方法，因為它們進行了日志記錄并且是可恢復(fù)的。

但是，批量裝載操作易于使用，并且在裝入大量數(shù)據(jù)時效率較高。使用哪種數(shù)據(jù)裝載方法取決于業(yè)務(wù)系統(tǒng)的需要。

4. 流程控制

抽取加載和轉(zhuǎn)換作業(yè)需要一個集中的調(diào)度平臺控制他們的運行，決定執(zhí)行順序，進行錯誤捕捉和處理。

較為原始的ETL系統(tǒng)就是使用CRON做定時控制，定時調(diào)起相應(yīng)的程序或者存儲過程。

但是這種方式過于原始，只能進行簡單的調(diào)起動作，無法實現(xiàn)流程依賴行為，同時按步執(zhí)行的流程控制能力也弱，錯誤處理能力幾乎沒有。

只適合于極其簡單的情況。

對于自行開發(fā)的較為完善的ETL系統(tǒng)，往往需要具有以下幾個能力：

流程步驟控制能力

調(diào)度平臺必須能夠控制整個ETL流程（抽取加載和轉(zhuǎn)換作業(yè)），進行集中化管理，不能有流程游離于系統(tǒng)外部。

系統(tǒng)的劃分和前后流程的依賴

由于整個ETL系統(tǒng)里面可能跨越數(shù)十個業(yè)務(wù)系統(tǒng)，開發(fā)人員有數(shù)十撥人，必須支持按照業(yè)務(wù)系統(tǒng)對ETL流程進行劃分管理的能力。

同時必須具有根據(jù)流程依賴進行調(diào)度的能力，使得適當?shù)牧鞒棠茉谶m當?shù)臅r間調(diào)起。

合理的調(diào)度算法

同一時間調(diào)起過多流程可能造成對源數(shù)據(jù)庫和ETL服務(wù)器還有目標數(shù)據(jù)庫形成較大負載壓力，故必須有較為合理的調(diào)度算法。

日志和警告系統(tǒng)

必須對每一步的流程記錄日志，起始時間，完成時間，錯誤原因等，方便ETL流程開發(fā)人員檢查錯誤。

對于發(fā)生錯誤的流程，能及時通知錯誤人員進行錯誤檢查和修復(fù)。

較高可靠性

5. 常用商業(yè)ETL工具

常用的ETL工具有Ascential公司的Datastage、Informatica公司的Powercenter、 NCR Teradata公司的ETL Automation等。

Datastage
是使用高級語言進行開發(fā)ETL服務(wù)器的代表。使用JAVA進行開發(fā)E/T/L的整個流程，同時支持平行添加服務(wù)器提升處理效率的方法。

Powercenter
與Datastage類似，但元數(shù)據(jù)更加開放，存放在關(guān)系數(shù)據(jù)庫中，可以很容易被訪問。再有Powercenter不能像Datastage運行多個實例，且不支持定制開發(fā)，參數(shù)控制更亂。

Automation
基于Teradata的TD數(shù)據(jù)庫的ETL調(diào)度框架。其ETL流程是使用DSQL的存儲過程進行開發(fā)，利用TD數(shù)據(jù)庫的海量數(shù)據(jù)處理能力，也具有一定的平行擴展能力。

名詞解釋：
DW(Data Warehouse) : 數(shù)據(jù)倉庫https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93
ODS（Operational Data Store）：https://zh.wikipedia.org/wiki/ODS
CRM（customer relationship management）：客戶關(guān)系管理https://zh.wikipedia.org/wiki/%E5%AE%A2%E6%88%B7%E5%85%B3%E7%B3%BB%E7%AE%A1%E7%90%86
BI(Business Intelligence):商業(yè)智能
https://baike.baidu.com/item/BI/4579902

參見：
ETL流程概述及常用實現(xiàn)方法：https://blog.csdn.net/btkuangxp/article/details/48224187
ETL介紹與ETL工具比較：
https://blog.csdn.net/wl044090432/article/details/60329843

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

ETL 工作流程

ETL 工作流程

ETL關(guān)鍵技術(shù)

1. 抽取作業(yè)

1.1 從數(shù)據(jù)庫中抽取數(shù)據(jù)的方式：

1.1.1 全量抽取

1.1.2 增量抽取

1.2 手工開發(fā)抽取作業(yè)時候的常用方法：

1.2.1 當數(shù)據(jù)源和DW為同一類數(shù)據(jù)庫時

1.2.2 當數(shù)據(jù)源和ODS為不同類型數(shù)據(jù)庫時

1.3 更新數(shù)據(jù)的時間和數(shù)量的問題

1.3.1 實時抽取數(shù)據(jù)

1.3.2 批量抽取數(shù)據(jù)

1.3.2.1常用實現(xiàn)

1.3.2.2根據(jù)下載時候?qū)?shù)據(jù)的篩選方式可以分為

2. 轉(zhuǎn)換作業(yè)

2.1 數(shù)據(jù)清洗

2.2 數(shù)據(jù)轉(zhuǎn)換和加工

2.2.1 ETL引擎中的數(shù)據(jù)轉(zhuǎn)換和加工

2.2.2 在數(shù)據(jù)庫中進行數(shù)據(jù)加工

2.2.3 使用數(shù)據(jù)庫存儲過程轉(zhuǎn)換

2.2.4 使用高級語言轉(zhuǎn)換

3. 加載作業(yè)

4. 流程控制

5. 常用商業(yè)ETL工具

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

ETL 工作流程

ETL關(guān)鍵技術(shù)

1. 抽取作業(yè)

1.1 從數(shù)據(jù)庫中抽取數(shù)據(jù)的方式：

1.1.1 全量抽取

1.1.2 增量抽取

1.2 手工開發(fā)抽取作業(yè)時候的常用方法：

1.2.1 當數(shù)據(jù)源和DW為同一類數(shù)據(jù)庫時

1.2.2 當數(shù)據(jù)源和ODS為不同類型數(shù)據(jù)庫時

1.3 更新數(shù)據(jù)的時間和數(shù)量的問題

1.3.1 實時抽取數(shù)據(jù)

1.3.2 批量抽取數(shù)據(jù)

1.3.2.1常用實現(xiàn)

1.3.2.2根據(jù)下載時候?qū)?shù)據(jù)的篩選方式可以分為

2. 轉(zhuǎn)換作業(yè)

2.1 數(shù)據(jù)清洗

2.2 數(shù)據(jù)轉(zhuǎn)換和加工

2.2.1 ETL引擎中的數(shù)據(jù)轉(zhuǎn)換和加工

2.2.2 在數(shù)據(jù)庫中進行數(shù)據(jù)加工

2.2.3 使用數(shù)據(jù)庫存儲過程轉(zhuǎn)換

2.2.4 使用高級語言轉(zhuǎn)換

3. 加載作業(yè)

4. 流程控制

5. 常用商業(yè)ETL工具

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av