管理ETL的處理過程需要哪些子系統(tǒng)(從那幾個角度入手)

ETL最終需要保證整個處理過程的可靠性、可用性、可管理性。
可靠性:ETL的處理過程必須始終運行。他們必須運行以提供及時的數(shù)據(jù),這些數(shù)據(jù)的的所有細節(jié)都是值得信任的。
可用性:數(shù)據(jù)倉庫必須滿足其承諾的服務級別
可管理型:成功的數(shù)據(jù)倉庫是永遠無法實現(xiàn)的。將隨著業(yè)務的發(fā)展而不斷發(fā)展變化。ETL過程需要不斷改進。

image.png

子系統(tǒng)二十二:任務調(diào)度器

所有企業(yè)數(shù)據(jù)倉庫應該具有一個健壯的調(diào)度器。整個ETL過程在可能范圍內(nèi)應該是可管理的。
調(diào)度器不僅僅需要按照計劃分派任務。調(diào)度器還需要識別和控制ETL任務之間的關系和依賴。如果組織工作處理為事實處理,則需要調(diào)度器支持您所選擇的實時結構。
我們的任務控制服務需要包含哪些東西:
任務定義:編寫ETL過程的執(zhí)行流程
任務調(diào)度:基于時間或者事件進行調(diào)度。如果是基于某些事件,則需要監(jiān)視任務狀態(tài)標識,現(xiàn)存文件,創(chuàng)建日期等
元數(shù)據(jù)獲?。?/strong>任務調(diào)度器需要獲取有關加載步驟進展情況的信息
日志記錄:日志記錄意味著收集有關整個ETL過程的信息,不只包含某一個時刻發(fā)生了什么。最好能將日志記錄到數(shù)據(jù)庫中,方便我們建立圖表,方便后續(xù)的分析。
通知:ETL過程開發(fā)并部署之后,就可以不需要人參與執(zhí)行。其運行不需要人的干預也不會出現(xiàn)錯誤

子系統(tǒng)二十三:備份系統(tǒng)

除了磁盤驅動器錯誤,電源供應中斷,倉庫還需要存儲比操作系統(tǒng)更多的長期數(shù)據(jù)。盡管通常不是由ETL小組來管理,單備份和恢復過程通常是ETL系統(tǒng)設計的一部分工作。其目標是允許數(shù)據(jù)倉庫在發(fā)生錯誤的時候能夠繼續(xù)工作。這一個工作包括備份需要的中間數(shù)據(jù)以便能夠重啟發(fā)生錯誤的ETL任務。存檔與檢索處理被設計用來確保用戶能夠訪問已經(jīng)從數(shù)據(jù)倉庫移出到開銷較低的,性能較差的介質中的歷史數(shù)據(jù)。
完整的備份系統(tǒng)應該提供如下能力:
????高性能
????可以進行簡單的管理
????自動化的,遠程代理操作
數(shù)據(jù)倉庫的備份通常是物理備份。這是數(shù)據(jù)庫系統(tǒng)在某一時間點的完整印像,包括索引和物理規(guī)劃信息。
歸檔與檢索:
????確定將什么信息移除數(shù)據(jù)倉庫是一個涉及成本效益的問題。因為保存數(shù)據(jù)需要成本,它會占用磁盤空間并使加載和查詢時間變慢。

????數(shù)據(jù)需要保留多久與行業(yè)、業(yè)務以及考慮中的特定數(shù)據(jù)有關。某些情況下以往的數(shù)據(jù)顯然幾乎沒有什么價值。
????自動化的,遠程代理操作

子系統(tǒng)二十四:恢復與重啟系統(tǒng)

ETL處理發(fā)生錯誤的常見原因包括:
????網(wǎng)絡錯誤
????數(shù)據(jù)庫錯誤
????磁盤錯誤
????內(nèi)存錯誤
????數(shù)據(jù)質量錯誤
????突然發(fā)生的系統(tǒng)升級
為了讓整個ETL處理不受這些錯誤的影響,需要一個固定的備份系統(tǒng)以及與之相伴的恢復和重啟系統(tǒng)。首先尋找合適的工具并涉及將災難的影響最小化的處理方法。當然恢復和重啟系統(tǒng)要么繼續(xù)進行停止了的工作,要么回滾所有的工作并重新開始。在錯誤發(fā)生的時候,首先要考慮的是嘗試保留已經(jīng)處理過的任務,并且從錯誤點重新開始。我們還要仔細考慮何時物理的將數(shù)據(jù)寫到磁盤上,仔細設計恢復和加載日期/時間戳,順序化事實表代理鍵,從而確保定義合適的重啟邏輯。

子系統(tǒng)二十五:版本控制系統(tǒng)

1,是一種針對ETL流水線中所有邏輯和元數(shù)據(jù)進行歸檔和恢復時候具有“快速拍照”能力的系統(tǒng)。
2,它控制所有ETL模塊和任務的簽出和簽入
3,在某些高度一致的環(huán)境中,歸檔完整的ETL系統(tǒng)環(huán)境以及相關歸檔和備份數(shù)據(jù)是同樣重要的。需要為整個ETL系統(tǒng)分配住版本號,就想軟件發(fā)布版本號一樣。

子系統(tǒng)二十六:版本遷移系統(tǒng)

場景:當完成ETL的設計和開發(fā)ETL的過程,并建立了加載數(shù)據(jù)到數(shù)據(jù)倉庫的任務后,按照組織所采納的生命周期,任務必須被綁定并遷移到下一個環(huán)境-----從開發(fā)到測試再到最終投入運營
細節(jié):
????所有的后端操作應該進行嚴格的測試并且腳本化,無論是部署新的模式,增加列,改變索引,改變聚集設計,修改數(shù)據(jù)庫參數(shù),備份還是恢復。
????對前端的操作實行集中式管理,在BI工具許可的情況下,部署新的BI工具,部署新的公司報表,改變安全計劃都應當執(zhí)行嚴格的測試和腳本話。

子系統(tǒng)二十七:工作流監(jiān)視器(監(jiān)控系統(tǒng))

成功的數(shù)據(jù)倉庫具有一致性和可靠的應用性,并且得到商業(yè)團體的認可。為實現(xiàn)這一個目標,ETL系統(tǒng)必須持續(xù)監(jiān)視,保證ETL過程操作的有效性,保證數(shù)據(jù)倉庫能夠連續(xù)及時的進行加載。
工作流監(jiān)視器是整個ETL流水線性能問題的分析基礎。
常見的性能瓶頸問題:
1,針對源系統(tǒng)或者中間表低效索引查詢
2,SQL語法導致優(yōu)化器作出錯誤選擇
3,隨機訪問內(nèi)存不足,導致的內(nèi)存顛簸
4,在RDBMS中進行的排序操作
5,緩慢的轉換步驟
6,過多的I/O操作
7,不必要的讀寫
8,重新開始刪除并重建聚集而不是增量式的執(zhí)行這一操作
9,在流水線中過濾(改變數(shù)據(jù)獲?。┎僮鲬锰t
10,未利用并行化和流水線方式
11,不必要的事務日志,特別是在更新時候存在的事務日志
12,網(wǎng)絡通行以及文件傳輸?shù)拈_銷

子系統(tǒng)二十八:排序系統(tǒng)

由于排序是非常基礎的ETL能力,所以單獨拿出做為一個不同的子系統(tǒng),以確保其作為一個ETL結構的組件而受到適當?shù)年P注
一些列的技術都可以提供排序能力,ETL工具能提供排序能力,DBMS通過SQL Sort 子句提供排序能力等等,我們也可以使用專用的排序軟件包。關鍵是找到選擇最有效的排序資源和工具支持實際的需求。

子系統(tǒng)二十九:世系以及依賴分析器(數(shù)據(jù)族譜管理器)

世系:以中間表或者BI報表特定的數(shù)據(jù)元素開始,識別數(shù)據(jù)元素的來源,包含該元素以及其來源的其他上游的中間表,以及該元素及其來源的所有轉換。
依賴:從包含在源表或者中間表的特定數(shù)據(jù)元素開始,識別所有包含該元素或者根據(jù)其推導產(chǎn)生的下游中間表和最終的BI報表,還包含所有應用到該數(shù)據(jù)元素的轉換和其派生元素

子系統(tǒng)三十:問題提升系統(tǒng)(反饋系統(tǒng))

一般來說ETL系統(tǒng)的支持結構應該遵循一個標準的支持流程:
首先,幫助臺。用戶通知錯誤的第一個接觸點。幫助臺負責確定有用的解決方案
其次,通知。這個層次通常是在線系統(tǒng)控制技術人員中的系統(tǒng)管理員或者DBA,能夠對一般的基礎設施方面的錯誤提供支持。
最后,ETL的管理人員是第三層支持,可以對ETL生產(chǎn)過程中出現(xiàn)的大多數(shù)問題提供解決方案。

子系統(tǒng)三十一:并行/流水線系統(tǒng)(資源管理系統(tǒng))

在大型組織中,包含大量的數(shù)據(jù),大型的維度和大量的事實,在這些限制條件下加載數(shù)據(jù)是極富挑戰(zhàn)性的工作,并行流水線系統(tǒng)提供了在面對這些限制時保證ETL系統(tǒng)得以發(fā)布的能力。
該系統(tǒng)的目標是利用多個處理或者可用的網(wǎng)絡計算資源,并行化是一種ETL流水線的每個階段都可以采用的強大的改善性能的技術。

子系統(tǒng)三十二:安全系統(tǒng)

嚴重違反安全的情況可能來自組織內(nèi)部而不是來自黑客。建議對ETL系統(tǒng)中所有數(shù)據(jù)和元數(shù)據(jù)采取基于角色的安全管理。為了支持合規(guī)性的要求,需要證明ETL模塊的版本未被改變或者展示誰對模塊進行了修改。
另外一個需要考慮的安全問題是:管理員如何訪問生產(chǎn)數(shù)據(jù)倉庫服務器或者軟件。大多數(shù)情況下是 小組中無人具有安全權限,某些情況下存在每個人都具有訪問一切的權限。另一方面,如果出現(xiàn)嚴重錯誤,DW/BI小組的人員要能夠重置數(shù)據(jù)倉庫服務器。最后,備份介質應當受到保護,備份介質應當受到于在線系統(tǒng)一樣的安全保護

子系統(tǒng)三十三:合規(guī)性管理系統(tǒng)

合規(guī)性需求意味著無論何種理由,都不能改變?nèi)魏螖?shù)據(jù)。數(shù)據(jù)倉庫必須自己保護合規(guī)性銘感的數(shù)據(jù)從其到來后具有可信度。
合規(guī)性系統(tǒng)的基礎是幾個已經(jīng)被描述過的采用一些關鍵技術和能力的子系統(tǒng)之間的交互:
1,世系分析。表示最終數(shù)據(jù)塊的出處,證明原始源數(shù)據(jù)增加了包括存儲過程和手動改變的轉換。
2,依賴分析。展示原始數(shù)據(jù)源的數(shù)據(jù)在何處被使用過。
3,版本控制。通過當時有效的ETL系統(tǒng)重新運行源數(shù)據(jù),需要任何給定的數(shù)據(jù)源的ETL系統(tǒng)的準確版本
4,備份于恢復
5,安全
6,審計維度。將運行時的元數(shù)據(jù)環(huán)境直接與加載時獲取的質量事件的數(shù)據(jù)聯(lián)系起來。

子系統(tǒng)三十四:元數(shù)據(jù)管理系統(tǒng)

ETL負責使用并建立DW/BI環(huán)境中的大多數(shù)元數(shù)據(jù)。整個元數(shù)據(jù)策略的部分工作涉及專門獲取ETL元數(shù)據(jù),包括元數(shù)據(jù),技術元數(shù)據(jù),和業(yè)務元數(shù)據(jù)。需要在什么都做和都不做之間設計出一種平衡策略。確保在ETL開發(fā)任務中有時間來獲取和管理元數(shù)據(jù)。


image.png

數(shù)據(jù)僧 歷史文章

數(shù)據(jù)倉庫-概述-讀書筆記一
數(shù)據(jù)倉庫-DW/BI架構對比-讀書筆記二
數(shù)據(jù)倉庫-事實表/維度表技術-讀書筆記三
維度處理-數(shù)據(jù)倉庫-讀書筆記(四)
數(shù)據(jù)倉庫-高級事實表技術-讀書筆記五
數(shù)據(jù)倉庫-高級維度表技術-讀書筆記六
數(shù)據(jù)倉庫,零售業(yè)務舉例,維度模型設計4步驟,讀書筆記(七)
數(shù)據(jù)倉庫-零售業(yè)務舉例維度表設計細節(jié)-讀書筆記(八)
數(shù)據(jù)倉庫-零售業(yè)務舉例如何提高倉庫擴展能力-讀書筆記(九)
數(shù)據(jù)倉庫-零售業(yè)務中庫存如何設計-讀書筆記(十)
如何使用緩慢變化維技術
數(shù)據(jù)倉庫-訂單管理應該注意那些
ETL中前期數(shù)據(jù)分析、變化數(shù)據(jù)探測,數(shù)據(jù)獲取 注意事項
數(shù)據(jù)倉庫基礎概念分享
ETL過程的數(shù)據(jù)清洗和整合
數(shù)據(jù)的準備展現(xiàn)過程中如何處理維度
數(shù)據(jù)倉庫中數(shù)據(jù)如何準備,處理,發(fā)布,展現(xiàn)


數(shù)據(jù)僧 參考資料

數(shù)據(jù)倉庫工具箱

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • 【福利】探求ETL本質http://mp.weixin.qq.com/s?__biz=MjM5MTYwMjI3Mw...
    葡萄喃喃囈語閱讀 1,670評論 0 20
  • ETL是英文Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)...
    大佛愛讀書閱讀 31,990評論 2 32
  • ORA-00001: 違反唯一約束條件 (.) 錯誤說明:當在唯一索引所對應的列上鍵入重復值時,會觸發(fā)此異常。 O...
    我想起個好名字閱讀 5,957評論 0 9
  • 專業(yè)考題類型管理運行工作負責人一般作業(yè)考題內(nèi)容選項A選項B選項C選項D選項E選項F正確答案 變電單選GYSZ本規(guī)程...
    小白兔去釣魚閱讀 10,518評論 0 13
  • ETL測試 ETL測試過程與其他測試過程類似,包括一些階段。 確定業(yè)務需求 測試計劃 設計測試用例和測試數(shù)據(jù) 測試...
    python測試開發(fā)閱讀 4,176評論 0 6

友情鏈接更多精彩內(nèi)容