數(shù)據(jù)倉庫的數(shù)據(jù)處理

經(jīng)過一段時間的代碼閱讀,我對歷史項目的流程和數(shù)據(jù)庫結(jié)構(gòu)已經(jīng)有了初步的認(rèn)知了,確實有了一些可以落地的數(shù)據(jù)倉庫的做法。


首先還是要把原始表全部倒入進(jìn)來,然后在數(shù)據(jù)倉庫上做數(shù)據(jù)粗加工。

首先是導(dǎo)出原始表,這里有2個問題,一個是導(dǎo)出多少字段,不少表的字段我也不清楚,但是為了以后的分析,還是導(dǎo)出所有字段,第二個問題是增量還是全量,首先增量,但是要確保每個記錄嗯更新時間是有的,這個還需要進(jìn)一步完善。


然后是歷史數(shù)據(jù)的處理,要多多少?我這里只做到把標(biāo)志位從字符解析出來單獨保存就行。

由于歷史數(shù)據(jù)的處理上,很多標(biāo)志位沒有采用數(shù)據(jù)庫字段的方式,這就導(dǎo)致了無法做到標(biāo)準(zhǔn)的查詢一下,所以需要在建立新的標(biāo)志位,將文本中標(biāo)志位的內(nèi)容存放在一段中,例如在合同的開頭字母是表示合同類型的,就需要在etl過程中把合同類型單獨存放,還好之前做了一些數(shù)據(jù)清洗,這部分問題不大。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容