經(jīng)過一段時間的代碼閱讀,我對歷史項目的流程和數(shù)據(jù)庫結(jié)構(gòu)已經(jīng)有了初步的認(rèn)知了,確實有了一些可以落地的數(shù)據(jù)倉庫的做法。
首先還是要把原始表全部倒入進(jìn)來,然后在數(shù)據(jù)倉庫上做數(shù)據(jù)粗加工。
首先是導(dǎo)出原始表,這里有2個問題,一個是導(dǎo)出多少字段,不少表的字段我也不清楚,但是為了以后的分析,還是導(dǎo)出所有字段,第二個問題是增量還是全量,首先增量,但是要確保每個記錄嗯更新時間是有的,這個還需要進(jìn)一步完善。
然后是歷史數(shù)據(jù)的處理,要多多少?我這里只做到把標(biāo)志位從字符解析出來單獨保存就行。
由于歷史數(shù)據(jù)的處理上,很多標(biāo)志位沒有采用數(shù)據(jù)庫字段的方式,這就導(dǎo)致了無法做到標(biāo)準(zhǔn)的查詢一下,所以需要在建立新的標(biāo)志位,將文本中標(biāo)志位的內(nèi)容存放在一段中,例如在合同的開頭字母是表示合同類型的,就需要在etl過程中把合同類型單獨存放,還好之前做了一些數(shù)據(jù)清洗,這部分問題不大。