我的數(shù)據(jù)經(jīng)歷(一)

謝老板的大學是一所末流二本,專業(yè)是網(wǎng)絡工程,2016年初加入校企合作的大數(shù)據(jù)實驗班,16年暑假開始進入企業(yè)實習。

實習的公司是一家外包公司,在保險公司駐場,職位是ETL工程師(實習)。整整兩年,了解了數(shù)據(jù)的E(抽取)T(轉(zhuǎn)換)L(加載)的整個過程。算是對ETL工程師有所了解。

前期是一個12人團隊,中期20人團隊,后期10人團隊。主要工作簡單來說就是匯集保險公司的各個業(yè)務線系統(tǒng)源數(shù)據(jù),最終加工處理成公司級數(shù)倉,并搭建公司級業(yè)務報表供各部門使用。

環(huán)境:服務器:linux;數(shù)據(jù)庫:Oracle;ETL工具:kettle;調(diào)度工具:shell;報表平臺:BIEE;自定義報表開發(fā):java

團隊分三個小組:ETL組,報表組,Java組,我在ETL組,前半年駐場天津,12人租了一套三居室老破小,租了上下鋪,自己組裝,4+4+4居住。步行上下班,白天上班,晚上輪流做飯,吃完飯培訓,那段日子還挺充實。


我們數(shù)據(jù)倉庫分為四層:

1、數(shù)據(jù)運營層:Operation Data Store 數(shù)據(jù)準備區(qū),也稱為貼源層。

ODS是后面數(shù)據(jù)倉庫層的準備區(qū),為DWD層提供原始數(shù)據(jù),減少對業(yè)務系統(tǒng)的影響。

為了考慮后續(xù)可能需要追溯數(shù)據(jù)問題,因此對于這一層沒做過多的數(shù)據(jù)清洗工作,前期完完全全是一張表一張表原封不動的使用kettle抽取(后期鳥槍換炮使用了OGG)

2、數(shù)據(jù)倉庫層

數(shù)據(jù)倉庫層從上到下,又可以分為3個層:數(shù)據(jù)細節(jié)層DWD、數(shù)據(jù)中間層DWM、數(shù)據(jù)服務層DWS。

2.1 數(shù)據(jù)細節(jié)層DWD

數(shù)據(jù)細節(jié)層:data warehouse details,DWD

該層是業(yè)務層和數(shù)據(jù)倉庫的隔離層,保持和ODS層一樣的數(shù)據(jù)顆粒度;主要是對ODS數(shù)據(jù)層做一些數(shù)據(jù)的清洗和規(guī)范化的操作,比如去除空數(shù)據(jù)、臟數(shù)據(jù)、離群值等。

為了提高數(shù)據(jù)明細層的易用性,該層通常會才采用一些維度退化方法,將維度退化至事實表中,減少事實表和維表的關(guān)聯(lián)。

2.2 數(shù)據(jù)中間層DWM

數(shù)據(jù)中間層:Data Warehouse Middle,DWM;

該層是在DWD層的數(shù)據(jù)基礎(chǔ)上,對數(shù)據(jù)做一些輕微的聚合操作,生成一些列的中間結(jié)果表,提升公共指標的復用性,減少重復加工的工作。

簡單來說,對通用的核心維度進行聚合操作,算出相應的統(tǒng)計指標。這一塊主要是整個項目工時最長的也是最重要的內(nèi)容,主要使用存儲過程處理。

2.3 數(shù)據(jù)服務層DWS

數(shù)據(jù)服務層:Data Warehouse Service,DWS;

該層是基于DWM上的基礎(chǔ)數(shù)據(jù),整合匯總成分析某一個主題域的數(shù)據(jù)服務層,一般是寬表,用于提供后續(xù)的業(yè)務查詢,OLAP分析,數(shù)據(jù)分發(fā)等。

一般來說,該層的數(shù)據(jù)表會相對較少;一張表會涵蓋比較多的業(yè)務內(nèi)容,由于其字段較多,因此一般也會稱該層的表為寬表。這一塊我們按照保險公司業(yè)務劃分版塊:投保,承保,保全,理賠等,處理主題寬表。

3、數(shù)據(jù)應用層ADS

數(shù)據(jù)應用層:Application Data Service,ADS;

該層主要是提供給報表組使用,方便直接出BI報表。當時本著報表組僅使用數(shù)據(jù)應用層的原則,數(shù)據(jù)應用層也存放了一些維度表,供報表組關(guān)聯(lián)使用。

以上數(shù)據(jù)層級處理的,均有參與,通過這個的集中SQL語句處理,每隔一段時間看以前的代碼總覺得以前的代碼幼稚,這種情況一直持續(xù)到18年初。


剛開始去天津?qū)嵙晻r有6個是一起來的同學,半年后去了北京,后來17年畢業(yè)后就開始陸續(xù)有同學離開北京,18年春節(jié)后只剩我一人了。

這個項目一期結(jié)束后,當年獲得年度最佳團隊稱號(大概是利潤最高),項目經(jīng)理升了部門經(jīng)理,ETL組長升了項目經(jīng)理,我成了代理ETL組長。我的同學們大多是回到了離家鄉(xiāng)比較近的城市,有回老家省會繼續(xù)做數(shù)據(jù)的,有回老家考銀行的,有回老家做老師的。當時的我還在北京,項目也比較穩(wěn)定,干完一期來二期,二期干完繼續(xù)搞三期。新需求越來越少,感覺沒了當初那份充實又進步的感覺,技術(shù)達到了瓶頸,現(xiàn)有的項目技術(shù)就到這了難以突破,又不想一直耗著。

半年后,裸辭,從北京來到了上海。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容