上一篇 給初心者的數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)系統(tǒng)開(kāi)發(fā)指南 主要是描述了元數(shù)據(jù)的基本概念和典型需求。實(shí)際的開(kāi)發(fā)和使用中,還有個(gè)基本問(wèn)題容易被混淆,關(guān)于元數(shù)據(jù)的產(chǎn)品形態(tài)。 元數(shù)據(jù)門(mén)戶(hù) 這是最...
上一篇 給初心者的數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)系統(tǒng)開(kāi)發(fā)指南 主要是描述了元數(shù)據(jù)的基本概念和典型需求。實(shí)際的開(kāi)發(fā)和使用中,還有個(gè)基本問(wèn)題容易被混淆,關(guān)于元數(shù)據(jù)的產(chǎn)品形態(tài)。 元數(shù)據(jù)門(mén)戶(hù) 這是最...
加過(guò)一些數(shù)據(jù)開(kāi)發(fā)的社群,經(jīng)常會(huì)有人問(wèn)元數(shù)據(jù)系統(tǒng)怎么開(kāi)發(fā),大概網(wǎng)上很難搜到相關(guān)的好文章。 什么是元數(shù)據(jù) 首先,元數(shù)據(jù)的概念,通常解釋為數(shù)據(jù)的數(shù)據(jù),這個(gè)太難看懂了,需要換個(gè)角度解...
今天團(tuán)隊(duì)在討論過(guò)去一段時(shí)間的問(wèn)題,有提到這么一個(gè)觀點(diǎn):作為數(shù)據(jù)倉(cāng)庫(kù)工程師,被動(dòng)接了很多需求,數(shù)據(jù)的業(yè)務(wù)價(jià)值不明顯。 互聯(lián)網(wǎng)公司的業(yè)務(wù)變化快,經(jīng)常會(huì)有產(chǎn)品上線(xiàn)或舊業(yè)務(wù)變更,這是...
如果是orc格式,用presto執(zhí)行這些簡(jiǎn)單查詢(xún),其實(shí)就是讀取文件的元數(shù)據(jù)。如果直接基于orc或parquet元數(shù)據(jù),實(shí)現(xiàn)成本還是有點(diǎn)高的
Hive表數(shù)據(jù)質(zhì)量校驗(yàn)的設(shè)計(jì)與開(kāi)發(fā)一張Hive計(jì)算完成后,開(kāi)發(fā)者會(huì)希望知道計(jì)算結(jié)果是否符合預(yù)期,比如是否有臟數(shù)據(jù),是否數(shù)據(jù)量符合預(yù)期。這里就有兩個(gè)問(wèn)題,一個(gè)是校驗(yàn)什么,另一個(gè)是怎么校驗(yàn)。 校驗(yàn)什么 單個(gè)字段校...
都說(shuō)互聯(lián)網(wǎng)公司快,在大數(shù)據(jù)開(kāi)發(fā)領(lǐng)域也是如此,數(shù)據(jù)倉(cāng)庫(kù)的各ETL任務(wù)每天都有更新,而源頭的數(shù)據(jù)也是在不斷變化,需要保證快速更變的同時(shí),保證系統(tǒng)穩(wěn)定。 上一篇 Hive表數(shù)據(jù)質(zhì)量...
數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)系統(tǒng)需要實(shí)時(shí)獲取最新的Hive表結(jié)構(gòu),比如用戶(hù)新建了一張表或新加一個(gè)字段,希望能馬上在元數(shù)據(jù)系統(tǒng)里查詢(xún)到。 實(shí)時(shí)獲取數(shù)據(jù),無(wú)非是Push或Pull兩種模式。考...
一張Hive計(jì)算完成后,開(kāi)發(fā)者會(huì)希望知道計(jì)算結(jié)果是否符合預(yù)期,比如是否有臟數(shù)據(jù),是否數(shù)據(jù)量符合預(yù)期。這里就有兩個(gè)問(wèn)題,一個(gè)是校驗(yàn)什么,另一個(gè)是怎么校驗(yàn)。 校驗(yàn)什么 單個(gè)字段校...
失信人,也就是俗稱(chēng)的老賴(lài),會(huì)認(rèn)為是高風(fēng)險(xiǎn)或者低信用的用戶(hù),在很多業(yè)務(wù)場(chǎng)景下需要做好監(jiān)控或行為限制。比如失信人賣(mài)貨,捐款跑路的風(fēng)險(xiǎn)比普通人高,又比如失信人分期付款,可以懷疑不能...
敏感字段標(biāo)注問(wèn)題 數(shù)據(jù)倉(cāng)庫(kù)里,多多少少會(huì)有一些敏感字段,比如用戶(hù)手機(jī)號(hào)、通信地址,一旦泄露危害很大。而數(shù)據(jù)倉(cāng)庫(kù)需要盡可能方便讓用戶(hù)使用,同時(shí)又要保護(hù)敏感字段不能隨意訪(fǎng)問(wèn),一方...