《數(shù)據(jù)資產(chǎn)管理核心技術(shù)與應(yīng)用》是由清華大學(xué)出版社出版的一本圖書(shū),該圖書(shū)主要特點(diǎn)如下:
1、依托于大數(shù)據(jù)技術(shù),獨(dú)家解密數(shù)據(jù)血緣的底層技術(shù)實(shí)現(xiàn)
2、詳解數(shù)據(jù)資產(chǎn)管理的知識(shí)體系和核心技術(shù)
3、應(yīng)用元數(shù)據(jù)管理和數(shù)據(jù)建模技術(shù),充分發(fā)揮出數(shù)據(jù)資產(chǎn)的更大潛力和價(jià)值。
4、全書(shū)從元數(shù)據(jù)、數(shù)據(jù)血緣、數(shù)據(jù)質(zhì)量、數(shù)據(jù)服務(wù)、數(shù)據(jù)監(jiān)控、數(shù)據(jù)建模、數(shù)據(jù)架構(gòu)等多個(gè)維度來(lái)剖析大數(shù)據(jù)資產(chǎn)管理的核心技術(shù)與應(yīng)用。
5、全書(shū)配套了PPT課件以及作者微信答疑服務(wù)
核心章節(jié)介紹如下:全書(shū)依托于大數(shù)據(jù)技術(shù),獨(dú)家解密數(shù)據(jù)血緣的底層技術(shù)實(shí)現(xiàn)
通常來(lái)說(shuō),數(shù)據(jù)血緣的來(lái)源可以包括數(shù)據(jù)源自身、數(shù)據(jù)處理的任務(wù)、數(shù)據(jù)任務(wù)的編排系統(tǒng)等。
數(shù)據(jù)源自身:比如像Hive,由于其本身就是支持通過(guò)HQL做數(shù)據(jù)處理的,所以其本身就可以通過(guò)數(shù)據(jù)處理的過(guò)程來(lái)分析從而獲取血緣。
數(shù)據(jù)處理的任務(wù):這點(diǎn)很容易理解,因?yàn)椴还苁菍?shí)時(shí)任務(wù)還是離線任務(wù),都會(huì)涉及到數(shù)據(jù)邏輯的處理,從數(shù)據(jù)任務(wù)的底層實(shí)現(xiàn)技術(shù)上來(lái)說(shuō),不管是Hadoop的Map-Reduce 任務(wù)還是Spark任務(wù)還是Flink任務(wù),本質(zhì)也都是在做數(shù)據(jù)的轉(zhuǎn)換處理,有數(shù)據(jù)的轉(zhuǎn)換,就可能會(huì)有數(shù)據(jù)血緣的變化。

數(shù)據(jù)任務(wù)的編排系統(tǒng):這點(diǎn)也很容易理解,如下圖3-1-1所示,在任務(wù)編排時(shí),可能會(huì)將很多不同的任務(wù)節(jié)點(diǎn)按照依賴(lài)順序串聯(lián)起來(lái)。前一個(gè)任務(wù)節(jié)點(diǎn)的數(shù)據(jù)輸出會(huì)是下一個(gè)任務(wù)節(jié)點(diǎn)的數(shù)據(jù)輸入,所以肯定也會(huì)產(chǎn)生數(shù)據(jù)的轉(zhuǎn)換,就肯定也會(huì)存在血緣。
重點(diǎn)介紹了數(shù)據(jù)血緣的底層技術(shù)實(shí)現(xiàn),包括:
如何從Hive中獲取數(shù)據(jù)血緣
從Spark 執(zhí)行計(jì)劃中獲取數(shù)據(jù)血緣
從Spark ?SQL語(yǔ)句中獲取數(shù)據(jù)血緣
從Flink中獲取數(shù)據(jù)血緣
從數(shù)據(jù)任務(wù)的編排系統(tǒng)中獲取數(shù)

