數(shù)據(jù)已成為很多公司的核心資產(chǎn),而在數(shù)據(jù)開發(fā)的過程中會引入各種質(zhì)量、效率、安全等方面的問題,而數(shù)據(jù)治理就是要不斷消除引入的這些問題,保障數(shù)據(jù)準確、...
投稿
數(shù)據(jù)已成為很多公司的核心資產(chǎn),而在數(shù)據(jù)開發(fā)的過程中會引入各種質(zhì)量、效率、安全等方面的問題,而數(shù)據(jù)治理就是要不斷消除引入的這些問題,保障數(shù)據(jù)準確、...
標簽數(shù)據(jù)開發(fā)是用戶畫像體系中最重要的一環(huán),主要包括離線標簽開發(fā)、實時標簽開發(fā)、用戶特征庫開發(fā)、人群計算、打通數(shù)據(jù)服務層等開發(fā)內(nèi)容。 一、統(tǒng)計類標...
1、HiveSource-xxxx.xxxx's parallelism (200) is higher than the max parall...
火山日常啰嗦學習了一些大數(shù)據(jù)的相關框架后,發(fā)現(xiàn)應用層的東西確實不難,真正難的都是底層原理,所以我查看了很多資料,借鑒了前人的方法再加上自己的理解...
Checkpointing 是 Flink 故障恢復的內(nèi)部機制。一個 checkpoint 就是 Flink應用程序產(chǎn)生的狀態(tài)的一個副本。如果 ...
轉(zhuǎn)自千峰王溯老師 1、用戶畫像項目簡介 1.1 什么是用戶畫像 所謂的用戶畫像就是給用戶貼一些標簽,通過標簽說明用戶是一個什么樣的人。 具體來說...
基本概念 數(shù)據(jù)(Data) 數(shù)據(jù)是我們通過觀察、實驗或計算得出的結(jié)果。數(shù)據(jù)有很多鐘,最簡單的是數(shù)字,數(shù)據(jù)也可以是文字、圖像、聲音等。 企業(yè)內(nèi)各類...
實時數(shù)倉主要是為了解決傳統(tǒng)數(shù)倉數(shù)據(jù)時效性低的問題,實時數(shù)倉通常會用在實時的OLAP分析、實時的數(shù)據(jù)看板、業(yè)務指標實時監(jiān)控等場景。雖然關于實時數(shù)倉...
Pandas官方文檔 縮寫和包導入 在這個速查手冊中,我們使用如下縮寫: df:任意的Pandas DataFrame對象s:任意的Pandas...
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataF...