0 簡介 在日常的數(shù)據(jù)分析中,分位數(shù) 是非常重要的一環(huán),在探查數(shù)據(jù)分布,定義指標(biāo)中都必不可缺。但 python 里的分位數(shù)計(jì)算卻潛藏了一些坑點(diǎn),特分享。 1 是什么 1.1 ...
0 簡介 在日常的數(shù)據(jù)分析中,分位數(shù) 是非常重要的一環(huán),在探查數(shù)據(jù)分布,定義指標(biāo)中都必不可缺。但 python 里的分位數(shù)計(jì)算卻潛藏了一些坑點(diǎn),特分享。 1 是什么 1.1 ...
0 前言 數(shù)據(jù)分析師在使用python進(jìn)行數(shù)據(jù)分析時,經(jīng)常會遇到 Nan 和 None 這兩個數(shù)據(jù)缺失值,但它們兩并不互相等價(jià),有很多細(xì)微的差別。筆者將在下面對 Nan 和 ...
數(shù)據(jù)分析的點(diǎn)、線、面 前言 在告別了人口紅利之后,對于成熟或平臺型產(chǎn)品而言,增長的核心不再是對增量用戶的擴(kuò)張,而是對存量用戶的精細(xì)化運(yùn)營,提升轉(zhuǎn)化效率及用戶價(jià)值挖掘,其中數(shù)據(jù)...
前言 在日常工作中,數(shù)據(jù)同學(xué)經(jīng)常會遇到以下問題 產(chǎn)品:為什么A頁面的數(shù)據(jù)和B頁面的數(shù)據(jù)對不上數(shù)據(jù):我去看看一段時間后.....數(shù)據(jù):A頁面數(shù)據(jù)是來自于AA表,計(jì)算邏輯是AAA...
前言 支架表是維度設(shè)計(jì)中非常有意思的一部分,可以說是星型模型和雪花模型的結(jié)合;但在大部分維度建模書里都只是簡單的一筆帶過,實(shí)在是過于可惜。 在本文,筆者會對支架表進(jìn)行詳細(xì)的介...
前言 在大部分的公司里,數(shù)據(jù)部門的產(chǎn)出主要都是提取數(shù)據(jù)和 數(shù)據(jù)可視化(BI);提數(shù)工作無需多說,寫好SQL即可。但BI則不同,即使在BAT等非常重視數(shù)據(jù)的公司中,它也是數(shù)據(jù)部...
引言 元數(shù)據(jù)管理是企業(yè)數(shù)據(jù)治理的基礎(chǔ),是數(shù)據(jù)倉庫的提升;作為一名數(shù)據(jù)人,首要任務(wù)就是理解元數(shù)據(jù)管理。本篇文章將為大家梳理元數(shù)據(jù)的概念,介紹元數(shù)據(jù)管理在數(shù)據(jù)倉庫的地位。 什么是...
前言 最近公司在招聘數(shù)倉開發(fā),筆者負(fù)責(zé)技術(shù)方面的一些問題,緩慢變化維 自然是是不可缺少的環(huán)節(jié)。 但出乎筆者預(yù)料的是,所有的面試者都沒有完整了解 緩慢變化維 的前因后果及處理方...
預(yù)處理階段 該階段主要做2件事: 將數(shù)據(jù)原封不動的抽取導(dǎo)入,切記永遠(yuǎn)不要對源數(shù)據(jù)進(jìn)行直接的清洗修改。 了解數(shù)據(jù): 整理記錄元數(shù)據(jù),包括但不限于字段解釋、數(shù)據(jù)來源、計(jì)算方式等 ...
什么是數(shù)據(jù)傾斜 hive在shuffle的部分操作時,由于數(shù)據(jù)key的分化不均,造成有的節(jié)點(diǎn)數(shù)據(jù)很多,而有的節(jié)點(diǎn)數(shù)據(jù)很少。表現(xiàn)在實(shí)際應(yīng)用上: 總?cè)蝿?wù)一直看在99%,單個節(jié)點(diǎn)一...