Anaconda使用總結(jié) 2016.7.19 PeterYuan 序 Python易用,但用好卻不易,其中比較頭疼的就是包管理和Python不同版本的問(wèn)題,特別是當(dāng)你使用Wi...
一、故障情景 基于Hive的數(shù)據(jù)倉(cāng)庫(kù)中需要做一張累積快照表,記錄了客戶發(fā)生各個(gè)行為的具體日期,比如激活日期、注冊(cè)日期、申請(qǐng)日期、創(chuàng)建訂單日期等等。 這張表需要以激活日期作為分...
我連第一題都不會(huì)。。。
網(wǎng)易大數(shù)據(jù)崗面試總結(jié)今天面了網(wǎng)易大數(shù)據(jù)的崗位,還真是挺難的,趁著還記著題目,把問(wèn)到的題目記錄于此: 筆試: 1、甲和乙下棋,一局中甲獲勝的概率是2/3,乙獲勝的概率是1/3,一方比另一方多贏兩局...
前言: 上手kafka已有2年的時(shí)間,我們的數(shù)據(jù)處理量也從最初的300g/day發(fā)展到今天的T量級(jí)在這個(gè)過(guò)程中也踩了不少坑,在這里分享出來(lái)和大家共勉。 一、硬件考量 1.1、...
Hive數(shù)據(jù)傾斜總結(jié) 傾斜的原因: 使map的輸出數(shù)據(jù)更均勻的分布到reduce中去,是我們的最終目標(biāo)。由于Hash算法的局限性,按key Hash會(huì)或多或少的造成數(shù)據(jù)傾斜。...
干貨啊
Hive數(shù)據(jù)傾斜總結(jié)Hive數(shù)據(jù)傾斜總結(jié) 傾斜的原因: 使map的輸出數(shù)據(jù)更均勻的分布到reduce中去,是我們的最終目標(biāo)。由于Hash算法的局限性,按key Hash會(huì)或多或少的造成數(shù)據(jù)傾斜。...