問(wèn)題回顧 在hive中執(zhí)行自定義函數(shù)udf解析解密的時(shí)候,遇到一長(zhǎng)串報(bào)錯(cuò) cold not initialize class 無(wú)論怎么替換jar...
給出倆個(gè)值88.726 44.648 計(jì)算p5值使用percentile,得到的結(jié)果是46.852 百分位數(shù)計(jì)算結(jié)果解釋 一、為什么只有兩個(gè)數(shù),...
簡(jiǎn)單的數(shù)據(jù)流程圖就是如上,簡(jiǎn)單描述一下,就是將上游的kafka數(shù)據(jù)解密,對(duì)符合條件的數(shù)據(jù)解析轉(zhuǎn)換過(guò)濾封裝 將這部分?jǐn)?shù)據(jù)推到下游kafka數(shù)據(jù)源,...
maxRecordsPerFile 使用 在實(shí)現(xiàn)一個(gè)需求的時(shí)候發(fā)現(xiàn)的問(wèn)題;要求是將數(shù)據(jù)寫(xiě)入到cos中,要求每個(gè)文件的固定條數(shù)是5千萬(wàn)條且文件名字...
0. 成果 5T數(shù)據(jù)成功壓縮至1.4T壓縮率大概維持在68%-76% ,200億左右的數(shù)據(jù) 1. 為什么不采用sort by/distribut...
人生主線混亂 最近一年真的是啥也沒(méi)搞….一直是一個(gè)半途而廢的糕手…一直想搞搞計(jì)算機(jī)其他方向的東西 之前花了倆三周學(xué)前端技術(shù),后面到css和布局直...
1. row_number 數(shù)據(jù)傾斜 partition的字段,可能是傾斜的,單獨(dú)領(lǐng)出來(lái),union all倆部分 2. group by數(shù)據(jù)...
正如艾爾登復(fù)建,flink也需要復(fù)建,本次采用flinksql+kafka的方式搞一個(gè)簡(jiǎn)單的復(fù)建,計(jì)劃2周內(nèi)復(fù)建完成kafka使用參考:http...
自對(duì)大環(huán)境下的職場(chǎng)環(huán)境沒(méi)有信心后,我就開(kāi)始琢磨著其他的方向了,計(jì)算機(jī)&互聯(lián)網(wǎng)這行,看去了投入所帶來(lái)的收益很低了,雖說(shuō)數(shù)倉(cāng)&數(shù)據(jù)行業(yè)門(mén)檻低得很,但...