之前有過(guò)一篇文章講述CDH5.16.1如何整合phoenix,但是,但是,但是,這個(gè)版本整合的是phoenix4.7,這個(gè)版本無(wú)法使用分頁(yè)查詢,...
最近有個(gè)需求,就是SpringBoot提供一個(gè)web接口給業(yè)務(wù)方,業(yè)務(wù)方傳入?yún)?shù)調(diào)接口,接口去執(zhí)行hive離線計(jì)算,一般可能是說(shuō)直接用jdbc去...
我遇到的業(yè)務(wù)場(chǎng)景是統(tǒng)計(jì)10個(gè)維度的用戶畫(huà)像數(shù)據(jù),之前我是放在一個(gè)shell腳本里串行跑,總共跑下來(lái)差不多要9個(gè)多小時(shí):從數(shù)據(jù)預(yù)處理、維度統(tǒng)計(jì)、數(shù)...
最近一直在對(duì)歷史數(shù)據(jù)進(jìn)行清洗,原始數(shù)據(jù)是純數(shù)據(jù)格式,現(xiàn)在要清洗到hbase中,方便后期跟hive進(jìn)行整合查詢。??赡墁F(xiàn)在基本上都使用spark來(lái)...
今天在用hive做一個(gè)離線統(tǒng)計(jì)的任務(wù),既然是統(tǒng)計(jì),那就是某個(gè)ID可能在某個(gè)維度有多個(gè)值,比如某個(gè)部門男女人數(shù)分別是多少。 部門ID性別人數(shù)000...
最近有一個(gè)需求是這樣的:原來(lái)的數(shù)據(jù)是存儲(chǔ)在MySQL,然后通過(guò)Sqoop將MySQL的數(shù)據(jù)抽取到了HDFS集群上,抽取到HDFS上的數(shù)據(jù)都是純數(shù)...
CDH中預(yù)裝的hbase是沒(méi)有Phoenix的,需要我們手動(dòng)來(lái)集成,下面我們就簡(jiǎn)單的記錄一下筆者集成的流程。 1下載parcels http:/...
kafka集群搭建完成后,對(duì)集群進(jìn)行壓測(cè)。這樣的話,就需要實(shí)時(shí)查看kafka集群機(jī)器的IO情況。那怎么辦呢?其實(shí)linux是有一個(gè)命令來(lái)做這個(gè)事...
俗話說(shuō):磨刀不誤砍柴工。。上兩篇中,我們介紹完了CDH環(huán)境的基本搭建。在這篇中,我們講述對(duì)hive的一個(gè)優(yōu)化措施之一:執(zhí)行引擎tez。在HDP中...