清洗數(shù)據(jù)綁定到hive再到mysql

通過mapreduce清洗數(shù)據(jù)綁定到hive,再通過hive查詢出結(jié)果集導(dǎo)入到hive的表,再通過sqoop導(dǎo)出到mysql

1.在hive中創(chuàng)建表

create external table mydb.access(ip string,day string,url string,upflow string) row format delimited fields terminated by ',';

2.加載清洗后的數(shù)據(jù)到剛創(chuàng)建的表

load data inpath '/hive/output/' into table mydb.access;

3.再創(chuàng)建一張表用于存放結(jié)果集

create external table mydb.upflow (ip string,sum string) row format delimited fields terminated by ',';

4.將查詢結(jié)果存放到結(jié)果集表

insert into mydb.upflow select ip, sum(upflow) as sum from mydb.access group by ip order by sum desc;

5.在mysql中創(chuàng)建一張用于存放結(jié)果集的表

create table upflow (
  ip varchar(200),
  sum varchar(200)
);

6.通過sqoop將hive中的結(jié)果集導(dǎo)入mysql中的表

sqoop export --connect jdbc:mysql://localhost:3306/test --username root --password admin --table uv_info --export-dir /user/hive/warehouse/uv/dt=2011-08-03
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容