1、hive是個啥
1)hive主要是對mapreduce任務(wù)進行簡化操作,方便工作人員快速進行數(shù)據(jù)分析;
2)hive是構(gòu)建在hadoop之上的數(shù)據(jù)倉庫,能夠?qū)⒔Y(jié)構(gòu)化的數(shù)據(jù)文件映射成一張表,以HQL作為查詢接口,使用HDFS進行數(shù)據(jù)存儲,使用mapreduce進行計算,運行在yarn上;
2、hive用處
1)ETL:Extract-Transform-Load,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、交互轉(zhuǎn)換(transform)、加載(load)至目的端的過程;
2)對結(jié)構(gòu)化的數(shù)據(jù)進行查詢,適合離線數(shù)據(jù)處理
3、hive環(huán)境搭建
hive的運行依賴于HDFS文件系統(tǒng),所以首先必須要有HADOOP HDFS環(huán)境,這里略過,主要記錄一下hive相關(guān)配置
3.1 首先是到網(wǎng)站下載相應(yīng)版本的hive,建議不要使用太高的版本,會出各種問題,這里下載的是2.3.0版本,然后解壓到相應(yīng)路徑。
3.2 拷貝conf目錄下的hive-log4j2.properties.template文件并重命名hive-log4j2.properties,hive-env.sh.template文件并重命名為hive-env.sh,然后修改HADOOP_HOME和HIVE_CONF_DIR值
# Set HADOOP_HOME to point to a specific hadoop install directory
HADOOP_HOME=/home/luozheng/tools/hadoop-3.0.1
# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=/home/luozheng/tools/hive-2.3.0-bin/conf
3.3 通過命令bin/schematool -initSchema -dbType derby對hive進行相關(guān)初始化
3.4 通過命令bin/start-dfs.sh啟動hdfs,bin/hive命令運行hive cli
hive.PNG