Hive和數(shù)據(jù)庫
Hive有自己的語言,叫HQL(近似于SQL),Hive是基于Hadoop的一個數(shù)據(jù)倉庫,不是數(shù)據(jù)庫.
1. 像mysql,oracle之類的數(shù)據(jù)庫,他們更關(guān)注業(yè)務交易處理(OLTP),追求交易的速度,交易完整性,數(shù)據(jù)的一致性等。
2. 數(shù)據(jù)倉庫更關(guān)注數(shù)據(jù)分析層面(OLAP),強調(diào)數(shù)據(jù)分析的效率,復雜查詢的速度,數(shù)據(jù)之間的相關(guān)性分析,所以使用的多維模型,從而提高數(shù)據(jù)分析的效率。
3. Hive 是建立在 Hadoop 之上的,所有 Hive 的數(shù)據(jù)都是存儲在 HDFS 中的。而數(shù)據(jù)庫則可以將數(shù)據(jù)保存在塊設備或者本地文件系統(tǒng)中。
4. Hive必須要依賴一個數(shù)據(jù)庫,因為Hive要做一個元數(shù)據(jù)到原來的映射,每一個原本的數(shù)據(jù)都需要存到數(shù)據(jù)庫的,假如相對于的數(shù)據(jù)庫被刪了,那Hive就沒了映射的源頭了,就沒法用
Hive的優(yōu)點
1. 操作接口采用類SQL語法,提供快速開發(fā)的能力。
2. 避免了去寫MapReduce,減少開發(fā)人員的效率和心靈上的創(chuàng)傷
3. Hive的執(zhí)行延遲比較高,因此hive常用于數(shù)據(jù)分析,對實時性要求不高的場合
4. Hive優(yōu)勢在于處理大數(shù)據(jù),對于處理小數(shù)據(jù)沒有優(yōu)勢,因為Hive的執(zhí)行延遲比較高
5. Hive支持用戶自定義函數(shù),用戶可以根據(jù)自己的需求來實現(xiàn)自己的函數(shù)。
Hive的缺點
1. 完全不會MR的話,無法處理性能的優(yōu)化
2. MR太慢,太笨重...
3. Spark Core強于MR100倍...Spark SQL底層走的Spark Core,它可以對接Hive...
4. 不適合關(guān)系型處理,不適合實時查詢和行情分析,延遲比較高
Hive的架構(gòu)

Hive通過給用戶提供的一系列交互接口,接收到用戶的指令(SQL),使用自己的Driver,結(jié)合元數(shù)據(jù)(MetaStore),將這些指令翻譯成MapReduce,提交到Hadoop中執(zhí)行,最后,將執(zhí)行返回的結(jié)果輸出到用戶交互接口。
1. 用戶接口:Client? ????????? 2. 元數(shù)據(jù):Metastore??????????? 3.? 驅(qū)動器:Driver
Hive解決了什么問題
Hive解決了大數(shù)據(jù)的查詢功能,讓不會寫MR的人也能使用MR,它的本質(zhì)就是將HQL轉(zhuǎn)換為MR. 它的底層走的是MR,寫MR效率低,而且痛苦,Hive的出現(xiàn)就為JAVAEE的兄弟帶來了捷徑和福音.
Hive環(huán)境搭建
Hive是MapReduce的客戶端,因此不需要在每個節(jié)點上都配置。在操作Hive的同時,需要將Hadoop的HDFS開啟,Yarn開啟,MapReduce配置好。
1. hive官網(wǎng)下載hive后,將hive解壓后,進入hive,將hive-env.sh.*修改為hive-env.sh.
2. 編輯hive-env.sh, 在里面找到JAVA-HOME,并配置安裝在集群上java.home的路徑
3. 找到export HIVE_CONF_DIR,在其后面配置hive下面的conf的路徑
4. 在HDFS上創(chuàng)建/tmp和user/hive/warehouse兩個目錄,并改變他們的組的權(quán)限
5. 如果你想遠程提供元數(shù)據(jù)表的服務,就在hive-site.xm配置hive.metastore屬性
Hive的基本操作
注: 要操作Hive的話,要啟動HDFS和Yarn
啟動hive1: bin/hive
啟動hive2: 如果在hive-site.xml里配置了hive.metastore,那啟動:bin/hive --service metastore? ? ?? 再bin/hive
查看數(shù)據(jù)庫: show databases;?????? 切換數(shù)據(jù)庫: use 數(shù)據(jù)庫名?????? 顯示數(shù)據(jù)庫中的表: show tables;??
創(chuàng)建表: create table employee(id int, name string);? ????? 查看表的結(jié)構(gòu): desc employee
向表中插入數(shù)據(jù): insert into student values(1000,"ss");? ? ? ? 查詢表中數(shù)據(jù): select * from student;
將本地文件導入hive: load data local inpath '/opt/module/datas/student.txt' into table employee;
MySQL的安裝
hive為什么要依賴某一個數(shù)據(jù)庫: 因為hive要做一個原本的數(shù)據(jù)到字段的映射,并且每一個原本的數(shù)據(jù)它所存儲的信息和序列都要保存到數(shù)據(jù)庫中進行說明,而原數(shù)據(jù)保存在mysql的數(shù)據(jù)庫中,叫做metastore,一旦metastore被刪掉了,hive倉庫就沒有數(shù)據(jù)了.
mysql在linux上要安裝三個:客戶端,服務器,還有一個連接的
前面兩個默認安裝好了...
1. 我安裝的是這個版本mysql-connector-java-5.1.27? cd進入里面
2. 將里面默認提供的唯一的jar包cp到hive的lib目錄下.
3. 啟動hive,就可以創(chuàng)建表了,且數(shù)據(jù)映射到mysql里面了
4. mysql -uroot -p密碼, 查看數(shù)據(jù)庫,就可以看到metastore數(shù)據(jù)庫了,如果不小心drop了,hive就沒有數(shù)據(jù)了...GG
Hive之數(shù)據(jù)導入
基本加載數(shù)據(jù)
加載本地文件到hive: load data local inpath '/opt/module/datas/student.txt' into table default.student;
加載HDFS文件到hive中: dfs -put /opt/module/datas/student.txt /user/admin/hive;
通過查詢語句向表中插入數(shù)據(jù)
插入數(shù)據(jù): insert into table? student partition(month='123') values('1004','wangwu');
用location指定加載數(shù)據(jù)路徑
上傳數(shù)據(jù)到hdfs上: dfs -put /opt/module/datas/student.txt? /user/hive/warehouse/student5;
import數(shù)據(jù)到指定hive表中: import table student2 partition(month='201709') from '/user/hive/warehouse/export/student';
Hive之數(shù)據(jù)導出
insert導出到本地: insert overwrite local directory '/opt/module/datas/export/student' select * from student;
將查詢的結(jié)果格式化導出到本地: insert overwrite local directory '/opt/module/datas/export/student1' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY '\n' select * from student;
將查詢的結(jié)果導出到HDFS上(沒有l(wèi)ocal): insert overwrite directory '/user/admin/hive/warehouse/student2'ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY '\n'select * from student;
Hadoop命令導出到本地: dfs -get /user/hive/warehouse/student/month=201709/000000_0? /opt/module/datas/export/student3.txt;
hive shell 命令導出: bin/hive -e 'select * from default.student;' > /opt/module/datas/export/student4.txt;
export導出到HDFS上: export table default.student to '/user/hive/warehouse/export/student';
待續(xù)..