Hive

Hive和數(shù)據(jù)庫

Hive有自己的語言,叫HQL(近似于SQL),Hive是基于Hadoop的一個數(shù)據(jù)倉庫,不是數(shù)據(jù)庫.

1. 像mysql,oracle之類的數(shù)據(jù)庫,他們更關(guān)注業(yè)務交易處理(OLTP),追求交易的速度,交易完整性,數(shù)據(jù)的一致性等。

2. 數(shù)據(jù)倉庫更關(guān)注數(shù)據(jù)分析層面(OLAP),強調(diào)數(shù)據(jù)分析的效率,復雜查詢的速度,數(shù)據(jù)之間的相關(guān)性分析,所以使用的多維模型,從而提高數(shù)據(jù)分析的效率。

3. Hive 是建立在 Hadoop 之上的,所有 Hive 的數(shù)據(jù)都是存儲在 HDFS 中的。而數(shù)據(jù)庫則可以將數(shù)據(jù)保存在塊設備或者本地文件系統(tǒng)中。

4. Hive必須要依賴一個數(shù)據(jù)庫,因為Hive要做一個元數(shù)據(jù)到原來的映射,每一個原本的數(shù)據(jù)都需要存到數(shù)據(jù)庫的,假如相對于的數(shù)據(jù)庫被刪了,那Hive就沒了映射的源頭了,就沒法用


Hive的優(yōu)點

1. 操作接口采用類SQL語法,提供快速開發(fā)的能力。

2. 避免了去寫MapReduce,減少開發(fā)人員的效率和心靈上的創(chuàng)傷

3. Hive的執(zhí)行延遲比較高,因此hive常用于數(shù)據(jù)分析,對實時性要求不高的場合

4. Hive優(yōu)勢在于處理大數(shù)據(jù),對于處理小數(shù)據(jù)沒有優(yōu)勢,因為Hive的執(zhí)行延遲比較高

5. Hive支持用戶自定義函數(shù),用戶可以根據(jù)自己的需求來實現(xiàn)自己的函數(shù)。

Hive的缺點

1. 完全不會MR的話,無法處理性能的優(yōu)化

2. MR太慢,太笨重...

3. Spark Core強于MR100倍...Spark SQL底層走的Spark Core,它可以對接Hive...

4. 不適合關(guān)系型處理,不適合實時查詢和行情分析,延遲比較高

Hive的架構(gòu)

Hive架構(gòu)

Hive通過給用戶提供的一系列交互接口,接收到用戶的指令(SQL),使用自己的Driver,結(jié)合元數(shù)據(jù)(MetaStore),將這些指令翻譯成MapReduce,提交到Hadoop中執(zhí)行,最后,將執(zhí)行返回的結(jié)果輸出到用戶交互接口。

1. 用戶接口:Client? ????????? 2. 元數(shù)據(jù):Metastore??????????? 3.? 驅(qū)動器:Driver


Hive解決了什么問題

Hive解決了大數(shù)據(jù)的查詢功能,讓不會寫MR的人也能使用MR,它的本質(zhì)就是將HQL轉(zhuǎn)換為MR. 它的底層走的是MR,寫MR效率低,而且痛苦,Hive的出現(xiàn)就為JAVAEE的兄弟帶來了捷徑和福音.


Hive環(huán)境搭建

Hive是MapReduce的客戶端,因此不需要在每個節(jié)點上都配置。在操作Hive的同時,需要將Hadoop的HDFS開啟,Yarn開啟,MapReduce配置好。

1. hive官網(wǎng)下載hive后,將hive解壓后,進入hive,將hive-env.sh.*修改為hive-env.sh.

2. 編輯hive-env.sh, 在里面找到JAVA-HOME,并配置安裝在集群上java.home的路徑

3. 找到export HIVE_CONF_DIR,在其后面配置hive下面的conf的路徑

4. 在HDFS上創(chuàng)建/tmp和user/hive/warehouse兩個目錄,并改變他們的組的權(quán)限

5. 如果你想遠程提供元數(shù)據(jù)表的服務,就在hive-site.xm配置hive.metastore屬性


Hive的基本操作

注: 要操作Hive的話,要啟動HDFS和Yarn

啟動hive1: bin/hive

啟動hive2: 如果在hive-site.xml里配置了hive.metastore,那啟動:bin/hive --service metastore? ? ?? 再bin/hive

查看數(shù)據(jù)庫: show databases;?????? 切換數(shù)據(jù)庫: use 數(shù)據(jù)庫名?????? 顯示數(shù)據(jù)庫中的表: show tables;??

創(chuàng)建表: create table employee(id int, name string);? ????? 查看表的結(jié)構(gòu): desc employee

向表中插入數(shù)據(jù): insert into student values(1000,"ss");? ? ? ? 查詢表中數(shù)據(jù): select * from student;

將本地文件導入hive: load data local inpath '/opt/module/datas/student.txt' into table employee;


MySQL的安裝

hive為什么要依賴某一個數(shù)據(jù)庫: 因為hive要做一個原本的數(shù)據(jù)到字段的映射,并且每一個原本的數(shù)據(jù)它所存儲的信息和序列都要保存到數(shù)據(jù)庫中進行說明,而原數(shù)據(jù)保存在mysql的數(shù)據(jù)庫中,叫做metastore,一旦metastore被刪掉了,hive倉庫就沒有數(shù)據(jù)了.

mysql在linux上要安裝三個:客戶端,服務器,還有一個連接的

前面兩個默認安裝好了...

1. 我安裝的是這個版本mysql-connector-java-5.1.27? cd進入里面

2. 將里面默認提供的唯一的jar包cp到hive的lib目錄下.

3. 啟動hive,就可以創(chuàng)建表了,且數(shù)據(jù)映射到mysql里面了

4. mysql -uroot -p密碼, 查看數(shù)據(jù)庫,就可以看到metastore數(shù)據(jù)庫了,如果不小心drop了,hive就沒有數(shù)據(jù)了...GG


Hive之數(shù)據(jù)導入

基本加載數(shù)據(jù)

加載本地文件到hive: load data local inpath '/opt/module/datas/student.txt' into table default.student;

加載HDFS文件到hive中: dfs -put /opt/module/datas/student.txt /user/admin/hive;

通過查詢語句向表中插入數(shù)據(jù)

插入數(shù)據(jù): insert into table? student partition(month='123') values('1004','wangwu');

用location指定加載數(shù)據(jù)路徑

上傳數(shù)據(jù)到hdfs上: dfs -put /opt/module/datas/student.txt? /user/hive/warehouse/student5;

import數(shù)據(jù)到指定hive表中: import table student2 partition(month='201709') from '/user/hive/warehouse/export/student';


Hive之數(shù)據(jù)導出

insert導出到本地: insert overwrite local directory '/opt/module/datas/export/student' select * from student;

將查詢的結(jié)果格式化導出到本地: insert overwrite local directory '/opt/module/datas/export/student1' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY '\n' select * from student;

將查詢的結(jié)果導出到HDFS上(沒有l(wèi)ocal): insert overwrite directory '/user/admin/hive/warehouse/student2'ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY '\n'select * from student;

Hadoop命令導出到本地: dfs -get /user/hive/warehouse/student/month=201709/000000_0? /opt/module/datas/export/student3.txt;

hive shell 命令導出: bin/hive -e 'select * from default.student;' > /opt/module/datas/export/student4.txt;

export導出到HDFS上: export table default.student to '/user/hive/warehouse/export/student';

待續(xù)..

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

  • 1. Hive基本介紹和基礎: Facebook公司最早完成并開源了hive框架,可以將sql語句直接翻譯成Map...
    奉先閱讀 3,450評論 0 43
  • * Hive框架基礎(一) 一句話:學習Hive有毛用? 那么解釋一下 毛用: * 操作接口采用類SQL語法,提供...
    Z盡際閱讀 4,022評論 0 19
  • ![Uploading hive6_786401.png . . .]](http://upload-images...
    心_的方向閱讀 1,979評論 1 2
  • Hive是什么 我們知道傳統(tǒng)數(shù)據(jù)存儲都是存儲在關(guān)系型數(shù)據(jù)庫中,它們使用一種SQL(結(jié)構(gòu)化查詢語言)方言來查詢數(shù)據(jù)庫...
    零度沸騰_yjz閱讀 1,190評論 0 7
  • CDH Hadoop系列目錄: Hadoop實戰(zhàn)(3)_虛擬機搭建CDH的全分布模式 Hadoop實戰(zhàn)(4)_Ha...
    padluo閱讀 2,897評論 0 2

友情鏈接更多精彩內(nèi)容