1,CDH的搭建可以參考
https://blog.csdn.net/q1370992706/article/details/79578444
2,在CDH安裝spark
沒有在CDH集成環(huán)境安裝spark
1)新建spark虛擬主機 :安裝spark環(huán)境,
? ? 1.1參考://blog.csdn.net/red_stone1/article/details/71330101
? ? 1.2 ping 各個CDH節(jié)點
2)拷貝cdh下hive-site.xml 到spark主機conf下
3)啟動spark-sql查看是否鏈接成功。
HIVE默認一個default庫,可先用HUE創(chuàng)建一個表
show databases;
use default;
show tables;
slelect * from xxTable;
3,ubuntu16.04 python2/3,pip安裝
????????https://blog.csdn.net/qq_31307013/article/details/79668453
4,安裝py4j,pyspark
? ? 換源:
????pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ pyspark