背景:工作需要,使用 python 操作 hive sql 查詢數(shù)據(jù)使用。
目標(biāo):使用pyhive連接上hive,并正常讀取數(shù)據(jù)。

hive
一、準(zhǔn)備工作
首先安裝幾個(gè)簡(jiǎn)單的包
pip install thrift
pip install thrift-sasl
pip install PyHive
接下來(lái)安裝sasl,直接運(yùn)行
pip install sasl
但是我們?cè)诎惭bsasl的時(shí)候可能會(huì)報(bào)錯(cuò),導(dǎo)致安裝不上,這個(gè)時(shí)候就得去sasl下載地址下載我們所需要的sasl。
需要下載對(duì)應(yīng)的版本,例如python3.7 對(duì)應(yīng) sasl-0.2.1-cp37-cp37m-win_amd64.whl
否則會(huì)報(bào)錯(cuò) :
whl is not a supported wheel on this platform
下載完成后,執(zhí)行命名 pip install sasl-0.2.1-cp37-cp37m-win_amd64.whl
如果連接404可以由此下載
二、運(yùn)行中的坑
安裝完成后,直接輸入命令 from pyhive import hive 時(shí)候可能會(huì)報(bào)錯(cuò)
cannot import name 'constants' from 'TCLIService' (unknown location)
這個(gè)時(shí)候需要進(jìn)一步安裝
pip install --upgrade pyzmq
安裝完成后,測(cè)試運(yùn)行無(wú)誤
三、連接Hive
開(kāi)始嘗試連接hive
from pyhive import hive
host='188.158.11.59'
username='hdfs'
password='hdfs%123'
port=2181
data_base_name='test'
conn = hive.Connection(host=host,
port=port,
auth="CUSTOM",
database=data_base_name,
username=username,
password=password)
這個(gè)時(shí)候會(huì)報(bào)錯(cuò)
Could not start SASL: b'Error in sasl_client_start (-4) SASL(-4): no mechanism available: Unable to find a callback: 2'
在linux下執(zhí)行如下兩條命令中的一條便可以解決問(wèn)題,windows下暫未解決
yum install cyrus-sasl-plain cyrus-sasl-devel cyrus-sasl-gssapi
sudo yum install apache-maven ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libxml2-devel libxslt-devel make mysql mysql-devel openldap-devel python-devel sqlite-devel gmp-devel
windows下嘗試去https://sourceforge.net/projects/saslwindows/下載了Cyrus-SASL for Windows的安裝文件,但是沒(méi)有安裝成功。
四、終極解決方案
在Windows中使用管理員權(quán)限打開(kāi)控制臺(tái),在控制執(zhí)行一段命令即可,操作如下。
C:\Windows\system32> FOR /F "usebackq delims=" %A IN (`python -c "from importlib import util;import os;print(os.path.join(os.path.dirname(util.find_spec('sasl').origin),'sasl2'))"`) DO (
REG ADD "HKEY_LOCAL_MACHINE\SOFTWARE\Carnegie Mellon\Project Cyrus\SASL Library" /v SearchPath /t REG_SZ /d "%A"
)
解決原理參考 Windows下pyhive無(wú)法使用的解決方案(https://blog.csdn.net/wenjun_xiao/article/details/104458940)
from pyhive import hive
from impala.dbapi import connect as impalaConn
from impala.util import as_pandas
import pandas as pd
conn = hive.Connection(host='192.168.10.99',
port=10000,
auth="CUSTOM",
database='test',
username='hive',
password='hive')
cur =conn.cursor()
cur.execute('show tables')
row =cur.fetchall()
if row:
print(row)
conn.close
五、使用pandas讀取數(shù)據(jù)
from pyhive import hive
from impala.dbapi import connect as impalaConn
from impala.util import as_pandas
import pandas as pd
conn = hive.Connection(host='192.168.10.99',
port=10000,
auth="CUSTOM",
database='test',
username='hive',
password='hive')
sql_order = 'select * from u_data limit 10'
df = pd.read_sql(sql_order, conn)
conn.close