python3 windows使用pyhive連接Hive 報(bào)錯(cuò)解決

背景:工作需要,使用 python 操作 hive sql 查詢數(shù)據(jù)使用。
目標(biāo):使用pyhive連接上hive,并正常讀取數(shù)據(jù)。

hive


一、準(zhǔn)備工作

首先安裝幾個(gè)簡(jiǎn)單的包

pip install thrift
pip install thrift-sasl
pip install PyHive

接下來(lái)安裝sasl,直接運(yùn)行

pip install sasl

但是我們?cè)诎惭bsasl的時(shí)候可能會(huì)報(bào)錯(cuò),導(dǎo)致安裝不上,這個(gè)時(shí)候就得去sasl下載地址下載我們所需要的sasl。

需要下載對(duì)應(yīng)的版本,例如python3.7 對(duì)應(yīng) sasl-0.2.1-cp37-cp37m-win_amd64.whl

否則會(huì)報(bào)錯(cuò) :
whl is not a supported wheel on this platform

下載完成后,執(zhí)行命名 pip install sasl-0.2.1-cp37-cp37m-win_amd64.whl

如果連接404可以由此下載


二、運(yùn)行中的坑

安裝完成后,直接輸入命令 from pyhive import hive 時(shí)候可能會(huì)報(bào)錯(cuò)

cannot import name 'constants' from 'TCLIService' (unknown location)

這個(gè)時(shí)候需要進(jìn)一步安裝

pip install --upgrade pyzmq

安裝完成后,測(cè)試運(yùn)行無(wú)誤


三、連接Hive

開(kāi)始嘗試連接hive

from pyhive import hive

host='188.158.11.59'
username='hdfs'
password='hdfs%123'
port=2181
data_base_name='test'

conn = hive.Connection(host=host,
                       port=port,
                       auth="CUSTOM",
                       database=data_base_name,
                       username=username,
                       password=password)

這個(gè)時(shí)候會(huì)報(bào)錯(cuò)

Could not start SASL: b'Error in sasl_client_start (-4) SASL(-4): no mechanism available: Unable to find a callback: 2'

在linux下執(zhí)行如下兩條命令中的一條便可以解決問(wèn)題,windows下暫未解決

yum install cyrus-sasl-plain  cyrus-sasl-devel  cyrus-sasl-gssapi

sudo yum install apache-maven ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libxml2-devel libxslt-devel make mysql mysql-devel openldap-devel python-devel sqlite-devel gmp-devel

windows下嘗試去https://sourceforge.net/projects/saslwindows/下載了Cyrus-SASL for Windows的安裝文件,但是沒(méi)有安裝成功。


四、終極解決方案

在Windows中使用管理員權(quán)限打開(kāi)控制臺(tái),在控制執(zhí)行一段命令即可,操作如下。

C:\Windows\system32> FOR /F "usebackq delims=" %A IN (`python -c "from importlib import util;import os;print(os.path.join(os.path.dirname(util.find_spec('sasl').origin),'sasl2'))"`) DO (
  REG ADD "HKEY_LOCAL_MACHINE\SOFTWARE\Carnegie Mellon\Project Cyrus\SASL Library" /v SearchPath /t REG_SZ /d "%A"
)

解決原理參考 Windows下pyhive無(wú)法使用的解決方案(https://blog.csdn.net/wenjun_xiao/article/details/104458940

from pyhive import hive
from impala.dbapi import connect as impalaConn
from impala.util import as_pandas
import pandas as pd

conn = hive.Connection(host='192.168.10.99',
                       port=10000,
                       auth="CUSTOM",
                       database='test',
                       username='hive',
                       password='hive')
cur =conn.cursor()
cur.execute('show tables')
row =cur.fetchall()

if row: 
    print(row)

conn.close

五、使用pandas讀取數(shù)據(jù)

from pyhive import hive
from impala.dbapi import connect as impalaConn
from impala.util import as_pandas
import pandas as pd

conn = hive.Connection(host='192.168.10.99',
                       port=10000,
                       auth="CUSTOM",
                       database='test',
                       username='hive',
                       password='hive')

sql_order = 'select * from u_data limit 10' 
df = pd.read_sql(sql_order, conn)

conn.close
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容