注:電腦上必須已經(jīng)安裝java
第一步:轉(zhuǎn)到官方Apache Spark下載最新版本的Apache Spark,我下載的是spark-2.4.5-bin-hadoop2.6
第二步:解壓縮下載的Spark tar文件
$ tar -xvf Downloads/spark-2.4.5-bin-hadoop2.6.tgz
第三步:在啟動(dòng)PySpark之前,需要在/etc/profile中設(shè)置以下環(huán)境變量
export SPARK_HOME=/home/luban/spark-2.4.5-bin-hadoop2.6
export PATH=$PATH:/home/luban/spark-2.4.5-bin-hadoop2.6/bin
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
export PATH=$SPARK_HOME/python:$PATH
export PYSPARK_PYTHON=python3
第四步:更新配置文件
$ source /etc/profile
第五步:安裝findspark,并啟動(dòng)或者重啟jupyter notebook
$ pip install findspark
$ jupyter notebook
第六步:在import pyspark前,運(yùn)行findspark,它會(huì)找到spark安裝的位置
import findspark
findspark.init()