在mac上搭建spark+ipython環(huán)境

Big Data computing 下課之后回去試著搭建了一下spark環(huán)境,在這里記錄安裝過程中遇到的坑及解決方法和一些待解決的問題。

mac上的python環(huán)境:Anaconda for python 2.7。(原來我用的Anaconda for python3.6,但是在用pyspark的過程中會遇到一個不能解決的bug,所以又重新裝了python2.7)

下面是我的配置過程,黑色加粗字體是要在terminal中敲的命令

1. 在spark官網(wǎng)上下載spark文件包

2. 打開terminal

3. 打開下載的spark所在的路徑

cd downloads

4. 解壓壓縮包

tar -zxvf spark-2.1.0-bin-hadoop2.7.tar

5. 把解壓后的文件移動到home路徑下

mv spark-2.1.0-bin-hadoop2.7/~/spark-2.1.0

6. 設(shè)置環(huán)境變量

nano .bash_profile

o ?在bash profile 里添加下面兩句

export SPARK_PATH=~/spark-2.1.0

export PATH=$SPARK_PATH/bin:$PATH

保存并推出 (command+x)

7. 環(huán)境變量會在你下次打開terminal時自動生效,如果想立刻生效,用下面的source命令

source .bash_profile

8.鍵入pyspark看看是不是成功

pyspark

## 以上這些步驟如果是python3.6環(huán)境中會報TypeError: namedtuple() missing 3 required keyword-only arguments: 'verbose', 'rename', and 'module'

## 有人在github上提出了這個問題,不過我沒有看懂是如何解決的。github上關(guān)于pyspark+python3.6

9. 如果想在ipython notebook中使用pyspark,在第六步中bash_profile文件中追加下面三行:?

export PYSPARK_DRIVER_PYTHON="ipython"

export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

alias snotebook='$SPARK_PATH/bin/pyspark --masterlocal[2]'

10.?source .bash_profile

11. 在terminal中鍵入pyspark或者snotebook。snotebook 是別名,可以在第九步設(shè)置環(huán)境變量的過程中任意命名。Local[2] 表示我們?yōu)樗峙淞藘蓚€核。

12.打開了ipython notebook之后可以嘗試下面命令看看spark配置是否成功

sc.parallelize(range(100),8).take(5)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容