云平臺配置3:配置完全分布式的 Hadoop
前面說了偽分布式的配置,也說了如何配置ssh,到現(xiàn)在是時候配置具有完全分布式的hadoop了

主機信息,成功配置hadoop應該顯示的進程
一、配置 Hadoop
- 下載 Hadoop 。例如
hadoop-2.6.5.tar.gz。 - 解壓到
/opt目錄下并設置目錄權限。 - 配置環(huán)境變量。
sudo vim /etc/profile- 在文件中添加:
export HADOOP_HOME=/opt/hadoop-2.6.5 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin - 更改配置文件(位于
/opt/hadoop-2.6.5/etc/hadoop目錄)。- hadoop-env.sh
找到并修改:export JAVA_HOME=/opt/jdk1.8.0_121。 - core-site.xml
找到并修改:<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://spark1:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/spark/hadoop-2.6.5/tmp</value> <description>Abase for ohr temporary directories.</description> </property> </configuration>- 請注意記錄,此處的HDFS端口號為
9000。
- 請注意記錄,此處的HDFS端口號為
- hdfs-site.xml
找到并修改:<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>spark1:50090</value> </property> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/home/spark/hadoop-2.6.5/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/home/spark/hadoop-2.6.5/data</value> </property> </configuration>- 請根據(jù)實際情況修改
dfs.replication的值(默認為 3 )。
- 請根據(jù)實際情況修改
- mapred-site.xml
找到并修改:<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>spark1:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>spark1:19888</value> </property> </configuration> - yarn-site.xml
找到并修改:<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>spark1</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> - 復制 slaves.template 為 slaves,并編輯 slaves 文件。
添加:spark2 spark3
- hadoop-env.sh
- 將 Hadoop 整個目錄復制到 spark2 和 spark3 節(jié)點(scp 命令)。
二、 啟動和關閉 Hadoop 服務
2.1 啟動 Hadoop 的步驟
-
(僅首次啟動前執(zhí)行)格式化 NameNode :
hadoop namenode -format。 - 啟動 HDFS 文件系統(tǒng)服務:
start-dfs.sh。 - 啟動 YARN:
start-yarn.sh。 - 使用
jps命令查看相關進程是否啟動。
spark1:- NameNode
- SecondaryNameNode
- ResourceManager
spark2 和 spark3: - DataNode
- NodeManager
如果上述進程未能全部啟動,可以按照以下步驟排查:
- 使用
stop-yarn.sh和stop-dfs.sh關閉所有服務。- 檢查 spark 用戶是否擁有相關目錄的權限。
- 嘗試清空 core-site.xml 配置文件中的
hadoop.tmp.dir配置項所指向的目錄。
2.2 關閉 Hadoop 的步驟
依次輸入 stop-yarn.sh 和 stop-dfs.sh 即可。
???注意:每次關閉系統(tǒng)之前必須執(zhí)行該步驟。