阿里騰訊云 hadoop+spark集群搭建（1）

linux版本： centos7

hadoop版本： 3.1.1

手上有三臺學(xué)生機(jī)，完全沒動過的：一臺是阿里云服務(wù)器，兩臺是騰訊云。

用阿里云做namenode，騰訊云做datanode。

目標(biāo)是搭好hdfs和yarn，后面搭spark和hive。

更新和下載軟件包。安裝jdk 版本為1.8.0

$ sudo yum -y update
$ sudo yum install -y java-1.8.0-openjdk java-1.8.0-openjdk-devel.x86_64 net-tools rsync mlocate wget vim gcc zlib-dev openssl-devel sqlite-devel bzip2-devel python-devel

這里通過yum安裝的jdk路徑默認(rèn)是在 /usr/lib

查找方法為：

$ whereis java  
（返回java: /usr/bin/java /usr/lib/java /etc/java....）
$ ll /usr/bin/java  
（返回/usr/bin/java -> /etc/alternatives/java，是軟鏈接）
$ ll /etc/alternatives/java 
（返回/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.b12-0.el7_5.x86_64/jre/bin/java）

由于系統(tǒng)中可能有多版本的jdk，/etc/alternatives/java軟鏈接用于指定真正使用的jdk版本。

/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.b12-0.el7_5.x86_64就是安裝的位置。

設(shè)置安全規(guī)則（針對namenode）

上阿里云加入安全組規(guī)則，由于是作學(xué)習(xí)用，直接加入規(guī)則
```
端口范圍： 1/65530  授權(quán)對象：0.0.0.0/0 
```

關(guān)閉防火墻

$ sudo systemctl stop firewalld.service 
$ sudo systemctl disable firewalld.service

修改hosts文件，這里要注意！

阿里云namenode，其hosts如下：

111.**.**.*8   slave1  （這里寫的是騰訊云服務(wù)器的外網(wǎng)IP）
134.**.**.*16  slave2  （這里寫的是騰訊云服務(wù)器的外網(wǎng)IP）
192.**.*.*12   master  （這里寫的是阿里云服務(wù)器的內(nèi)網(wǎng)IP）

騰訊云的兩臺datanode，其hosts如下：

39.**.2**.*2 master    （這里寫的是阿里云服務(wù)器的外網(wǎng)IP）
172.**.*.9 slave1      （這里寫的是騰訊云服務(wù)器的外網(wǎng)IP）
172.**.*.7 slave2       (這里寫的是騰訊云服務(wù)器的外網(wǎng)IP）

建立新用戶并賦予其權(quán)限
```
$ adduser hadoop
$ passwd hadoop
(輸入hadoop用戶的密碼)
$ su hadoop
```
此時從root身份切換到hadoop。
設(shè)置ssh免密登陸

每臺機(jī)器生成公私鑰，namenode把自己的公鑰拷到兩個datanode中。datanode把自己的公鑰拷到namenode中，并將可靠的公鑰信息寫入/.ssh/authorized_keys文件中。

下載hadoop并解壓縮，并建立所需文件夾

$ curl -O https://www-us.apache.org/dist/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz
$ mkdir hadoop
$ tar -zxvf hadoop-3.1.1.tar.gz -C ~/hadoop/
$ cd hadoop/hadoop-3.1.1
<!--在Hadoop目錄下建立tmp、dfs文件夾，并在dfs文件夾下建立data和name-->
<!--tmp用于存放緩存，dfs設(shè)置為hdfs信息的存放路徑-->
$ mkdir tmp & mkdir dfs
$ cd dfs
$ mkdir data & mkdir name

配置文件與環(huán)境變量

配置core-site.xml、hdfs-site.xml、yarn-site.xml、workers、hadoop-env.sh。

core-site.xml

<configuration>
   <property>
       <name>fs.defaultFS</name>
       <value>hdfs://master:9000/</value>
   </property>
   <property>
        <name>hadoop.tmp.dir</name>
       <value>/home/hadoop/hadoop/hadoop-3.1.1/tmp/</value>
   </property>
</configuration>

hdfs-site.xml

<configuration>
   <property>
       <name>dfs.namenode.name.dir</name>
       <value>/home/hadoop/hadoop/hadoop-3.1.1/dfs/name</value>
   </property>
   <property>
       <name>dfs.datanode.data.dir</name>
       <value>/home/hadoop/hadoop/hadoop-3.1.1/dfs/data</value>
   </property>
   <property>
       <name>dfs.http.address</name>
       <value>0.0.0.0:50070</value>
   </property>
   <property>
       <name>dfs.namenode.secondary.http-address</name>
       <value>master:9001</value>
   </property>
   <property>
   <name>dfs.webhdfs.enabled</name>
   <value>true</value>
   </property>
</configuration>

yarn-site.xml

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
       <value>master</value>
   </property>
   <property>
           <name>yarn.resourcemanager.webapp.address</name>
       <value>master:8088</value>
   </property>
   <property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
   </property>
</configuration>

hadoop-env.sh

在第54行處加入JAVA_HOME變量。

# The java implementation to use. By default, this environment
# variable is REQUIRED on ALL platforms except OS X!
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.b12-0.el7_5.x86_64/jre

workers
```
slave1

slave2
```

接下來，在/etc/profile.d下新建兩個腳本 jdk-1.8.sh 和 hadoop-3.1.1.sh 。

jdk-1.8.sh

# !/bin/sh
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.b12-0.el7_5.x86_64
export JRE_HOME=${JAVA_HOME}/jre
export PATH=${JRE_HOME}/bin:$PATH
(因為java是在$JAVA_HOME/jre/bin之中的，所以PATH中不是$JAVA_HOME而是$JRE_HOME)

hadoop-3.1.1.sh

#!/bin/sh
export HADOOP_HOME="/home/hadoop/hadoop/hadoop-3.1.1"
export PATH="$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH"
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

$ source /etc/profile

這樣每次服務(wù)器啟動，都會自動運(yùn)行這兩個腳本，設(shè)置好相關(guān)的環(huán)境變量。

格式化hdfs并開啟（在namenode上）
```
$ hdfs namenode -format
$ start-all.sh

```
成功的話，namenode中執(zhí)行jps命令會顯示4個進(jìn)程：
```
$ jps
11270 SecondaryNameNode
26747 Jps
11052 NameNode
11487 ResourceManager
```
datanode中執(zhí)行jps命令會顯示3個進(jìn)程：
```
$ jps
18468 DataNode
23029 Jps
18605 NodeManager
```
訪問namenode公網(wǎng)的8088端口，Active Nodes 顯示為2。

訪問namenode公網(wǎng)的50070端口，

完成。

如果namenode或者datanode在啟動時碰到問題，就使用對應(yīng)的機(jī)器進(jìn)入到其hadoop目錄下的logs文件夾中查看日志信息，再根據(jù)日志信息去解決問題。

注意一個問題：

如果你執(zhí)行了多次hdfs namenode -format，會出現(xiàn)datanode無法成功啟動的情況，此時50070頁面Live Nodes為0，8088頁面為2。

原因是該命令清空了hadoop目錄下dfs/data下的數(shù)據(jù)，但是對于datanode卻沒有，導(dǎo)致版本對不上號，解決辦法是：刪除datanode中dfs/data下的數(shù)據(jù)，重新啟動。不要隨意執(zhí)行namenode的format命令。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

阿里騰訊云 hadoop+spark集群搭建（1）