阿里騰訊云 hadoop+spark集群搭建(1)

阿里騰訊云 hadoop+spark集群搭建(1)

linux版本: centos7

hadoop版本: 3.1.1

手上有三臺學(xué)生機(jī),完全沒動過的:一臺是阿里云服務(wù)器,兩臺是騰訊云。

用阿里云做namenode,騰訊云做datanode。

目標(biāo)是搭好hdfs和yarn,后面搭spark和hive。


  1. 更新和下載軟件包。安裝jdk 版本為1.8.0

    $ sudo yum -y update
    $ sudo yum install -y java-1.8.0-openjdk java-1.8.0-openjdk-devel.x86_64 net-tools rsync mlocate wget vim gcc zlib-dev openssl-devel sqlite-devel bzip2-devel python-devel 
    

    這里通過yum安裝的jdk路徑默認(rèn)是在 /usr/lib

    查找方法為:

    $ whereis java  
    (返回java: /usr/bin/java /usr/lib/java /etc/java....)
    $ ll /usr/bin/java  
    (返回/usr/bin/java -> /etc/alternatives/java,是軟鏈接)
    $ ll /etc/alternatives/java 
    (返回/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.b12-0.el7_5.x86_64/jre/bin/java)
    

    由于系統(tǒng)中可能有多版本的jdk,/etc/alternatives/java軟鏈接用于指定真正使用的jdk版本。

    /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.b12-0.el7_5.x86_64就是安裝的位置。

  2. 設(shè)置安全規(guī)則(針對namenode)

    上阿里云加入安全組規(guī)則,由于是作學(xué)習(xí)用,直接加入規(guī)則

    端口范圍: 1/65530  授權(quán)對象:0.0.0.0/0 
    
  3. 關(guān)閉防火墻

    $ sudo systemctl stop firewalld.service 
    $ sudo systemctl disable firewalld.service
    
  4. 修改hosts文件,這里要注意!

    阿里云namenode,其hosts如下:

    111.**.**.*8   slave1  (這里寫的是騰訊云服務(wù)器的外網(wǎng)IP)
    134.**.**.*16  slave2  (這里寫的是騰訊云服務(wù)器的外網(wǎng)IP)
    192.**.*.*12   master  (這里寫的是阿里云服務(wù)器的內(nèi)網(wǎng)IP)
    

    騰訊云的兩臺datanode,其hosts如下:

    39.**.2**.*2 master    (這里寫的是阿里云服務(wù)器的外網(wǎng)IP)
    172.**.*.9 slave1      (這里寫的是騰訊云服務(wù)器的外網(wǎng)IP)
    172.**.*.7 slave2       (這里寫的是騰訊云服務(wù)器的外網(wǎng)IP)
    
  5. 建立新用戶并賦予其權(quán)限

    $ adduser hadoop
    $ passwd hadoop
    (輸入hadoop用戶的密碼)
    $ su hadoop
    

    此時從root身份切換到hadoop。

  6. 設(shè)置ssh免密登陸

    每臺機(jī)器生成公私鑰,namenode把自己的公鑰拷到兩個datanode中。datanode把自己的公鑰拷到namenode中,并將可靠的公鑰信息寫入/.ssh/authorized_keys文件中。

  7. 下載hadoop并解壓縮,并建立所需文件夾

    $ curl -O https://www-us.apache.org/dist/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz
    $ mkdir hadoop
    $ tar -zxvf hadoop-3.1.1.tar.gz -C ~/hadoop/
    $ cd hadoop/hadoop-3.1.1
    <!--在Hadoop目錄下建立tmp、dfs文件夾,并在dfs文件夾下建立data和name-->
    <!--tmp用于存放緩存,dfs設(shè)置為hdfs信息的存放路徑-->
    $ mkdir tmp & mkdir dfs
    $ cd dfs
    $ mkdir data & mkdir name
    
  8. 配置文件與環(huán)境變量

    配置core-site.xml、hdfs-site.xml、yarn-site.xml、workers、hadoop-env.sh。

  • core-site.xml

    <configuration>
       <property>
           <name>fs.defaultFS</name>
           <value>hdfs://master:9000/</value>
       </property>
       <property>
            <name>hadoop.tmp.dir</name>
           <value>/home/hadoop/hadoop/hadoop-3.1.1/tmp/</value>
       </property>
    </configuration>
    
  • hdfs-site.xml

    <configuration>
       <property>
           <name>dfs.namenode.name.dir</name>
           <value>/home/hadoop/hadoop/hadoop-3.1.1/dfs/name</value>
       </property>
       <property>
           <name>dfs.datanode.data.dir</name>
           <value>/home/hadoop/hadoop/hadoop-3.1.1/dfs/data</value>
       </property>
       <property>
           <name>dfs.http.address</name>
           <value>0.0.0.0:50070</value>
       </property>
       <property>
           <name>dfs.namenode.secondary.http-address</name>
           <value>master:9001</value>
       </property>
       <property>
       <name>dfs.webhdfs.enabled</name>
       <value>true</value>
       </property>
    </configuration>
    
  • yarn-site.xml

    <configuration>
        <property>
            <name>yarn.resourcemanager.hostname</name>
           <value>master</value>
       </property>
       <property>
               <name>yarn.resourcemanager.webapp.address</name>
           <value>master:8088</value>
       </property>
       <property>
           <name>yarn.nodemanager.aux-services</name>
           <value>mapreduce_shuffle</value>
       </property>
    </configuration>
    
  • hadoop-env.sh

    在第54行處加入JAVA_HOME變量。

    # The java implementation to use. By default, this environment
    # variable is REQUIRED on ALL platforms except OS X!
    export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.b12-0.el7_5.x86_64/jre
    
  • workers

    slave1
    
    slave2
    

接下來,在/etc/profile.d下新建兩個腳本 jdk-1.8.shhadoop-3.1.1.sh 。

  • jdk-1.8.sh

    # !/bin/sh
    export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.b12-0.el7_5.x86_64
    export JRE_HOME=${JAVA_HOME}/jre
    export PATH=${JRE_HOME}/bin:$PATH
    (因為java是在$JAVA_HOME/jre/bin之中的,所以PATH中不是$JAVA_HOME而是$JRE_HOME)
    
  • hadoop-3.1.1.sh

    #!/bin/sh
    export HADOOP_HOME="/home/hadoop/hadoop/hadoop-3.1.1"
    export PATH="$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH"
    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
    
$ source /etc/profile 

這樣每次服務(wù)器啟動,都會自動運(yùn)行這兩個腳本,設(shè)置好相關(guān)的環(huán)境變量。

  1. 格式化hdfs并開啟(在namenode上)

    $ hdfs namenode -format
    $ start-all.sh
    <!-- 啟動... -->
    

    成功的話,namenode中執(zhí)行jps命令會顯示4個進(jìn)程:

    $ jps
    11270 SecondaryNameNode
    26747 Jps
    11052 NameNode
    11487 ResourceManager
    

    datanode中執(zhí)行jps命令會顯示3個進(jìn)程:

    $ jps
    18468 DataNode
    23029 Jps
    18605 NodeManager
    

    訪問namenode公網(wǎng)的8088端口,Active Nodes 顯示為2。

    訪問namenode公網(wǎng)的50070端口,

    完成。


如果namenode或者datanode在啟動時碰到問題,就使用對應(yīng)的機(jī)器進(jìn)入到其hadoop目錄下的logs文件夾中查看日志信息,再根據(jù)日志信息去解決問題。

注意一個問題:

如果你執(zhí)行了多次hdfs namenode -format,會出現(xiàn)datanode無法成功啟動的情況,此時50070頁面Live Nodes為0,8088頁面為2。

原因是該命令清空了hadoop目錄下dfs/data下的數(shù)據(jù),但是對于datanode卻沒有,導(dǎo)致版本對不上號,解決辦法是:刪除datanode中dfs/data下的數(shù)據(jù),重新啟動。不要隨意執(zhí)行namenode的format命令。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 一、系統(tǒng)參數(shù)配置優(yōu)化 1、系統(tǒng)內(nèi)核參數(shù)優(yōu)化配置 修改文件/etc/sysctl.conf,添加如下配置,然后執(zhí)行s...
    張偉科閱讀 3,923評論 0 14
  • 1 目的將hadoop 2.7.1 安裝到 166、167、168 三臺機(jī)器上2 提供環(huán)境練習(xí)環(huán)境192.168....
    灼灼2015閱讀 3,635評論 4 40
  • 看到題目有沒有一種高大上的感覺?毛線,當(dāng)前是個人、是個公司都在說自己搞大數(shù)據(jù),每天沒有幾個PB的數(shù)據(jù)入庫,每天沒有...
    丁小晶的晶小丁閱讀 4,647評論 0 50
  • 25 持久的革命 19世紀(jì) 我們所謂的傳統(tǒng)中斷是法國大革命時期的特色,它必然改變藝術(shù)家生活 和工作的整個處境。19...
    季玫閱讀 530評論 0 0
  • 行善的人,心安氣順,宛若人天;雖然行善,但心生嫉妒,宛若修羅;無慚無愧,無羞無恥,便是畜牲;貪心熾盛,毫無厭足,便...
    深林小兮閱讀 553評論 0 0

友情鏈接更多精彩內(nèi)容