1.確保自己安裝好了docker
2.Ubuntu容器安裝JDK與Hadoop
下載ubuntu鏡像
$ docker pull ubuntu
啟動一個基礎(chǔ)Ubuntu鏡像的容器,掛載一個容器卷(volume),然后將 Hadoop的安裝包放入宿主機(jī)指定的目錄下。
# 宿主機(jī):/home/hadoop/build
$ ls
hadoop.tar.gz
啟動容器
docker run -it -v /home/hadoop/build:/root/build --name ubuntu ubuntu
更新apt源、安裝vim、安裝ssh、安裝JDK
#容器中
$ apt-get update
$ apt-get install vim
$ apt-get install ssh
$ apt-get install default-jdk
開啟sshd服務(wù)
$ /etc/init.d/ssh start
生成公私鑰對
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
測試能否無密碼連接localhost,如果需要輸入密碼,重新生成公私鑰對
$ ssh localhost
# 記得logout
編輯~/.bashrc文件,配置好java以及sshd自啟動
$ vim ~/.bashrc
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64/
export PATH=$PATH:$JAVA_HOME/bin
/etc/init.d/ssh start
進(jìn)入/root/build目錄
$ cd /root/build
$ ls
hadoop.tar.gz
# 安裝Hadoop
tar -zxvf hadoop.tar.gz -C /usr/local
到這里Haddoop已經(jīng)安裝完成,默認(rèn)配置成單機(jī)版本,可運(yùn)行如下命令進(jìn)行測試
$ cd /usr/local/hadoop-3.3.4
$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'
$ cat output/*
3.配置分布式Hadoop集群
打開hadoop_env.sh文件,修改JAVA_HOME、設(shè)置USER
$ cd /usr/local/hadoop-3.3.4/etc/hadoop
$ vim hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64/
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
打開core-site.xml,輸入以下內(nèi)容
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
然后再打開hdfs-site.xml輸入以下內(nèi)容
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/namenode_dir</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/datanode_dir</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
修改yarn-site.xml文件,輸入以下內(nèi)容
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>
輸入以下命令,獲得一個mapred-site.xml的template拷貝(不要修改文件內(nèi)容?。。?/p>
$ cp mapred-site.xml mapred-site.xml.template
至此,已經(jīng)完成分布式Hadoop的配置。
4.制作鏡像
我們將當(dāng)前容器制作成為一個鏡像
# 宿主機(jī)
$ docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
9cc679d7ddfe ubuntu "bash" 14 hours ago Up 8 minutes ubuntu
$ docker commit 9cc679d7ddfe ubuntu-hadoop:1.0
輸出所有鏡像查看是否保存成功
$ docker images
REPOSITORY TAG IMAGE ID CREATED SIZE
ubuntu-hadoop 1.0 6a1294a5a6bd 14 hours ago 2.26GB
5.啟動Hadoop集群
在三個終端上啟動三個ubuntu-hadoop鏡像,分別代表Hadoop集群中的master、slave01、slave02。通過-h標(biāo)志來指定每個容器的主機(jī)名,便于互相連通。
# 第一個終端
$ docker run -it -h master --name master ubuntu-hadoop:1.0
# 第二個終端
$ docker run -it -h slave01 --name slave01 ubuntu-hadoop:1.0
# 第三個終端
$ docker run -it -h slave02 --name slave02 ubuntu-hadoop:1.0
打開/etc/hosts可以查看本機(jī)的ip和主機(jī)名信息,得到三個容器的ip和主機(jī)地址:
172.17.0.2 master
172.17.0.3 slave01
172.17.0.4 slave02
再將我們得到的host信息加入到/etc/hosts中(三個容器都需要執(zhí)行這一步)
$ vim /etc/hosts
172.17.0.2 master
172.17.0.3 slave01
172.17.0.4 slave02
測試master能否無密碼連接到slave01和slave02
# master容器
ssh slave01
# 記得logout
ssh slave02
# 記得logout
配置master主機(jī)的workers文件,將自己和兩個slave寫進(jìn)去。
# master容器
$ cd /usr/local/hadoop-3.3.4/etc/hadoop
$ vim workers
slave01
slave02
master
至此,集群的配置完畢,接下來我們啟動集群
# master容器
$ cd /usr/local/hadoop-3.3.4
$ bin/hdfs namenode -format
$ sbin/start-all.sh



6.測試Hadoop集群
在HDFS上創(chuàng)建一個input目錄(本節(jié)操作均在master容器中)
$ ./bin/hdfs dfs -mkdir -p /user/hadoop/input
拷貝測試文件到input目錄
$ ./bin/hdfs dfs -put ./etc/hadoop/*.xml /user/hadoop/input
運(yùn)行測試程序
$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep /user/hadoop/input output 'dfs[a-z.]+'
查看結(jié)果
$ ./bin/hdfs dfs -cat output/*
1 dfsadmin
1 dfs.replication
1 dfs.namenode.name.dir
1 dfs.datanode.data.dir
