Hadoop數(shù)據(jù)分析平臺實戰(zhàn)——010hadoop介紹安裝

本課程目標(biāo)

本課程有以下幾個目標(biāo):

  1. 第一:對hadoop沒有了解的學(xué)員來說,可以幫助其了解在一般工作中hadoop的基本用法,以及對如何用hadoop有一定的了解。
  2. 第二:對hadoop有了解的學(xué)員來說,其一可以幫助學(xué)員加深對hadoop的了解,其二可以讓學(xué)員對hadoop的實際應(yīng)用場景有一個比較深入的了解。

Hadoop的主要應(yīng)用場景

這里說的hadoop指的是以hadoop為中心的hadoop生態(tài)圈。
場景1:數(shù)據(jù)分析平臺
場景2:推薦系統(tǒng)
場景3:業(yè)務(wù)系統(tǒng)的底層存儲系統(tǒng)
場景4:業(yè)務(wù)監(jiān)控系統(tǒng)
...............................

什么是數(shù)據(jù)分析平臺

數(shù)據(jù)分析的主要目標(biāo)是為公司提供一系列的網(wǎng)站指標(biāo),期望能夠幫助到運(yùn)維、技術(shù)等各個不同部門了解公司網(wǎng)站的情況。比如:當(dāng)一個網(wǎng)站的注冊方式修改后,我們發(fā)現(xiàn)訪客轉(zhuǎn)會員的比例降低了,那么我們可能就可以得出一個結(jié)論:“可能是用戶覺得這種注冊方式太麻煩而導(dǎo)致,不想注冊了?!?,這個時候我們可能就需要重新設(shè)計注冊頁面了。
數(shù)據(jù)分析這種平臺比較適合電商類的網(wǎng)站,其他類型的相比較而言對這種類型的平臺需求就低一點(diǎn)。主要原因是影響電商的主要因素有以下幾個:第一,訪客轉(zhuǎn)會員率;第二,會員留存率;第三,會員購買率(復(fù)購率)。

數(shù)據(jù)分析平臺主體架構(gòu)

數(shù)據(jù)分析平臺主體架構(gòu).png

數(shù)據(jù)平臺的最終產(chǎn)出

分析報表

Hadoop簡單介紹

Hadoop是apache基金會組織的一個頂級項目,
其核心為HDFS和MapReduce,HDFS為海量的數(shù)據(jù)提供存儲,而MapReduce為海量的數(shù)據(jù)提供計算,
官網(wǎng):http://hadoop.apache.org
在Apache Hadoop的基礎(chǔ)上,Cloudera公司將其進(jìn)行商業(yè)化改進(jìn)和更新,它的發(fā)行版本就是CDH(Cloudera Distribution Hadoop),
CDH官網(wǎng):http://www.cloudera.com。

hadoop2.5.0-cdh5.3.6
CDH4.x: http://archive.cloudera.com/cdh4/cdh/4/
CDH5.x: http://archive.cloudera.com/cdh5/cdh/5/
CDH5.3.6文檔:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.5.0-cdh5.3.6/
Apache Hadoop :http://archive.apache.org/dist/hadoop/common
Apache Hadoop文檔:http://hadoop.apache.org/docs

JDK下載地址 :http://www.oracle.com/technetwork/java/javase/archive-139210.html

Hadoop偽分布式環(huán)境搭建

安裝步驟:

1. 創(chuàng)建用戶,使用hadoop用戶
2. 修改主機(jī)名以及ssh免密碼登錄
3. jdk安裝
4. hadoop安裝

Hadoop環(huán)境搭建-創(chuàng)建用戶

步驟:(root用戶密碼為123456)

1. 使用useradd hadoop添加用戶
2. 使用passwd hadoop設(shè)置用戶密碼,密碼為abc123_
3. 給用戶賦予使用sudo命令的權(quán)限。
4. chmod u+w /etc/sudoers
6. vim /etc/sudoers
7. 在root ALL=(ALL) ALL下面加上一行hadoop ALL=(ALL) ALL。(分隔的是制表符)
8. chmod u-w /etc/sudoers
image.png
image.png
image.png

Hadoop環(huán)境搭建-修改主機(jī)名以及ssh免密碼登錄

步驟:(使用hadoop用戶登錄)

    1. 使用sudo hostname hh修改主機(jī)名,當(dāng)前生效,重啟后失效。
    2. 使用vim /etc/sysconfig/network修改主機(jī)名,重啟生效。
    3. 在/etc/hosts文件中添加主機(jī)名對于的ip地址。
    4. 使用ssh-keygen -t rsa生成ssh秘鑰。dsa
    5. 進(jìn)入.ssh文件夾,創(chuàng)建authorized_keys文件,并將id_rsa.pub的內(nèi)容添加到文件中去,修改文件權(quán)限為600(必須)。
    6. ssh hh驗證

SSH免密登錄教程http://www.itdecent.cn/p/8515c5602811

image.png
image.png

Hadoop環(huán)境搭建-JDK安裝

步驟:

1. 復(fù)制jdk壓縮包到softs文件夾中
2. 解壓tar -zxvf softs/jdk-7u79-linux-x64.tar.gz
3. 創(chuàng)建軟連接sudo ln -s /home/hadoop/bigdater/jdk1.7.0_79 /usr/local/jdk
4. 配置相關(guān)環(huán)境變量vim ~/.bash_profile: JAVA_HOME, CLASSPATH, PATH。全局生效配置文件/etc/profile。
5. 使環(huán)境變量生效 source ~/.bash_profile
7. 驗證java version/ javac version
image.png
image.png

Hadoop環(huán)境搭建-hadoop安裝

步驟:
1. 下載hadoop安裝包并復(fù)制到到softs文件夾中。
2. 解壓tar -zxvf softs/hadoop-2.5.0-cdh5.3.6.tar.gz,并創(chuàng)建數(shù)據(jù)保存文件hdfs(~/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/)。
3. 配置hadoop-env.sh mapred-env.sh yarn-env.sh文件
4. 配置基本環(huán)境變量core-site.xml文件
5. 配置hdfs相關(guān)變量hdfs-site.xml文件
7. 配置mapre相關(guān)環(huán)境變量mapred-site.xml文件
8. 配置yarn相關(guān)環(huán)境變量yarn-site.xml文件
9. 配置datanode相關(guān)變量slaves文件
10. 配置hadoop相關(guān)環(huán)境變量

image.png

Hadoop環(huán)境搭建-hadoop啟動

步驟:

1. 第一次啟動hadoop之前需要格式化namenode節(jié)點(diǎn),命令為hadoop namenode -format。
2. 兩種方式啟動start-all.sh或者start-hdfs.sh start-yarn.sh。
3. 查看是否啟動成功。

格式化提示信息

格式化提示信息.png

Hadoop環(huán)境搭建-驗證hadoop是否啟動成功

步驟:

1. 驗證hadoop是否啟動成功有兩種方式,第一種:通過jps命令查看hadoop的進(jìn)行是否啟動,第二種:查看web界面是否啟動顯示正常內(nèi)容。
 2. 驗證hadoop對應(yīng)的yarn(MapReduce)框架是否啟動成功:直接運(yùn)行hadoop自帶的example程序。

創(chuàng)建一個test.txt

echo "welcome to join us bjsxt 尚學(xué)堂 優(yōu)效學(xué)院 優(yōu)效聚名師 學(xué)習(xí)更有效" >> test.txt
hadoop dfs -put test.txt /
使用hadoop自帶的mapreduce程序驗證:/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar
將文件內(nèi)容添加上去后執(zhí)行:hadoop jar hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount /test.txt output/wordcount

執(zhí)行完成以后運(yùn)行 hadoop dfs -text output/wordcount/part-*

中途遇到了一個問題

hadoop Unhealthy Nodes問題解決
http://www.itdecent.cn/p/a01c0bf5dd6a
是磁盤空間不足導(dǎo)致的,清空回收站之后就好了,暈死

AlbertMP:mapreduce Albert$ hadoop dfs -text output/wordcount/part-*
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.

17/08/27 23:49:15 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
bjsxt   1
join    1
to  1
us  1
welcome 1
優(yōu)效學(xué)院    1
優(yōu)效聚名師   1
學(xué)習(xí)更有效   1
尚學(xué)堂 1

問題:

1.如果virtualbox無法選擇64位操作系統(tǒng)安裝,問題就是機(jī)器沒有開始cpu虛擬化。bios需要設(shè)置一些信息。參考網(wǎng)站:http://jingyan.baidu.com/article/8ebacdf0df465b49f65cd5d5.html

配置信息參考

第一步:配置hadoop-env.sh
    export JAVA_HOME=/usr/local/jdk
    export HADOOP_PID_DIR=/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/tmp
第二步:配置mapred-env.sh
    export HADOOP_MAPRED_PID_DIR=/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/tmp
第三步:配置yarn-env.sh
    export YARN_PID_DIR=/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/tmp
第四步:配置core-site.xml文件
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hh:8020</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/tmp</value>
    </property>
第五步:配置hdfs-site.xml文件
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/name</value>
    </property>
    <property>
        <name>dfs.namenode.data.dir</name>
        <value>/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/data</value>
    </property>
    <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
    </property>
第六步:創(chuàng)建mapred-site.xml文件,直接執(zhí)行命令cp mapred-site.xml.templete mapred-site.xml
第七步:配置mapred-site.xml文件
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
第八步:配置yarn-site.xml文件
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
第九步:配置slaves指定datanode節(jié)點(diǎn),將localhost改成主機(jī)名
第十步:修改環(huán)境變量文件".base_profile",并使其生效
    ###### hadoop 2.5.0
    export HADOOP_HOME=/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/
    export HADOOP_PREFIX=$HADOOP_HOME
    export HADOOP_COMMON_HOME=$HADOOP_PREFIX
    export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop
    export HADOOP_HDFS_HOME=$HADOOP_PREFIX
    export HADOOP_MAPRED_HOME=$HADOOP_PREFIX
    export HADOOP_YARN_HOME=$HADOOP_PREFIX
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容