大數(shù)據(jù)hadoop生態(tài)體系之Hadoop簡介(6)

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),起源于Apache Nutch項(xiàng)目,始于2002年,是Apache Lucene的子項(xiàng)目之一。

Hadoop之父Doug Cutting及其團(tuán)隊(duì),在2004年受到google發(fā)布的論文Mapper Reduce的啟發(fā),結(jié)合NDFS,在Nutch引擎中有著良好的應(yīng)用,所以它們于2006年2月被分離出來,成為一套完整而獨(dú)立的軟件,并被命名為Hadoop。

Hadoop起源于谷歌的三篇論文(GFS、MapReduce、BigTable。

名字起源:Hadoop這個名字不是一個縮寫,而是一個虛構(gòu)的名字。該項(xiàng)目的創(chuàng)建者,Doug Cutting解釋Hadoop的得名 :“這個名字是我孩子給一個棕黃色的大象玩具命名的。我的命名標(biāo)準(zhǔn)就是簡短,容易發(fā)音和拼寫,沒有太多的意義,并且不會被用于別處。小孩子恰恰是這方面的高手?!?/p>

大數(shù)據(jù)的4V特征:

Volume(大量)

? ? ?截至目前,人類生產(chǎn)的所有印刷材料的數(shù)量是200PB,而歷史上全人類總共說過得話的數(shù)據(jù)量大約是5EB。當(dāng)前,典型個人計算機(jī)硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。

Velocity(高速)

? ? 這是大數(shù)據(jù)區(qū)于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報告,預(yù)計到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB,在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。

Variety(多樣)

? ??這種典型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便儲存的以數(shù)據(jù)庫/文本為主的結(jié)構(gòu)變化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等。這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求。

Value(低價值密度)

? ??價值密度的高低與數(shù)據(jù)總量的大小成反比。數(shù)據(jù)呈指數(shù)增長的同時,隱藏在海量數(shù)據(jù)的有用信息卻沒有相應(yīng)比例增長。恰恰相反,挖掘大數(shù)據(jù)的價值類似沙里淘金,從海量數(shù)據(jù)中挖掘稀疏珍貴的信息。例如,商場的監(jiān)控視頻,連續(xù)數(shù)小時的監(jiān)控過程中有可能有用的數(shù)據(jù)僅僅只有幾秒鐘。

hadoop的特點(diǎn):

高可靠性:Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。

高擴(kuò)展性:Hadoop是在可用的計算機(jī)集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴(kuò)展到數(shù)以千計的節(jié)點(diǎn)中。

高效性:Hadoop能夠在節(jié)點(diǎn)之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點(diǎn)的動態(tài)平衡,因此處理速度非???。

高容錯性:Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。

低成本:與一體機(jī)、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項(xiàng)目的軟件成本因此會大大降低。

大數(shù)據(jù)的主要應(yīng)用場景:

1:各大電商平臺個性化推薦(京東,淘寶);

2:根據(jù)上網(wǎng)軌跡,構(gòu)建用戶畫像,實(shí)現(xiàn)精準(zhǔn)推送(今日頭條,淘寶,京東)

3:海關(guān)歷年數(shù)據(jù)分析,決策輔助

4:醫(yī)療(對多年同專業(yè)數(shù)據(jù)進(jìn)行分析)

5:城市交通運(yùn)輸也

6:農(nóng)業(yè) 等

大數(shù)據(jù)的數(shù)據(jù)級別及換算:

換算基本都是以2的10次方來遞增的

1KiB(Kilobyte)=1024B ,即2的10次方字節(jié),讀音“千字節(jié)”

1MiB(Megabyte)=1024KiB,即2的20次方字節(jié),讀音“兆字節(jié)”

1GiB(Gigabyte)=1024MiB,即2的30次方字節(jié),讀音“吉字節(jié)”

1TiB(Terabyte)=1024GiB,即2的40次方字節(jié),讀音“太字節(jié)”

1PiB(Petabyte)=1024TiB,即2的50次方字節(jié),讀音“拍字節(jié)”

1EiB(Exabyte) =1024PiB,即2的60次方字節(jié),讀音“艾字節(jié)”

1ZiB(Zettabyte)=1024EiB,即2的70次方字節(jié),讀音“Z字節(jié)”

1YiB(Yottabyte)=1024ZiB,即2的80次方字節(jié),讀音“Y字節(jié)”

傳說中還有

1NiB(NonaByte)=1024YiB,即2的90次方字節(jié)

1DiB(DoggaByte)=1024NiB,即2的100次方字節(jié)

1CiB(Corydonbyte )=1024DiB,即2的110次方字節(jié)

Hadoop技術(shù)框架簡介:?

HDFS:Hadoop中的重要組件之一,用來做分布式存儲,具有高容錯,高吞吐等特性,是常用的分布式文件存儲

MR(MapReduce簡稱):Hadoop中的重要組件之一,作為分布式計算模型,程序人員只需在Mapper、Reducer中編寫業(yè)務(wù)邏輯,然后直接交由框架進(jìn)行分布式計算即可。

Yarn:Yarn是Hadoop中的重要組件之一,負(fù)責(zé)海量數(shù)據(jù)運(yùn)算時的資源調(diào)度

Flume: Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),用來做數(shù)據(jù)采集。

Kafka:分布式的消息發(fā)布/訂閱系統(tǒng),通過與Spark Streaming整合,完成實(shí)時業(yè)務(wù)計算。由Java+scala開發(fā)。

Hive/Pig:hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,通過將結(jié)構(gòu)化的數(shù)據(jù)文件(通常為HDFS文件)映射為一張數(shù)據(jù)表,提供簡單的sql查詢功能,將sql語句轉(zhuǎn)換為MapReduce任務(wù)運(yùn)行。

?pig可以看做hadoop的客戶端軟件,可以連接到hadoop集群進(jìn)行數(shù)據(jù)分析工作,企業(yè)中很少用了。

Hbase:HBase是建立在Hadoop文件系統(tǒng)之上的面向列的分布式數(shù)據(jù)庫。不同于一般的關(guān)系數(shù)據(jù)庫,適合于存儲非結(jié)構(gòu)化的數(shù)據(jù),HBase基于列而不是基于行。

Redis:Redis 可基于內(nèi)存也可以持久化的日志型、Key-Value數(shù)據(jù)庫。往往用來緩存key-value類型的小表數(shù)據(jù)。

Sqoop:負(fù)責(zé)數(shù)據(jù)在 ?HIVE---HDFS---DB之間進(jìn)行導(dǎo)入導(dǎo)出

Standalone:是Spark提供的資源管理器,

Mesos:也是Apache下的開源分布式資源管理器。

Spark:Spark是大規(guī)模數(shù)據(jù)快速處理通用的計算引擎,其提供大量的庫:Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX 。(只是計算,不作存儲)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容