Hadoop2與Hadoop3相比較有哪些新功能?

在這篇文章中,我們將討論Hadoop 2.x與Hadoop 3.x之間的比較。?Hadoop3版本中添加了哪些新功能,Hadoop3中兼容的Hadoop 2程序,Hadoop 2和Hadoop 3有什么區(qū)別?我們希望Hadoop 2和Hadoop 3之間的這個(gè)功能的區(qū)別將幫助回答上述問題。


Hadoop 2.x與Hadoop 3.x之間的功能比較

本節(jié)將講述Hadoop 2.x與Hadoop 3.x之間的22個(gè)差異。現(xiàn)在讓我們逐一討論

1.License

adoop 2.x - Apache 2.0,開源

Hadoop 3.x - Apache 2.0,開源

2.支持的最低Java版本

Hadoop 2.x - java的最低支持版本是java 7

Hadoop 3.x - java的最低支持版本是java 8

3.容錯(cuò)

Hadoop 2.x - 可以通過復(fù)制(浪費(fèi)空間)來處理容錯(cuò)。

Hadoop 3.x - 可以通過Erasure編碼處理容錯(cuò)。

4.數(shù)據(jù)平衡

Hadoop 2.x - 對(duì)于數(shù)據(jù),平衡使用HDFS平衡器。

Hadoop 3.x - 對(duì)于數(shù)據(jù),平衡使用Intra-data節(jié)點(diǎn)平衡器,該平衡器通過HDFS磁盤平衡器CLI調(diào)用。

5.存儲(chǔ)Scheme

Hadoop 2.x - 使用3X副本Scheme

Hadoop 3.x - 支持HDFS中的擦除編碼。

6.存儲(chǔ)開銷

Hadoop 2.x - HDFS在存儲(chǔ)空間中有200%的開銷。

Hadoop 3.x - 存儲(chǔ)開銷僅為50%。

7.存儲(chǔ)開銷示例

Hadoop 2.x - 如果有6個(gè)塊,那么由于副本方案(Scheme),將有18個(gè)塊占用空間。

Hadoop 3.x - 如果有6個(gè)塊,那么將有9個(gè)塊空間,6塊block,3塊用于奇偶校驗(yàn)。

8.YARN時(shí)間線服務(wù)

Hadoop 2.x - 使用具有可伸縮性問題的舊時(shí)間軸服務(wù)。

Hadoop 3.x - 改進(jìn)時(shí)間線服務(wù)v2并提高時(shí)間線服務(wù)的可擴(kuò)展性和可靠性。

9.默認(rèn)端口范圍

Hadoop 2.x - 在Hadoop 2.0中,一些默認(rèn)端口是Linux臨時(shí)端口范圍。所以在啟動(dòng)時(shí),他們將無法綁定。

Hadoop 3.x - 但是在Hadoop 3.0中,這些端口已經(jīng)移出了短暫的范圍。

10.工具

Hadoop 2.x - 使用Hive,pig,Tez,Hama,Giraph和其他Hadoop工具。

Hadoop 3.x - 可以使用Hive,pig,Tez,Hama,Giraph和其他Hadoop工具。

11.兼容的文件系統(tǒng)

Hadoop 2.x - HDFS(默認(rèn)FS),F(xiàn)TP文件系統(tǒng):它將所有數(shù)據(jù)存儲(chǔ)在可遠(yuǎn)程訪問的FTP服務(wù)器上。Amazon S3(簡(jiǎn)單存儲(chǔ)服務(wù))文件系統(tǒng)Windows Azure存儲(chǔ)Blob(WASB)文件系統(tǒng)。

Hadoop 3.x - 它支持所有前面以及Microsoft Azure Data Lake文件系統(tǒng)。

12.Datanode資源

Hadoop 2.x - Datanode資源不專用于MapReduce,我們可以將它用于其他應(yīng)用程序。

Hadoop 3.x - 此處數(shù)據(jù)節(jié)點(diǎn)資源也可用于其他應(yīng)用程序。

13.MR API兼容性

Hadoop 2.x - 與Hadoop 1.x程序兼容的MR API,可在Hadoop 2.X上執(zhí)行

Hadoop 3.x - 此處,MR API與運(yùn)行Hadoop 1.x程序兼容,以便在Hadoop 3.X上執(zhí)行

14.支持Microsoft Windows

Hadoop 2.x - 它可以部署在Windows上。

Hadoop 3.x - 它也支持Microsoft Windows。

15.插槽/容器

Hadoop 2.x - Hadoop 1適用于插槽的概念,但Hadoop 2.X適用于容器的概念。通過容器,我們可以運(yùn)行通用任務(wù)。

Hadoop 3.x - 它也適用于容器的概念。

16.單點(diǎn)故障

Hadoop 2.x - 具有SPOF的功能,因此只要Namenode失敗,它就會(huì)自動(dòng)恢復(fù)。

Hadoop 3.x - 具有SPOF的功能,因此只要Namenode失敗,它就會(huì)自動(dòng)恢復(fù),無需人工干預(yù)就可以克服它。

17.HDFS聯(lián)盟

Hadoop 2.x - 在Hadoop 1.0中,只有一個(gè)NameNode來管理所有Namespace,但在Hadoop 2.0中,多個(gè)NameNode用于多個(gè)Namespace。

Hadoop 3.x - Hadoop 3.x還有多個(gè)名稱空間用于多個(gè)名稱空間。

18.可擴(kuò)展性

Hadoop 2.x - 我們可以擴(kuò)展到每個(gè)群集10,000個(gè)節(jié)點(diǎn)。

Hadoop 3.x - 更好的可擴(kuò)展性。我們可以為每個(gè)群集擴(kuò)展超過10,000個(gè)節(jié)點(diǎn)。

19.更快地訪問數(shù)據(jù)

Hadoop 2.x - 由于數(shù)據(jù)節(jié)點(diǎn)緩存,我們可以快速訪問數(shù)據(jù)。

Hadoop 3.x - 這里也通過Datanode緩存我們可以快速訪問數(shù)據(jù)。

20.HDFS快照

Hadoop 2.x - Hadoop 2增加了對(duì)快照的支持。它為用戶錯(cuò)誤提供災(zāi)難恢復(fù)和保護(hù)。

Hadoop 3.x - Hadoop 2也支持快照功能。

21.平臺(tái)

Hadoop 2.x - 可以作為各種數(shù)據(jù)分析的平臺(tái),可以運(yùn)行事件處理,流媒體和實(shí)時(shí)操作。

Hadoop 3.x - 這里也可以在YARN的頂部運(yùn)行事件處理,流媒體和實(shí)時(shí)操作。

22.群集資源管理

Hadoop 2.x - 對(duì)于群集資源管理,它使用YARN。它提高了可擴(kuò)展性,高可用性,多租戶。

Hadoop 3.x - 對(duì)于集群,資源管理使用具有所有功能的YARN。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 在這篇文章中,我們將討論Hadoop 2.x與Hadoop 3.x之間的比較。 Hadoop3版本中添加了哪些新功...
    尚學(xué)先生閱讀 13,296評(píng)論 1 12
  • Zookeeper用于集群主備切換。 YARN讓集群具備更好的擴(kuò)展性。 Spark沒有存儲(chǔ)能力。 Spark的Ma...
    Yobhel閱讀 7,602評(píng)論 0 34
  • 【什么是大數(shù)據(jù)、大數(shù)據(jù)技術(shù)】 大數(shù)據(jù),又稱巨量資料,指的是所涉及的數(shù)據(jù)資料量規(guī)模巨大到無法在合理時(shí)間內(nèi)通過傳統(tǒng)的應(yīng)...
    kimibob閱讀 2,901評(píng)論 0 51
  • 翻譯: http://hadoop.apache.org/docs/stable/hadoop-project-d...
    金剛_30bf閱讀 544評(píng)論 0 0
  • 1.簡(jiǎn)介 Hadoop是一款開源的大數(shù)據(jù)通用處理平臺(tái),其提供了分布式存儲(chǔ)和分布式離線計(jì)算,適合大規(guī)模數(shù)據(jù)、流式數(shù)據(jù)...
    哦00閱讀 945評(píng)論 0 0

友情鏈接更多精彩內(nèi)容