Hadoop 之 技術(shù)未來

Hadoop的未來如何,一個(gè)重要的影響因素是技術(shù)的更新和進(jìn)步。從最近幾年Hadoop和其他大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展,我們可以看出一些端倪。

數(shù)據(jù)存儲(chǔ) -- 前景樂觀

從文件存儲(chǔ)技術(shù)來看,HDFS穩(wěn)定而健壯,已然是海量文件存儲(chǔ)的實(shí)際標(biāo)準(zhǔn)。當(dāng)然也有一些分布式文件存儲(chǔ)技術(shù)值得關(guān)注,如GlusterFS, Tachyon等等。但對(duì)HDFS尚不構(gòu)成實(shí)質(zhì)性的威脅。


相比文件存儲(chǔ)的一家獨(dú)大,結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),目前呈現(xiàn)出的是百花齊放的局面。我們之前提到過,在Hadoop生態(tài)系統(tǒng)中,結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)最成熟的實(shí)現(xiàn)是HBase。你可以把它想象成更靈活,可擴(kuò)展性更強(qiáng)的MySQL。相比其他NoSQL數(shù)據(jù)庫(kù)如MongoDBCassandra的風(fēng)風(fēng)火火,HBase相對(duì)低調(diào)。但個(gè)人認(rèn)為HBase適用的范圍更廣,前景依然十分樂觀。對(duì)于NoSQL數(shù)據(jù)庫(kù),我就不展開討論了,有興趣的可以參考NoSQL精粹一書。

數(shù)據(jù)處理 -- 面臨挑戰(zhàn)

從數(shù)據(jù)處理來看,MapReduce已不再熱門。最本質(zhì)的原因是MapReduce的模型過于簡(jiǎn)單。其后果是使得編程十分困難。一個(gè)簡(jiǎn)單的word count程序也需要編寫很多MapReduce代碼。雖然有PigCascade等等更高層語(yǔ)言工具的支持,但MapReduce編程總是一件頭疼的事情。另外,簡(jiǎn)單地模型使得特定數(shù)據(jù)處理的性能優(yōu)化十分困難。特別是像機(jī)器學(xué)習(xí)這樣需要反復(fù)多遍處理數(shù)據(jù)的應(yīng)用,文件讀寫成為瓶頸。目前,Spark以其簡(jiǎn)單高效的特性,大有取代MapReduce,成為通用數(shù)據(jù)處理引擎之勢(shì)。當(dāng)然,Hadoop自己也推出了一些新的數(shù)據(jù)處理引擎,如MRv2(YARN)、Tez,但未來恐怕還是Spark的。

資源調(diào)配 -- 充滿機(jī)遇

老的MapReduce 的另一個(gè)問題是它的資源配給機(jī)制存在性能缺陷。為從根本上解決舊 MapReduce 框架的性能瓶頸,從 0.23.0 版本開始,Hadoop 的 MapReduce 框架完全重構(gòu)。新的 Hadoop MapReduce 框架命名為 MapReduceV2 或者叫 YARN。


雖然YARN是為了MapReduce而生的,但是它實(shí)際上也是一個(gè)獨(dú)立的資源管理框架,所以理論上YARN上可以運(yùn)行任何分布式應(yīng)用,YARN只是配給CPU,內(nèi)存等資源。實(shí)際上,Spark,Storm等非Hadoop系的應(yīng)用都支持在YARN的框架中運(yùn)行。這使得YARN成為Hadoop“招安”其他大數(shù)據(jù)應(yīng)用成為可能。當(dāng)然,YARN也不是穩(wěn)坐泰山,Mesos是一個(gè)不可忽視的競(jìng)爭(zhēng)者,Mesosphere很快就要發(fā)布他們的數(shù)據(jù)中心操作系統(tǒng),看看它的Demo就知道未來資源調(diào)配是這么回事了。


從Hadoop對(duì)文件存儲(chǔ)和資源調(diào)配支持的發(fā)展趨勢(shì),我們可以想象,未來Hadoop應(yīng)該像今天操作系統(tǒng)一樣,成為更底層的基礎(chǔ)設(shè)施。

結(jié)語(yǔ)

Hadoop作為大數(shù)據(jù)的平臺(tái)和生態(tài)系統(tǒng),已經(jīng)過了瘋漲期,步入穩(wěn)步理性增長(zhǎng)的階段。未來,和其他技術(shù)一樣,面臨著自身新陳代謝和周遭新技術(shù)的挑戰(zhàn)。開源社區(qū)能夠繁榮的不二法門是有更好的程序,更多人使用,更多人貢獻(xiàn),如此良性循環(huán)。希望Hadoop的持續(xù)繁榮,可以使各個(gè)領(lǐng)域的中小企業(yè)也能夠輕松愉快地處理海量的數(shù)據(jù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容