個人感覺一篇很不錯的文章-----《Hadoop核心技術》作者翟周偉 :我與Hadoop的不解之緣 - 似水流年 - CSDN博客 http://blog.csdn.net/xiaoshunzi111/article/details/49075715
Hadoop發(fā)展現(xiàn)狀、特性及發(fā)展前景
CSDN:你怎么看待國內(nèi)外的Hadoop發(fā)展現(xiàn)狀?可否預測下Hadoop未來的發(fā)展前景?
翟周偉:目前Hadoop可以說是已經(jīng)成為工業(yè)界大數(shù)據(jù)領域的事實標準,在國外主要以Yahoo、Facebook、EBay、IBM等為代表;在國內(nèi)則以百度、騰訊、阿里等互聯(lián)網(wǎng)公司為主。而Hadoop作為開源軟件,這些大公司的使用和改進迭代進而又完善并推動Hadoop的進一步發(fā)展,因此Hadoop的發(fā)展是離不開這些互聯(lián)網(wǎng)公司的使用,從本質(zhì)上看還是因為互聯(lián)網(wǎng)的快速發(fā)展導致了海量數(shù)據(jù)的分布式存儲和計算需求,而Hadoop正是為這樣的需求提供了非常好的解決方案。
對于Hadoop的發(fā)展前景我從以下幾個方面談談:
第一個方向就是統(tǒng)一資源管理與調(diào)度方向,目前各大互聯(lián)網(wǎng)公司商用的Hadoop集群還是以Hadoop-1.X版本為主,Hadoop-1.X版本的有效性和穩(wěn)定性已經(jīng)得到驗證,但是Hadoop-1.X也存在很多問題,例如資源分配以槽位為基本單元,沒有考慮到應用實際需要的內(nèi)存,CPU等資源;還有就是Hadoop-1.X僅僅只支持MapReduce模型,計算資源利用率不高,一個MR任務只能包含一個map和一個reduce任務,而實際需求往往是一個DAG任務。針對這些問題社區(qū)版Hadoop-2.X提出了YARN框架,在資源管理層來解決這些問題,同時各大商用發(fā)行版以及互聯(lián)網(wǎng)公司也提出類似的框架來解決Hadoop-1.X中的問題。
第二個發(fā)展方向就是Hadoop高可用性解決方案,目前的Hadoop還是單Master節(jié)點設計,因此集群的規(guī)模受到主節(jié)點的硬件配置限制,同時可靠性上存在單點故障(SPOF )問題,這一點目前各大Hadoop商業(yè)發(fā)行版以及各大互聯(lián)網(wǎng)公司都在研發(fā)多Master節(jié)點設計的解決方案,因此也是未來重點方向。
第三個發(fā)展方向就是Hadoop生態(tài)系統(tǒng)集成,目前Hadoop已經(jīng)發(fā)展為一個完備的生態(tài)系統(tǒng),這個生態(tài)系統(tǒng)最底層以HDFS和MapReduce為核心,上層為各種存儲,計算,分析等應用系統(tǒng),如何將這些系統(tǒng)很好的集成起來形成一個類似完善的分布式操作系統(tǒng)和云計算應用系統(tǒng)是一個非常誘人的發(fā)展方向。
第四點就是靈活性上,目前的Hadoop為用戶提供了非常便利的并行計算框架,但是這個框架本身的流程過于復雜,用戶實際的需求往往很簡單,例如Hadoop中在map的輸出和reduce的輸入都需要進行排序,而實際上并不是所有的任務都需要排序,因此對于那些不需要排序的應用就會造成資源的浪費又消耗了時間。如果可以提供是否配需的可控制參數(shù)就可以很好的解決類似的問題。因此Hadoop的靈活性上也是一個發(fā)展方向。
CSDN:給學習Hadoop集群方面的開發(fā)者分享些經(jīng)驗吧。
翟周偉:首先搞清楚什么是Hadoop以及Hadoop可以用來做什么,可以查閱相關網(wǎng)站介紹或者Hadoop綜述相關論文文獻資料等。
然后,可以從最經(jīng)典的詞頻統(tǒng)計程序開始,初步了解MapReduce的基本思路和處理數(shù)據(jù)的方式。這里建議大家直接瀏覽Hadoop的官方網(wǎng)站上WiKi文章,并按照WiKi一步一步完成實例的理解和學習。
接著,就可以正式學習Hadoop的基本原理,包括HDFS和MapReduce,先從整體,宏觀核心原理看,先別看源碼級別。建議這塊先閱讀Google的相關兩篇核心論文:《The Google File System》、《MapReduce: Simplied Data Processing on Large Clusters》;進一步,就可以深入HDFS、MapReduce和模塊細節(jié),這個時候可以結合源碼深入理解,以及實現(xiàn)機制。
最后就是需要實戰(zhàn)了,可以結合自己的項目或者相關需求來完成一些Hadoop相關應用,建議一些比較經(jīng)典的Hadoop英文原版技術相關叢書:《Hadoop TheDefinitive Guide》、《Hadoop inAction》、《Pro Hadoop》,以及我新出版的《Hadoop核心技術》。