如何學習Hadoop,面試Hadoop工程師有哪些問題? - 董飛的回答 - 知乎
https://www.zhihu.com/question/24965053/answer/29612377
作者:董飛鏈接:https://www.zhihu.com/question/24965053/answer/29612377來源:知乎著作權(quán)歸作者所有,轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)。
Hadoop 2.0轉(zhuǎn)型基本無可阻擋,今年下半年要正式發(fā)布了,它的出現(xiàn)讓大家知識體系都 要更新了。Hadoop1.0搞了8年才發(fā)布,2.0不到2年就出來了。2.0的核心是YARN,它的 誕生還是有趣的故事**
YARN介紹Yarn from Hortonworks**
Yarn from IBM developerworks**
Hadoop 生態(tài)系統(tǒng)Hadoop Ecosystem at a Glance**
SQL on HadoopSQL is what’s next for Hadoop: Here’s who’s doing it**
All SQL-on-Hadoop Solutions are missing the point of Hadoop**
Hadoop SummitHadoop Summit, San Jose**
書籍和Paper“Hadoop: The Definitive Guide”: 里面內(nèi)容非常好,既有高屋建瓴,又有微觀把握,基本適用于1.X版本。比如mapreduce各個子階段,Join在里面也有代碼實現(xiàn),第三版
Hadoop: The Definitive Guide, 3rd Edition**
tomwhite/hadoop-book · GitHub**
Google的三輛馬車,GFS, MapReduce, BigTable Google的新三輛馬車:Caffeine、Pregel、Dremel
Big Data beyond MapReduce: Google’s Big Data papers**
SIGMOD, VLDB Top DB conference
入門:知道MapReduce大致流程,Map, Shuffle, Reduce
知道Combiner, partition作用,設(shè)置Compression
搭建Hadoop集群,Master/Slave 都運行那些服務(wù) NameNode, DataNode, JobTracker, TaskTracker
Pig, Hive 簡單語法,UDF寫法
When to use Pig Latin versus Hive SQL?**
Online Feedback Publishing System**
Introduction to Apache Hive Online Training**
http://i.stanford.edu/~ragho/hive-icde2010.pdf**
Hadoop 2.0新知識; HDFS2 HA,Snapshot, ResourceManager,ApplicationsManager, NodeManager
進階:HDFS,Replica如何定位
Hadoop 參數(shù)調(diào)優(yōu),性能優(yōu)化,Cluster level: JVM, Map/Reduce Slots, Job level: Reducer #, Memory, use Combiner? use Compression?
7 Tips for Improving MapReduce Performance**
Hadoop Summit 2010 Tuning Hadoop To Deliver Performance To Your Application**
HBase 搭建,Region server, key如何選取?**
數(shù)據(jù)傾斜怎么辦?**
算法:字典同位詞
翻譯SQL語句 select count(x) from a group by b;
MapReduce Algorithms**
Designing algorithms for Map Reduce**
Blog關(guān)注Cloudera**, Hortonworks**, MapR
董的博客**
相關(guān)系統(tǒng)數(shù)據(jù)流系統(tǒng): Storm**
內(nèi)存計算系統(tǒng): Spark and Shark**
交互式實時系統(tǒng):Cloudera Impala, Apache Drill (Dremel開源實現(xiàn)),Tez (Hortonworks)
公司列表:Powered by**
其他Hadoop進化目標:開發(fā)部署傻瓜化,性能更強勁,最后為程序員標配。
核心都是被寡頭控制的,記得一邊文章說一流的公司賣標準,二流的公司賣技術(shù),三 流的公司賣產(chǎn)品,H和C有最多的committer,自然就影響著整個Hadoop社區(qū)。
技術(shù)就是日新月異,還是多看看那些公司的博客,關(guān)注感興趣的新產(chǎn)品,Hortonworks Stack**
在Hadoop系統(tǒng)中從頭裸寫MapReduce不現(xiàn)實了,ETL基本靠Hive,Pig, 還有Cascading**,Scalding**
MapReduce并不是最優(yōu)的,僅適合批處理,很多問題:JVM的啟動overhead很大,小 Job更明顯,數(shù)據(jù)必須先存儲,不適合迭代計算,延遲高。DB學術(shù)圈討論很久tradeoff 了,MapReduce: 一個巨大的倒退**