
說到Hadoop的起源,不得不說到一個傳奇的IT公司—全球IT技術的引領者Google。Google(自稱)為云計算概念的提出者,在自身多年的搜索引擎業(yè)務中構建了突破性的GFS(Google File System),從此文件系統(tǒng)進入分布式時代。除此之外,Google在GFS上如何快速分析和處理數(shù)據(jù)方面開創(chuàng)了MapReduce并行計算框架,讓以往的高端服務器計算變?yōu)榱畠r的x86集群計算,也讓許多互聯(lián)網(wǎng)公司能夠從IOE(IBM小型機、Oracle數(shù)據(jù)庫以及EMC存儲)中解脫出來,例如:淘寶早就開始了去IOE化的道路。然而,Google之所以偉大就在于獨享技術不如共享技術,在2002-2004年間以三大論文的發(fā)布向世界推送了其云計算的核心組成部分GFS、MapReduce以及BigTable。Google雖然沒有將其核心技術開源,但是這三篇論文已經(jīng)向開源社區(qū)的大牛們指明了方向,一位大牛:Doug Cutting使用Java語言對Google的云計算核心技術(主要是GFS和MapReduce)做了開源的實現(xiàn)。后來,Apache基金會整合Doug Cutting以及其他IT公司(如Facebook等)的貢獻成果,開發(fā)并推出了Hadoop生態(tài)系統(tǒng)。Hadoop是一個搭建在廉價PC上的分布式集群系統(tǒng)架構,它具有高可用性、高容錯性和高可擴展性等優(yōu)點。由于它提供了一個開放式的平臺,用戶可以在完全不了解底層實現(xiàn)細節(jié)的情形下,開發(fā)適合自身應用的分布式程序。