hadoop學(xué)習(xí)筆記之七:hadoop與Mongodb結(jié)合 - 陳華的博客 - ITeye技術(shù)網(wǎng)站
http://chenhua-1984.iteye.com/blog/2162576
mongodb是NoSQl領(lǐng)域里非常流行的一款非關(guān)系型數(shù)據(jù)庫(kù),提供了強(qiáng)大的分片存儲(chǔ)與查詢功能,用來做歷史數(shù)據(jù)(日志)存儲(chǔ)與查詢比較適合,本身也提供了mapreduce功能,但是并不是任何時(shí)候Mongodb的使用者都會(huì)使用分片功能,更大的可能是使用副本集的方式(有時(shí)候機(jī)器并不多),而Hadoop提供了HDFS和分布式計(jì)算的功能,我們可以利用hadoop的MapReduce來取代Mongodb的MapReduce,用Mongodb的副本集來取代Hadoop的HDFS,那么就有了Hadoop與Mongodb之間的連接器(adapter)mongo-hadoop-master項(xiàng)目(目前在github上課可以下載到)
MongoDB與Hadoop技術(shù)棧的整合應(yīng)用 - Tony_老七 - 博客頻道 - CSDN.NET
http://blog.csdn.net/tonylee0329/article/details/51648524
文章內(nèi)容比較適用于使用MongoDB作為后端業(yè)務(wù)數(shù)據(jù)庫(kù),使用hadoop平臺(tái)作為數(shù)據(jù)平臺(tái)的場(chǎng)景.
一般情況下當(dāng)數(shù)據(jù)相關(guān)的業(yè)務(wù)越來越多的時(shí)候,我們都不會(huì)選擇在mongo中進(jìn)行一些數(shù)據(jù)分析的事情.
更好的選擇是同步到數(shù)據(jù)倉(cāng)庫(kù)中統(tǒng)一處理供數(shù)據(jù)分析及數(shù)據(jù)挖掘,我們的之前選擇的是用mongoexport工具從secondary節(jié)點(diǎn)導(dǎo)出數(shù)據(jù).
后面再進(jìn)行一系列的數(shù)據(jù)處理的工作. 整個(gè)的pipeline這樣:
一般場(chǎng)景處理
[MongoDB secondary node]
–> [local filesystem] 使用mongoexport/js/MongoClient讀取數(shù)據(jù)
–> [數(shù)據(jù)存儲(chǔ)系統(tǒng)] 上傳/數(shù)據(jù)集成
–> [數(shù)據(jù)倉(cāng)庫(kù)] 數(shù)據(jù)清洗