Mapreduice:
理解:
大數(shù)據(jù)并行處理的計(jì)算模型。
用途:
為保證數(shù)據(jù)處理速度,大數(shù)據(jù)處理部分用這個(gè)模型去做。
Elasticsearch:
理解:
Elasticsearch是提供持久存儲、統(tǒng)計(jì)等多項(xiàng)功能的現(xiàn)代搜索引擎。
用途:
可以用它來存儲已經(jīng)算好,或者不需要去更新的數(shù)據(jù),主要用它做數(shù)據(jù)查詢。
Hive:
理解:
構(gòu)建在基于靜態(tài)批處理的Hadoop之上,基于MapReduce任務(wù)實(shí)現(xiàn)大數(shù)據(jù)集的批處理作業(yè)。
用途:
大數(shù)據(jù)處理基于這個(gè)數(shù)據(jù)庫去做大量結(jié)構(gòu)化數(shù)據(jù)的離線分析、多維度離線數(shù)據(jù)分析,存儲離線的日志信息供后續(xù)定位、分析使用。
MongoDB:
理解:
基于分布式文件存儲的非關(guān)系數(shù)據(jù)庫。
用途:
可以用它來做web網(wǎng)站實(shí)時(shí)結(jié)構(gòu)化數(shù)據(jù)緩存。
Redis:
理解:
高性能的key-value數(shù)據(jù)庫。
用途:
可以用它來做web網(wǎng)站非結(jié)構(gòu)化數(shù)據(jù)的緩存。也可以用于高性能的任務(wù)隊(duì)列。
Mysql:
理解:
web服務(wù)最好用的RDBMS
用途:
用它來存儲量級不是很大的網(wǎng)站數(shù)據(jù),例如用戶數(shù)據(jù),會員等級數(shù)據(jù),用戶的登錄、操作日志數(shù)據(jù)。
Kafka:
理解:
一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),每秒可以處理幾十萬條消息,延遲低,支持?jǐn)?shù)千個(gè)客戶端同時(shí)讀寫,支持熱擴(kuò)展
用途:
1. 服務(wù)日志收集
2. 用作消息隊(duì)列,例如爬蟲抓取完的數(shù)據(jù)存到kafka,數(shù)據(jù)處理從kafka獲取數(shù)據(jù)進(jìn)行后續(xù)處理。
3. 榜單數(shù)據(jù)收集,每次打開榜單頁,可直接從kafka從頭到尾按順序讀出榜單數(shù)據(jù)
4. 用戶活動跟蹤,記錄用戶活動行為
5. 運(yùn)營監(jiān)控?cái)?shù)據(jù)的存儲
6. 流式處理的數(shù)據(jù)存儲
memcache:
理解:
基于多線程的key-value數(shù)據(jù)庫。
用途:
暫時(shí)用不到,redis就夠了。
Hbase:
理解:
可以理解為能存更多數(shù)據(jù),擴(kuò)展更容易,大數(shù)據(jù)量頻繁操作成本更低的redis
用途:
暫時(shí)用不到,數(shù)據(jù)量級沒那么大。
Spark:
理解:
Spark是大規(guī)模數(shù)據(jù)處理的通用框架
用途:
可以和kafka配合使用,做流式處理和機(jī)器學(xué)習(xí)。