史上最全的“大數(shù)據(jù)”學(xué)習(xí)資源(上)-博客-云棲社區(qū)-阿里云
https://yq.aliyun.com/articles/37308
數(shù)據(jù)攝取
Amazon Kinesis:大規(guī)模數(shù)據(jù)流的實(shí)時(shí)處理;
Apache Chukwa:數(shù)據(jù)采集系統(tǒng);
Apache Flume:管理大量日志數(shù)據(jù)的服務(wù);
Apache Kafka:分布式發(fā)布-
訂閱消息系統(tǒng);
Apache Sqoop:在Hadoop和結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)區(qū)之間傳送數(shù)據(jù)的工具;
Cloudera Morphlines:幫助 Solr
、
HBase
和
HDFS
完成
ETL
的框架;
Facebook Scribe:流日志數(shù)據(jù)聚合器;
Fluentd:采集事件和日志的工具;
Google Photon:實(shí)時(shí)連接多個(gè)數(shù)據(jù)流的分布式計(jì)算機(jī)系統(tǒng),具有高可擴(kuò)展性和低延遲性;
Heka:開源流處理軟件系統(tǒng);
HIHO:用Hadoop
連接不同數(shù)據(jù)源的框架;
Kestrel:分布式消息隊(duì)列系統(tǒng);
LinkedIn Databus:對(duì)數(shù)據(jù)庫更改捕獲的事件流;
LinkedIn Kamikaze:壓縮已分類整型數(shù)組的程序包;
LinkedIn White Elephant:日志聚合器和儀表板;
Logstash:用于管理事件和日志的工具;
Netflix Suro:像基于Chukwa 的Storm和Samza一樣的日志聚合器;
Pinterest Secor:是實(shí)現(xiàn)Kafka日志持久性的服務(wù);
Linkedin Gobblin:LinkedIn
的通用數(shù)據(jù)攝取框架;
Skizze:是一種數(shù)據(jù)存儲(chǔ)略圖,使用概率性數(shù)據(jù)結(jié)構(gòu)來處理計(jì)數(shù)、略圖等相關(guān)的問題;
StreamSets Data Collector:連續(xù)大數(shù)據(jù)采集的基礎(chǔ)設(shè)施,可簡(jiǎn)單地使用IDE
。