[list]數(shù)據(jù)攝取--史上最全的“大數(shù)據(jù)”學(xué)習(xí)資源

史上最全的“大數(shù)據(jù)”學(xué)習(xí)資源(上)-博客-云棲社區(qū)-阿里云
https://yq.aliyun.com/articles/37308

數(shù)據(jù)攝取

Amazon Kinesis:大規(guī)模數(shù)據(jù)流的實(shí)時(shí)處理;
Apache Chukwa:數(shù)據(jù)采集系統(tǒng);
Apache Flume:管理大量日志數(shù)據(jù)的服務(wù);
Apache Kafka:分布式發(fā)布-
訂閱消息系統(tǒng);

Apache Sqoop:在Hadoop和結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)區(qū)之間傳送數(shù)據(jù)的工具;
Cloudera Morphlines:幫助 Solr

HBase

HDFS
完成
ETL
的框架;

Facebook Scribe:流日志數(shù)據(jù)聚合器;
Fluentd:采集事件和日志的工具;
Google Photon:實(shí)時(shí)連接多個(gè)數(shù)據(jù)流的分布式計(jì)算機(jī)系統(tǒng),具有高可擴(kuò)展性和低延遲性;
Heka:開源流處理軟件系統(tǒng);
HIHO:用Hadoop
連接不同數(shù)據(jù)源的框架;

Kestrel:分布式消息隊(duì)列系統(tǒng);
LinkedIn Databus:對(duì)數(shù)據(jù)庫更改捕獲的事件流;
LinkedIn Kamikaze:壓縮已分類整型數(shù)組的程序包;
LinkedIn White Elephant:日志聚合器和儀表板;
Logstash:用于管理事件和日志的工具;
Netflix Suro:像基于Chukwa 的Storm和Samza一樣的日志聚合器;
Pinterest Secor:是實(shí)現(xiàn)Kafka日志持久性的服務(wù);
Linkedin Gobblin:LinkedIn
的通用數(shù)據(jù)攝取框架;

Skizze:是一種數(shù)據(jù)存儲(chǔ)略圖,使用概率性數(shù)據(jù)結(jié)構(gòu)來處理計(jì)數(shù)、略圖等相關(guān)的問題;
StreamSets Data Collector:連續(xù)大數(shù)據(jù)采集的基礎(chǔ)設(shè)施,可簡(jiǎn)單地使用IDE
。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容