- 大數(shù)據(jù)的4V特征
數(shù)據(jù)規(guī)模巨大(Volume)、數(shù)據(jù)類型多樣(Variety)、生成和處理速度極快(Velocity)、價格巨大但密度較低(Value) - 應(yīng)用
1.基于大數(shù)據(jù)的數(shù)據(jù)倉庫的數(shù)據(jù)流轉(zhuǎn)
來源更多(網(wǎng)路爬蟲、傳感器等等),數(shù)據(jù)量也更大。數(shù)據(jù)產(chǎn)生接入過來,存儲在分布式的集群當(dāng)中,然后再通過MapReduce(或者替換其他的計算框架)計算,存儲以及計算都是一些分布式架構(gòu)
2.基于大數(shù)據(jù)的實時流處理
實時流處理。傳統(tǒng)場景也有,它是通過實時庫來解決,價格昂貴且單一。大數(shù)據(jù)場景下,我們往往通過kafka來收集數(shù)據(jù),首先kafka構(gòu)建起來成本會低很多,并且對于各種不同來源數(shù)據(jù)接入都沒有太多問題,包括數(shù)據(jù)的高可用性、讀寫性能支持都非常好,數(shù)據(jù)收集之后,通過像開源Storm、SparkStreaming以及我們的SlipStream進行實時分析,最終結(jié)果以圖形化方式展示。 - 大數(shù)據(jù)編年史
HDFS、MapReduce構(gòu)成了Hadoop,隨著Hadoop的不斷發(fā)展,延伸出像在易用性方面SQL框架支持的Hive、以及高可用性NameNode HA、擴展性Yarn等不同的方面,Hadoop都有很大的提升。
但是隨著時間推移Hadoop技術(shù)也暴露出一些弊端或者不足,如MapReduce在性能、以及像迭代計算等方面不足,此時Spark應(yīng)運而生,他推出了內(nèi)存計算的思路,逐漸代替MapReduce成為運行于Hadoop之上的核心項目,在2014成為Apache頂級項目。并且星環(huán)是在2013年也宣布推出了我們的大數(shù)據(jù)平臺,區(qū)別于CDH,我們不僅僅是簡單的將各種開源產(chǎn)品做了整合,而是有很多自主研發(fā)的部分。例如,底層引擎方面團隊很有前瞻性的選擇了Spark,而非MapReduce;開發(fā)接口上,我們提供一套非常豐富的SQL接口,而非Java、Python、Scala等方式,在項目遷移、開發(fā)成本、項目管控等上邊優(yōu)勢顯而易見;除基本數(shù)據(jù)分析外,目前對于像機器學(xué)習(xí)、人工智能等內(nèi)容,都在不斷的研發(fā)新的產(chǎn)品出來,并且可以以插件的方式方便的整合在平臺上穩(wěn)定運行。講到這邊,大概整理一下,到目前為止整個大數(shù)據(jù)技術(shù)的一個發(fā)展,從03年早期Google開源論文的推出,拉開了大數(shù)據(jù)的帷幕,Doug Cutting基于論文推出了Hadoop后,并在08年正式成為Apache頂級項目,一直到14年Spark代替MapReduce成為大數(shù)據(jù)中更加主流的分析引擎。期間,各個技術(shù)在高可用性、性能上等方面不斷優(yōu)化,各商業(yè)公司像Cloudera、我們星環(huán)團隊,都在各開源技術(shù)之上推出了更友好的平臺方案支持。 - 大數(shù)據(jù)技術(shù)體系
image.png
HDFS 分布式文件系統(tǒng) 高容錯、高可用、高擴展、簡單一致性模型、流式數(shù)據(jù)訪問、大規(guī)模數(shù)據(jù)集合、構(gòu)建成本低且安全可靠
MapReduce 面向批處理的分布式計算框架,核心思想為分布式計算+移動計算。特點是高容錯、高擴展,適用于海量數(shù)據(jù)的離線批處理
YARN 另類資源管理組件,專注集群的資源管理和作業(yè)調(diào)度,解決Hadoop 1.0版本MapReduce的先天缺陷,高可用、高擴展,適用各種計算框架如:MapReduce+Spark
Spark逐漸代替MapReduce成為Hadoop之上高效的計算引擎
image.png
Hive Hive是構(gòu)建在Hadoop/HBase之上的數(shù)據(jù)倉庫,用于分析結(jié)構(gòu)化海量數(shù)據(jù)。這邊需要大家注意Hive的一個定義他是一個數(shù)據(jù)倉庫而非數(shù)據(jù)庫,也就是說雖然他提供了SQL,但是我們使用Hive更多的是借助于這種SQL方式對于平臺之上的數(shù)據(jù)做更加簡單有效的分析。數(shù)據(jù)倉庫VS數(shù)據(jù)庫,最大區(qū)別可以理解為數(shù)據(jù)庫一般存儲數(shù)據(jù)主要用來提供業(yè)務(wù)系統(tǒng)使用、大部分數(shù)據(jù)都為在線數(shù)據(jù),而數(shù)據(jù)倉庫的設(shè)計主要是為了分析、大部分數(shù)據(jù)皆為歷史數(shù)據(jù)。Hive做分析,可以對于HDFS、HBase上的數(shù)據(jù)進行分析,但Hive本質(zhì)并不執(zhí)行分析、他本質(zhì)僅僅只是將SQL語句轉(zhuǎn)換為MapReduce程序,真正執(zhí)行分析還是在Hadoop基礎(chǔ)之上來進行。
Hive的特點:提供SQL查詢語言;針對海量數(shù)據(jù)的高性能查詢和分析系統(tǒng);用戶接口豐富,cli、jdbc都支持;提供靈活的擴展性,支持復(fù)雜類型數(shù)據(jù)、自定義函數(shù)支持、腳本等。因此Hive適用于以下場景:
1.日志分析:日志分析可以優(yōu)化操作系統(tǒng),獲知用戶行為,也可以獲知數(shù)據(jù)的統(tǒng)計信息;
2.數(shù)據(jù)挖掘:通過結(jié)構(gòu)化數(shù)據(jù)的挖掘,能夠獲得原先使用者沒有意識的信息;
3.文檔索引:可以對一系列文檔進行分析,并形成文檔的索引結(jié)構(gòu),不一定是完整的排序表,也可能是關(guān)聯(lián)信息的索引;
4.商業(yè)智能信息處理:可以對商業(yè)信息進行查詢分析,從中可以獲得一些只能決策的信息;
5.及時查詢以及數(shù)據(jù)驗證:數(shù)據(jù)分析人員可能臨時需要驗證數(shù)據(jù)的特性,需要查詢引擎迅速進行數(shù)據(jù)分析。
HBase分布式NoSql數(shù)據(jù)庫,列式存儲,主要用于半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),采用HDFS為文件存儲系統(tǒng)
ElasticSearch 是基于Lucene實現(xiàn)的開源分布式全文檢索引擎。作為一個分布式全文檢索引擎,ES具有較強的擴展性,并且能處理PB級別以上的大數(shù)據(jù)集,是大數(shù)據(jù)領(lǐng)域首選的分布式搜索引擎。
全文檢索VS精確查找,舉個例子,平時我們在SQL開發(fā)過程中where colum like %% 或者=這些情況是精確查找。全文檢索,首先會根據(jù)提供的內(nèi)容進行分詞、然后再根據(jù)分詞結(jié)果去查找。例如:數(shù)據(jù)集如下:
image.png
精確查找只能找到的第三條,但是全文搜索三條都可以查找的到。全文檢索相關(guān),Lucene、Solr等,其中Solr對比起ElasticSearch來說,建立索引時搜索效率會有影響,對于實時搜索引擎來說效率并不好,Solr對于傳統(tǒng)的項目來說支持還可以,但并不適用與海量數(shù)據(jù)實時檢索。
1-大數(shù)據(jù)技術(shù)概覽
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
相關(guān)閱讀更多精彩內(nèi)容
- 數(shù)據(jù)量不斷增加,企業(yè)需要靈活快速地處理這些數(shù)據(jù)。 處理器主頻和散熱遇到瓶頸,多核處理器成為主流,并行化計算應(yīng)用不斷...
- 大數(shù)據(jù)技術(shù)棧 Hadoop 歷史: https://www.jikexueyuan.com/course/677_...
- 什么是大數(shù)據(jù)? 大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是...
- http://geek.csdn.net/news/detail/210469http://www.36dsj.c...
- 查詢引擎 一、Phoenix 貢獻者::Salesforce 簡介:這是一個Java中間層,可以讓開發(fā)者在Apac...


