[Hermes]實時檢索分析平臺_騰訊大數(shù)據(jù)

HERMES首頁、文檔和下載 - 搜索引擎 - 開源中國社區(qū)
https://www.oschina.net/p/hermes
Hermes 的出現(xiàn),并不是為了替代 Solr、ES 的,就像 ES 的出現(xiàn)并不是為了干掉 Oracle 和 MySQL 一樣,而是為了滿足不同層面的需求。

Hermes 使用特點:

  1. 一個基于大索引技術(shù)的海量數(shù)據(jù)實時檢索分析平臺。側(cè)重數(shù)據(jù)分析。
  2. 數(shù)據(jù)規(guī)模從幾億到萬億不等。最小的表也是千萬級別。

hermes2.gif (10775 byte)

Hermes在索引上的改進:

1.索引按需加載

大 部分的索引處于關(guān)閉狀態(tài),只有真正用到索引才會去打開;一級跳躍表采用按需Load,并不會Load整個跳躍表,用來節(jié)省內(nèi)存和提高打開索引的速度。 Hermes經(jīng)常會根據(jù)業(yè)務的不同動態(tài)的打開不同的索引,關(guān)閉那些不經(jīng)常使用的索引,這樣同樣一臺機器,可以被多種不同的業(yè)務所使用,機器利用率高。

  1. 排序和統(tǒng)計按需加載

排序和統(tǒng)計并不會使用數(shù)據(jù)的真實值,而是通過標簽技術(shù)將大數(shù)據(jù)轉(zhuǎn)換成占用內(nèi)存很小的數(shù)據(jù)標簽,占用內(nèi)存是原先的幾十分之一。

另外不會將這個列的全部值都Load到內(nèi)存里,而是用到哪些數(shù)據(jù)Load哪些數(shù)據(jù),依然是按需Load。不用了的數(shù)據(jù)會從內(nèi)存里移除。

  1. 索引存儲在HDFS中

理論上只要HDFS有空間,就可以不斷的添加索引,索引規(guī)模不再嚴重受機器的物理內(nèi)存和物理磁盤的限制,容災和數(shù)據(jù)遷移容易得多。

  1. 采用Gaia進行進程管理(騰訊版的Yarn)

數(shù)據(jù)在HDFS中,集群規(guī)模和擴容都是一件很容易的事情,Gaia在騰訊集群規(guī)模已達萬臺)。

  1. 采用多條件組合跳躍降低數(shù)據(jù)傾斜

如果某個詞語存在數(shù)據(jù)傾斜,則會與其他條件組合進行跳躍合并(參考Doclist的Skip List資料)。

  1. 多級Merger與自定義分區(qū)

  2. GC上進行了一些優(yōu)化

自 己進行內(nèi)存管理,關(guān)鍵地方的內(nèi)存對象的創(chuàng)建和釋放Java內(nèi)部自己控制,減少GC的壓力(類似Hbase的Block Buffer Cache)。 不使用WeakHashMap和全局鎖,WeakHashMap使用不當容易內(nèi)存泄露,而且性能太差。用于分詞的相關(guān)對象是共用的,減少反復的創(chuàng)建對象和 釋放對象


Hermes實時檢索分析平臺_騰訊大數(shù)據(jù)
http://data.qq.com/article?id=817
一、序言
隨著TDW的發(fā)展,公司在大數(shù)據(jù)離線分析方面已經(jīng)具備了行業(yè)領(lǐng)先的能力。但是,很多應用場景往往要求在數(shù)秒內(nèi)完成對幾億、幾十億甚至幾百上千億的數(shù)據(jù)分析,從而達到不影響用戶體驗的目的。如何能夠及時有效的獲取分析結(jié)果提高工作效率,這是許多分析人員在面對大數(shù)據(jù)所不得不面臨的問題。要滿足這樣的需求,可以采用精心設(shè)計的傳統(tǒng)關(guān)系型數(shù)據(jù)庫組成并行處理集群,或者采用一些內(nèi)存計算平臺,或者采用HDD的架構(gòu),但是這些都無疑需要比較高的軟硬件成本。海量數(shù)據(jù)的今天,堆機器不是每個業(yè)務都愿意去做的。
實時檢索分析平臺(Hermes),旨在為公司大數(shù)據(jù)分析業(yè)務提供一套實時的、多維的、交互式的查詢、統(tǒng)計、分析系統(tǒng),為公司各個產(chǎn)品在大數(shù)據(jù)的統(tǒng)計分析方面提供完整的解決方案,讓萬級維度、千億級數(shù)據(jù)下的秒級統(tǒng)計分析變?yōu)楝F(xiàn)實。
本文將粗略介紹系統(tǒng)的應用場景、設(shè)計架構(gòu)以及相關(guān)業(yè)務接入情況。

二、Hermes實時檢索分析場景

**Hermes實時檢索分析場景**.png
Paste_Image.png

打造輕量級OLAP(二):Hive + Elasticsearch - Treant - 博客園
http://www.cnblogs.com/en-heng/p/5943703.html

  1. 引言
    在做OLAP數(shù)據(jù)分析時,常常會遇到過濾分析需求,比如:除去只有性別、常駐地標簽的用戶,計算廣告媒體上的覆蓋UV。在Kylin中不支持復雜數(shù)據(jù)類型(主要指array、struct、map),要求數(shù)據(jù)輸入Schema必須是平鋪的,但是平鋪后丟失了用戶的聚合標簽信息,而沒有辦法判斷某一個用戶是否只有性別、常駐地標簽。顯然,我們需要一種支持復雜數(shù)據(jù)類型的OLAP數(shù)據(jù)庫;底層為Lucene的Elasticsearch正在向OLAP融合,騰訊內(nèi)部已經(jīng)用基于Lucene的分析數(shù)據(jù)庫Hermes來做多維數(shù)據(jù)分析。
    Elasticsearch(ES)在設(shè)計之初是用來做全文檢索的搜索引擎,但隨著倒排索引所表現(xiàn)出來優(yōu)秀的查詢性能,有越來越多人拿它做分析數(shù)據(jù)庫使??蓪S視作文檔型NoSQL數(shù)據(jù)庫,一般情況下將具有相同schema的文檔(document)歸屬于一個type,所有的文檔存儲于某一個index;ES與RDBMS的概念對比如下:
    Relational DB ? Databases ? Tables ? Rows ? ColumnsElasticsearch ? Indices ? Types ? Documents ? Fields

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容