九九热人妻中文,日韩中文字幕第一区,。久久caO

1、概念

block：一次寫入生成的一個(gè)數(shù)據(jù)塊。
primary.idx文件：存儲(chǔ)了稀疏索引,一個(gè)part對(duì)應(yīng)一個(gè)稀疏索引。
bin文件：真正存儲(chǔ)數(shù)據(jù)的文件，由1到多個(gè)壓縮數(shù)據(jù)組成。壓縮數(shù)據(jù)是最小存儲(chǔ)單位，由『頭文件』和『壓縮數(shù)據(jù)塊』組成。頭文件由壓縮算法、壓縮前的字節(jié)大小、壓縮后的字節(jié)大小三部分組成；壓縮數(shù)據(jù)塊嚴(yán)格限定在壓縮前64K~1M byte大小。（這個(gè)大小是ClickHouse認(rèn)為的壓縮與解壓性能消耗最小的大?。?。即，一個(gè)壓縮數(shù)據(jù)塊由N個(gè)block組成，一個(gè)bin文件又由N個(gè)壓縮數(shù)據(jù)塊組成。

bin文件的存儲(chǔ)方式

mrk文件：存儲(chǔ)了block在bin文件中哪個(gè)壓縮數(shù)據(jù)以及這個(gè)壓縮數(shù)據(jù)的數(shù)據(jù)塊中的起始偏移量。

索引中的mark index	壓縮數(shù)據(jù)index	在壓縮數(shù)據(jù)塊中起始的字節(jié)數(shù)（偏移量）
0	0	0
1	0	12001
2	1	0

2、數(shù)據(jù)存儲(chǔ)

數(shù)據(jù)以壓縮數(shù)據(jù)為單位，存儲(chǔ)在bin文件中。
壓縮數(shù)據(jù)對(duì)應(yīng)的壓縮數(shù)據(jù)塊，嚴(yán)格限定按照64K~1M byte的大小來(lái)進(jìn)行存儲(chǔ)。
（1）如果一個(gè)block對(duì)應(yīng)的大小小于64K，則需要找下一個(gè)block來(lái)拼湊，直到拼湊出來(lái)的大小大于等于64K。
（2）如果一個(gè)block的大小在64K到1M的范圍內(nèi)，則直接生成1個(gè)壓縮數(shù)據(jù)塊。
（3）如果一個(gè)block的大小大于了1M，則切割生成多個(gè)壓縮數(shù)據(jù)塊。
一個(gè)part下不同的列分別存儲(chǔ)，不同的列存儲(chǔ)的行數(shù)是一樣的。

3、檢索過(guò)程

以 where partition = '2019-10-23' and ID >= 10 and ID < 100 （ID是索引字段）的query描述大體檢索流程:

每個(gè)索引都有對(duì)應(yīng)的min/max的partition值，存儲(chǔ)在內(nèi)存中。當(dāng)contition帶上partition時(shí)就可以從這些block列表中找到需要檢索的索引，找到對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)文件夾，命中對(duì)應(yīng)的索引（primary.idx）
根據(jù)ID字段，把條件轉(zhuǎn)化為[10,100)的條件區(qū)間,再把條件區(qū)間與這個(gè)partition對(duì)應(yīng)的稀疏索引做交集判斷。如果沒有交集則不進(jìn)行具體數(shù)據(jù)的檢索；如果有交集，則把稀疏索引等分8份，再把條件區(qū)間與稀疏索引分片做交集判斷，直到不能再拆分或者沒有交集，則最后剩下的所有條件區(qū)間就是我們要檢索的block值。
通過(guò)步驟2我們得到了我們要檢索的block值。通過(guò)上面我們知道存在多個(gè)block壓縮在同一個(gè)壓縮數(shù)據(jù)塊的情況并且一個(gè)bin文件里面又存在N個(gè)壓縮數(shù)據(jù)的情況，所以不能直接通過(guò)block的值直接到bin文件中搜尋數(shù)據(jù)。我們通過(guò)映射block值到mrk中，通過(guò)mrk知道這個(gè)block對(duì)應(yīng)到的壓縮數(shù)據(jù)以及在壓縮數(shù)據(jù)塊里面的字節(jié)偏移量，就得到了我們最后需要讀取的數(shù)據(jù)地址。
把bin文件中的數(shù)據(jù)讀取到內(nèi)存中，找到對(duì)應(yīng)的壓縮數(shù)據(jù)，直接從對(duì)應(yīng)的起始偏移量開始讀取數(shù)據(jù)。

4、example

(1)寫入

假設(shè)表的index字段為Column A，一個(gè)Column A的字符長(zhǎng)度為30KB；還有個(gè)非index字段Column B，一個(gè)Column B的字符長(zhǎng)度為100KB；index_granularity=2。
依7次寫入7行數(shù)據(jù)，數(shù)據(jù)如下

A	B
a	1
a	3
b	2
b	2
c	1
a	4
a	0

寫入以后假設(shè)已經(jīng)完全merge，則排序后為：

A	B
a	0
a	1
a	3
a	4
b	2
b	2
c	1

則生成的索引為：

mark number	value
0	a
1	a
2	b
3	c

(2)存儲(chǔ)

根據(jù)壓縮數(shù)據(jù)的64KB~1MB的理論，則在
Column A.bin文件中，對(duì)應(yīng)的存儲(chǔ)為：

image.png

（3個(gè)block才大于64KB，生成一個(gè)壓縮數(shù)據(jù)塊）
Column A.mrk文件中，對(duì)應(yīng)的存儲(chǔ)為：

索引中的mark number	壓縮數(shù)據(jù)index	在壓縮數(shù)據(jù)塊中起始的字節(jié)數(shù)（偏移量）
0	0	0
1	0	61440(30 * 1024 * 2)
2	1	30720
3	2	0

同理有Column B.mrk文件為：

image.png

Column B.bin文件為：

索引中的mark number	壓縮數(shù)據(jù)index	在壓縮數(shù)據(jù)塊中起始的字節(jié)數(shù)（偏移量）
0	0	0
1	1	0
2	2	0
3	3	0
4	4	0
5	5	0
6	6	0

(3)搜索

以A='a'為例，則命中的索引mark number為0跟1。
再返回回來(lái)mrk文件中，以(0,0)代表壓縮數(shù)據(jù)塊0，偏移量0。例如對(duì)于Column A而言，mark number 0則命中[(0,0),(0,61440))對(duì)應(yīng)的block，mark number 1命中了[(0,61441),(1,30720))對(duì)應(yīng)的block。將這些block加載進(jìn)內(nèi)存，再通過(guò)偏移量計(jì)算，得到最終需要掃描的行。

5、other

為什么加了partition查詢會(huì)變快？因?yàn)橹恍枰獟呙杵ヅ鋚artition對(duì)應(yīng)的索引就可以，不加partition就需要掃描所有partition上的索引。
為什么用范圍查詢也能命中索引？理由如3。

6、reference

朱凱老師的分享，in ClickHouse Meetup

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

ClickHouse的數(shù)據(jù)存儲(chǔ)以及檢索過(guò)程

ClickHouse的數(shù)據(jù)存儲(chǔ)以及檢索過(guò)程

1、概念

2、數(shù)據(jù)存儲(chǔ)

3、檢索過(guò)程

4、example

(1)寫入

(2)存儲(chǔ)

(3)搜索

5、other

6、reference

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

ClickHouse的數(shù)據(jù)存儲(chǔ)以及檢索過(guò)程

1、概念

2、數(shù)據(jù)存儲(chǔ)

3、檢索過(guò)程

4、example

(1)寫入

(2)存儲(chǔ)

(3)搜索

5、other

6、reference

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1、概念

2、數(shù)據(jù)存儲(chǔ)

5、other

6、reference