ClickHouse的數(shù)據(jù)存儲(chǔ)以及檢索過(guò)程

1、概念

  • block:一次寫入生成的一個(gè)數(shù)據(jù)塊。
  • primary.idx文件:存儲(chǔ)了稀疏索引,一個(gè)part對(duì)應(yīng)一個(gè)稀疏索引。
  • bin文件:真正存儲(chǔ)數(shù)據(jù)的文件,由1到多個(gè)壓縮數(shù)據(jù)組成。壓縮數(shù)據(jù)是最小存儲(chǔ)單位,由『頭文件』和『壓縮數(shù)據(jù)塊』組成。頭文件由壓縮算法、壓縮前的字節(jié)大小、壓縮后的字節(jié)大小三部分組成;壓縮數(shù)據(jù)塊嚴(yán)格限定在壓縮前64K~1M byte大小。(這個(gè)大小是ClickHouse認(rèn)為的壓縮與解壓性能消耗最小的大?。?。即,一個(gè)壓縮數(shù)據(jù)塊由N個(gè)block組成,一個(gè)bin文件又由N個(gè)壓縮數(shù)據(jù)塊組成。
bin文件的存儲(chǔ)方式
  • mrk文件:存儲(chǔ)了block在bin文件中哪個(gè)壓縮數(shù)據(jù)以及這個(gè)壓縮數(shù)據(jù)的數(shù)據(jù)塊中的起始偏移量。
索引中的mark index 壓縮數(shù)據(jù)index 在壓縮數(shù)據(jù)塊中起始的字節(jié)數(shù)(偏移量)
0 0 0
1 0 12001
2 1 0

2、數(shù)據(jù)存儲(chǔ)

  • 數(shù)據(jù)以壓縮數(shù)據(jù)為單位,存儲(chǔ)在bin文件中。

  • 壓縮數(shù)據(jù)對(duì)應(yīng)的壓縮數(shù)據(jù)塊,嚴(yán)格限定按照64K~1M byte的大小來(lái)進(jìn)行存儲(chǔ)。
    (1)如果一個(gè)block對(duì)應(yīng)的大小小于64K,則需要找下一個(gè)block來(lái)拼湊,直到拼湊出來(lái)的大小大于等于64K。
    (2)如果一個(gè)block的大小在64K到1M的范圍內(nèi),則直接生成1個(gè)壓縮數(shù)據(jù)塊。
    (3)如果一個(gè)block的大小大于了1M,則切割生成多個(gè)壓縮數(shù)據(jù)塊。

  • 一個(gè)part下不同的列分別存儲(chǔ),不同的列存儲(chǔ)的行數(shù)是一樣的。

3、檢索過(guò)程

以 where partition = '2019-10-23' and ID >= 10 and ID < 100 (ID是索引字段)的query描述大體檢索流程:

  1. 每個(gè)索引都有對(duì)應(yīng)的min/max的partition值,存儲(chǔ)在內(nèi)存中。當(dāng)contition帶上partition時(shí)就可以從這些block列表中找到需要檢索的索引,找到對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)文件夾,命中對(duì)應(yīng)的索引(primary.idx)
  2. 根據(jù)ID字段,把條件轉(zhuǎn)化為[10,100)的條件區(qū)間,再把條件區(qū)間與這個(gè)partition對(duì)應(yīng)的稀疏索引做交集判斷。如果沒有交集則不進(jìn)行具體數(shù)據(jù)的檢索;如果有交集,則把稀疏索引等分8份,再把條件區(qū)間與稀疏索引分片做交集判斷,直到不能再拆分或者沒有交集,則最后剩下的所有條件區(qū)間就是我們要檢索的block值。
  3. 通過(guò)步驟2我們得到了我們要檢索的block值。通過(guò)上面我們知道存在多個(gè)block壓縮在同一個(gè)壓縮數(shù)據(jù)塊的情況并且一個(gè)bin文件里面又存在N個(gè)壓縮數(shù)據(jù)的情況,所以不能直接通過(guò)block的值直接到bin文件中搜尋數(shù)據(jù)。我們通過(guò)映射block值到mrk中,通過(guò)mrk知道這個(gè)block對(duì)應(yīng)到的壓縮數(shù)據(jù)以及在壓縮數(shù)據(jù)塊里面的字節(jié)偏移量,就得到了我們最后需要讀取的數(shù)據(jù)地址。
  4. 把bin文件中的數(shù)據(jù)讀取到內(nèi)存中,找到對(duì)應(yīng)的壓縮數(shù)據(jù),直接從對(duì)應(yīng)的起始偏移量開始讀取數(shù)據(jù)。

4、example

(1)寫入

假設(shè)表的index字段為Column A,一個(gè)Column A的字符長(zhǎng)度為30KB;還有個(gè)非index字段Column B,一個(gè)Column B的字符長(zhǎng)度為100KB;index_granularity=2。
依7次寫入7行數(shù)據(jù),數(shù)據(jù)如下

A B
a 1
a 3
b 2
b 2
c 1
a 4
a 0

寫入以后假設(shè)已經(jīng)完全merge,則排序后為:

A B
a 0
a 1
a 3
a 4
b 2
b 2
c 1

則生成的索引為:

mark number value
0 a
1 a
2 b
3 c
(2)存儲(chǔ)

根據(jù)壓縮數(shù)據(jù)的64KB~1MB的理論,則在
Column A.bin文件中,對(duì)應(yīng)的存儲(chǔ)為:


image.png

(3個(gè)block才大于64KB,生成一個(gè)壓縮數(shù)據(jù)塊)
Column A.mrk文件中,對(duì)應(yīng)的存儲(chǔ)為:

索引中的mark number 壓縮數(shù)據(jù)index 在壓縮數(shù)據(jù)塊中起始的字節(jié)數(shù)(偏移量)
0 0 0
1 0 61440(30 * 1024 * 2)
2 1 30720
3 2 0

同理有Column B.mrk文件為:


image.png

Column B.bin文件為:

索引中的mark number 壓縮數(shù)據(jù)index 在壓縮數(shù)據(jù)塊中起始的字節(jié)數(shù)(偏移量)
0 0 0
1 1 0
2 2 0
3 3 0
4 4 0
5 5 0
6 6 0
(3)搜索

以A='a'為例,則命中的索引mark number為0跟1。
再返回回來(lái)mrk文件中,以(0,0)代表壓縮數(shù)據(jù)塊0,偏移量0。例如對(duì)于Column A而言,mark number 0則命中[(0,0),(0,61440))對(duì)應(yīng)的block,mark number 1命中了[(0,61441),(1,30720))對(duì)應(yīng)的block。將這些block加載進(jìn)內(nèi)存,再通過(guò)偏移量計(jì)算,得到最終需要掃描的行。

5、other

  • 為什么加了partition查詢會(huì)變快?因?yàn)橹恍枰獟呙杵ヅ鋚artition對(duì)應(yīng)的索引就可以,不加partition就需要掃描所有partition上的索引。
  • 為什么用范圍查詢也能命中索引?理由如3。

6、reference

朱凱老師的分享,in ClickHouse Meetup

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容