單細(xì)胞筆記3-scATAC-seq介紹

ATAC-seq

ATAC-seq(Assay for Transposase-Accessible Chromatin with highthroughput sequencing)是利用轉(zhuǎn)座酶研究染色質(zhì)可及性的高通量測序技術(shù)。


染色質(zhì)可及性

首先介紹一下什么是染色質(zhì)可及性。正常情況下,DNA與核小體纏繞折疊在一起形成染色質(zhì),但是DNA的復(fù)制、轉(zhuǎn)錄都需要將染色體的高級結(jié)構(gòu)解開,然而解開并不需要打開全部染色體,只需要打開表達(dá)基因的區(qū)域,這部分打開的染色質(zhì),就叫開放染色質(zhì)(open chromatin)。而染色質(zhì)一旦打開,就允許一些調(diào)控蛋白(比如轉(zhuǎn)錄因子和輔因子)跑過來與之相結(jié)合。而染色質(zhì)的這種特性,就叫做染色質(zhì)的可及性(chromatin accessibility)。


ATAC-seq原理

DNA轉(zhuǎn)座,是一種把DNA序列從染色體的一個區(qū)域搬運(yùn)到另外一個區(qū)域的現(xiàn)象,由DNA轉(zhuǎn)座酶來實(shí)現(xiàn)。這種轉(zhuǎn)座插入DNA,需要插入位點(diǎn)的染色質(zhì)是開放的,因此,如下圖A,我們只要人為地將攜帶已知DNA序列標(biāo)簽的轉(zhuǎn)座復(fù)合物(即帶著紅色藍(lán)色測序標(biāo)簽的轉(zhuǎn)座酶Tn5)加入到細(xì)胞核中,這樣他就會插入到開放的染色質(zhì)區(qū)域,再利用已知序列的標(biāo)簽進(jìn)行PCR后測序,就知道哪些區(qū)域是開放染色質(zhì)了,這也就是ATAC-seq的原理。最后得到的DNA片段,包括了開放區(qū)域的剪切片段,也包括了橫跨一個或多個核小體的長片段。

ATAC-seq示意圖

根據(jù)片段長度,可以將片段分為分為Fragments in nucleosome-free regions(<147 base pairs)(不包含核小體的片段)、Fragments flanking a single nucleosome (147~294 base pairs)(包含一個核小體的片段), 以及更長的多核片段。片段長度分布如下圖,不包含核小體的片段最多,其次是單核片段,依次遞減。

ATAC-seq片段分布圖

ATAC-seq出來的結(jié)果,和傳統(tǒng)方法出來的結(jié)果具有很強(qiáng)的一致性,同時也和基于組蛋白修飾marker的ChIP-seq有較高的吻合程度。也就是說,ATAC-seq中的peak,往往是啟動子、增強(qiáng)子序列,以及一些反式調(diào)控因子結(jié)合的位點(diǎn)。


scATAC-seq建庫原理

ATAC-seq是把所有實(shí)驗細(xì)胞看作了一個整體,獲得所有細(xì)胞混合的基因信息。scATAC-seq是在ATAC-seq的基礎(chǔ)上,進(jìn)行細(xì)胞核的分選和標(biāo)記通過barcode識別細(xì)胞核,解決了不同細(xì)胞群體的異質(zhì)性的問題,能夠檢測出混雜樣品測序所無法得到的異質(zhì)性信息。

以10x 建庫方法為例,比較scATAC-seq 和scRNA-seq建庫方法的異同

二者都用膠珠(GEMs)的方法,不一樣的是ATAC膠珠上的序列中不用UMI,因為基因組只有一對序列,無需像RNA一樣定量。另外序列末端用接頭引物Read 1N代替PolyT。

scRNA-seq通過結(jié)合cDNA的PolyA尾進(jìn)行擴(kuò)增,而scATAC-seq的DNA片段沒有PolyA尾,取而代之的是Tn5酶轉(zhuǎn)座剪切時插入的adaptors片段,可以與膠珠上的Read 1N序列互補(bǔ)。

DNA片段接上膠珠后,在另一端加Read2和Sample index序列。在此之前,scRNA-seq需要將cDNA酶切至合適的片段長度,而scATAC-seq的片段不進(jìn)行打碎,接上Sample index和P7序列后進(jìn)行擴(kuò)增。

最后上機(jī)測序。scRNAseq如果是3‘單端測序,Read2讀取最近的100bp讀長,而Read1只讀取16bp的細(xì)胞barcode序列和10bp的UMI序列,共26bp。scATAC-seq則用雙末端測序,讀長一般不低于45bp。

scATAC-seq最后可以得到4個原始文件:

其中I1/2分別是barcode和sample index,R1/2是目的片段的雙末端。


下游分析(以Signac為例)

Signac包由Seurat同一團(tuán)隊開發(fā),獨(dú)立于Seurat包,在2020年8月開始發(fā)布在GitHub上。目前仍是1.0.0版本。

1.?加載peaks, 細(xì)胞注釋和片段分布數(shù)據(jù),并創(chuàng)建object。這個object和Seurat object類似,只是在assay里多了peaks等信息。這里的features不是基因,而是基因組的注釋區(qū)域,如啟動子,增強(qiáng)子等。

2.?質(zhì)控

3.?降維聚類

4.?創(chuàng)建基因活性矩陣。之前的聚類區(qū)域所用的features是peaks,為了展示不同分群基因活性的差異,首先要將scATAC-seq數(shù)據(jù)產(chǎn)生的peak matrix轉(zhuǎn)換整合成一個gene activity matrix(基因活性矩陣)。我們基于這樣一個簡單的假設(shè):基因的表達(dá)活性可以簡單的通過基因上下游2kb范圍內(nèi)覆蓋的reads數(shù)的加和進(jìn)行定量,最后獲得一個gene * cell的表達(dá)矩陣

5.?與scRNA-seq數(shù)據(jù)的整合分析

6.?尋找細(xì)胞分群特異的peaks

7.?展示基因在不同細(xì)胞類型的開放程度

8.?此外還有其他分析,如TF footprinting等。footprinting顧名思義是指轉(zhuǎn)錄因子留下的印記,由于Tn5酶不能剪切到TF結(jié)合的區(qū)域,所以footprinting圖相對與TSS圖,中間有“凹陷”,凹陷的程度根據(jù)TF結(jié)合的時間確定


參考

http://www.novelbio.com/blog/c2/50.html

https://blog.csdn.net/qazplm12_3/article/details/108765399

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容