High-throughput sequencing of the transcriptome and chromatin accessibility in the same cell
概述
怎么在同一個細胞里實現(xiàn)轉(zhuǎn)錄組測序和開放染色質(zhì)分析?
直接通過轉(zhuǎn)錄組的結(jié)果并不能得到TF上游開放染色質(zhì)的信息,也就是說,要構(gòu)建一個完整的調(diào)控網(wǎng)絡,RNA-seq和ATAC-seq往往是需要結(jié)合分析的。雖然已經(jīng)有很多算法可以實現(xiàn)多組學數(shù)據(jù)整合,但很難評估這些算法的表現(xiàn)到底如何,難以完全保留真實生物學信息。這里作者開發(fā)了一類新的高通量技術(shù):SNARE-seq,全稱droplet-based single-nucleus chromatin accessibility and mRNA expression sequencing,可以實現(xiàn)在同一個細胞里進行RNA測序(RNA-Seq)和染色質(zhì)可及性(ATAC-Seq)測序,并關(guān)聯(lián)二者結(jié)果得到細胞基因表達調(diào)控的詳細信息。技術(shù)使用了Tn5 transposase對通透性細胞核進行處理,通過巧妙設計DNA barcode接頭,在同一個droplet中可以實現(xiàn)mRNA sequencing和DNA sequencing。應用該技術(shù),作者成功將啟動子的動態(tài)可及性與轉(zhuǎn)錄水平關(guān)聯(lián)起來構(gòu)建了神經(jīng)發(fā)育圖譜。
技術(shù)策略
作者應用了splint oligonucleotide,把這種序列作為Tn5的接頭序列進行anneal,這種序列的特點是可以和polyA的beads進行互補配對,所以beads上只有有polydT,就可以同時捕獲經(jīng)Tn5片段化的DNA序列和核內(nèi)的mRNA序列。

Performance
評估SNARE捕獲可及性圖譜:用到了GM12878細胞系,是一種經(jīng)典的有特異染色質(zhì)譜的人B淋巴細胞。比較SNARE和以前的omni-ATAC、ATAC-seq技術(shù)的效果,具有高度相似性

同時該技術(shù)的片段分布也展示了ATAC實驗典型的“周期性核小體片段”和較好的tss信號、FRiP值也滿足基本ATAC-seq要求(基本>0.3):

評估SNARE對不同細胞類型的鑒定能力:選擇混合樣本
we performed SNARE-seq on mixtures of cultured human BJ, H1, K562 and GM12878 cells and collected 1,047 paired profiles (median of 500 unique molecular identifiers (UMIs); median of 805 accessible sites
用SNARE的RNA-seq表達數(shù)據(jù)(SNARE-seq expression assay)和可及性數(shù)據(jù)(SNARE-seq accessibility assay)分別做細胞聚類,發(fā)現(xiàn)二者的profile有很好的一致性:那些在特定淋巴細胞中高表達的marker gene同樣也具有對應的開放染色質(zhì)譜(高表達的TF有可及的motif)。

同樣,作者也將SNARE-seq的表達和可及性圖譜和snDrop-seq以及單獨的SNARE-
seq chromatin-only experiments進行比較,發(fā)現(xiàn)聚類結(jié)果都是高度一致的。作者還檢驗了doublets rate和recovery rate等指標。
另外正式的SNARE實驗數(shù)據(jù),作者不忘和公共數(shù)據(jù)庫ENCODE進行了比較
We compared aggregated SNARE-seq chromatin accessibility profiles with published bulk ATAC-seq ENCODE data on neonatal mouse brain cortex and found a strong concordance between these two methods
綜上,SNARE-Seq的表現(xiàn)是可靠的。
聚類技巧
我們知道單細胞ATAC是稀疏數(shù)據(jù),不能直接peaks calling,需要通過聚類合并cluster以后對cluster的bulk進行peaks calling。聚類方法和策略有很多種,作者嘗試了三種:

第一種是先利用轉(zhuǎn)錄組數(shù)據(jù)進行聚類,聚類后的cluster的染色質(zhì)數(shù)據(jù)合并進行peaks calling,細胞的標記和基于轉(zhuǎn)錄組的數(shù)據(jù)一樣;第二種是和第一種一樣基于轉(zhuǎn)錄組數(shù)據(jù)的cluster作合并,再peaks calling,但是細胞的標記是基于獨立的clustering結(jié)果,這個clustering是用cisTopic做的(cells are labeled with results of independent clustering with each cell’s Principal Component scores
of topic information calculated by cisTopic)。第三種是沒有利用任何轉(zhuǎn)錄組信息(進行peaks合并,而是其他aggregate方法),用普通的scATAC分析流程做的聚類(也是用cisTopic標記cluster)
作者發(fā)現(xiàn),單獨的染色質(zhì)信息(僅按照scATAC一般的分析流程),不能像SNARE基于轉(zhuǎn)錄組先驗信息的染色質(zhì)分析那樣捕獲rare peaks(如第二張圖);而且在第三張圖中可以看到細胞之間的界限很模糊,罕見細胞類型被掩蓋。
因此基于轉(zhuǎn)錄組先驗知識的染色質(zhì)圖譜聚類將相比單獨的scATAC能發(fā)現(xiàn)更多的rare cell type,捕獲更多有用的生物學信息。
Downstream analysis
作者對鼠大腦皮層細胞做SNARE測序,一共鑒定了35,166 個差異可及性位點,對這些位點進行注釋,其中有2,835 (8%)落在啟動子區(qū),且其中有128個同樣有差異基因表達。
為了進一步探索這些差異peaks,作者做了GO富集分析和motif分析,分別應用GREAT和HOMER。

分別應用expression assay和accessibility assay的數(shù)據(jù)進行擬時分析,二者也有很高的相關(guān)性:

結(jié)論:
Thus, SNARE-seq provided linked expression and chromatin accessibility profiles that enabled construction of regulatory dynamics during developmental programs, as well as detailed characterization of epigenetic state for the cell clusters
Overall
SNARe-seq是一個很有應用前景的探索基因轉(zhuǎn)錄調(diào)控“input”和"output"的工具,將有助于構(gòu)建人類組織和臨床樣本調(diào)控圖譜
就我的個人觀點,SNARE-seq實際上測序的mRNA基本上都是核內(nèi)新生的mRNA,注釋的時候大量mRNA對應的reads是mapping到intron上的,相對而言有效的exon的數(shù)據(jù)量就減少了,而且應該很難探測到mRNA可變剪接轉(zhuǎn)錄本的信息,不過該技術(shù)能在單細胞水平同時實現(xiàn)兩個組學測序(實際上以前還有三組學測序的),能做到這樣的精度和可靠性數(shù)據(jù)非常不錯了。