scATAC分析神器ArchR初探-簡介(1)

scATAC分析神器ArchR初探-簡介(1)
scATAC分析神器ArchR初探-ArchR進(jìn)行doublet處理(2)
scATAC分析神器ArchR初探-創(chuàng)建ArchRProject(3)
scATAC分析神器ArchR初探-使用ArchR降維(4)
scATAC分析神器ArchR初探--使用ArchR進(jìn)行聚類(5)
scATAC分析神器ArchR初探-單細(xì)胞嵌入(6)
scATAC分析神器ArchR初探-使用ArchR計(jì)算基因活性值和標(biāo)記基因(7)
scATAC分析神器ArchR初探-scRNA-seq確定細(xì)胞類型(8)
scATAC分析神器ArchR初探-ArchR中的偽批次重復(fù)處理(9)
scATAC分析神器ArchR初探-使用ArchR-peak-calling(10)
scATAC分析神器ArchR初探-使用ArchR識別標(biāo)記峰(11)
scATAC分析神器ArchR初探-使用ArchR進(jìn)行主題和功能豐富(12)
scATAC分析神器ArchR初探-利用ArchR豐富ChromVAR偏差(13)
scATAC分析神器ArchR初探-使用ArchR進(jìn)行足跡(14)
scATAC分析神器ArchR初探-使用ArchR進(jìn)行整合分析(15)
scATAC分析神器ArchR初探-使用ArchR進(jìn)行軌跡分析(16)

簡介

近來單細(xì)胞技術(shù)發(fā)展迅速,不僅scRNA技術(shù)應(yīng)用逐漸成熟,scATAC技術(shù)也在開始規(guī)模應(yīng)用,分析工具也多種多樣,這里介紹由ATAC發(fā)明者greenleaf實(shí)驗(yàn)室開發(fā)的單細(xì)胞ATAC分析工具ArchR使用說明,ArchR:對單細(xì)胞染色質(zhì)可及性數(shù)據(jù)的可靠且可擴(kuò)展的分析,ArchR是功能齊全的軟件套件,用于分析單細(xì)胞染色質(zhì)可訪問性數(shù)據(jù)。它設(shè)計(jì)用于處理成千上萬個(gè)單細(xì)胞,而沒有大的內(nèi)存或計(jì)算需求,與10x Genomics Chromium系統(tǒng)等商業(yè)平臺可達(dá)到的實(shí)驗(yàn)規(guī)模保持同步。這部分介紹如何將數(shù)據(jù)導(dǎo)入ArchR,以及如何創(chuàng)建ArrowFiles(ArchR分析的基本單元)

1.1關(guān)于ATAC-seq術(shù)語的簡要入門

任何ATAC-seq實(shí)驗(yàn)的最基本組成部分是“ 片段”。在ATAC-seq中,片段是指通過兩次轉(zhuǎn)座事件產(chǎn)生的可測序DNA分子。使用配對末端測序?qū)ζ蔚拿總€(gè)末端進(jìn)行測序。基于Tn5的插入偏移量調(diào)整推斷的片段起點(diǎn)和終點(diǎn)的單堿基位置。如先前報(bào)道,Tn5轉(zhuǎn)座酶以同源二聚體的形式與DNA結(jié)合,兩個(gè)Tn5分子之間具有9 bp的DNA。因此,每個(gè)Tn5同型二聚體結(jié)合事件都會產(chǎn)生兩個(gè)插入,間隔為9 bp。因此,“可及”位點(diǎn)的實(shí)際中心點(diǎn)位于Tn5二聚體的正中心,而不是每個(gè)Tn5插入的位置。為了解決這個(gè)問題,我們將偏移量應(yīng)用于單個(gè)Tn5插入,將正鏈插入事件調(diào)整為+4 bp,將負(fù)鏈插入事件調(diào)整為-5 bp。ATAC-seq的原始描述。因此,在ArchR中,“ 片段 ”是指一個(gè)表或基因組范圍對象,其中包含染色體,偏移量調(diào)整后的單堿基染色體起始位置,偏移量調(diào)整后的單堿基染色體終點(diǎn)位置以及與每個(gè)序列化片段相對應(yīng)的唯一細(xì)胞條形碼ID 。類似地,“ 插入 ”是指在可到達(dá)部位的正中央的偏移調(diào)整后的單堿基位置。

1.2為什么要使用ArchR?

那里有多種用于單細(xì)胞ATAC序列分析的工具,那么為什么要使用ArchR?最重要的是,ArchR提供功能并支持其他工具無法做到的分析:



此外,由于對數(shù)據(jù)結(jié)構(gòu)和并行化方法進(jìn)行了重大優(yōu)化,構(gòu)成了ArchR軟件的基礎(chǔ),因此與其他可用工具相比,ArchR更快并且使用的內(nèi)存更少。當(dāng)分析超過70,000個(gè)單元時(shí),某些工具需要高性能的計(jì)算環(huán)境,超過128 GB的可用內(nèi)存(OoM =內(nèi)存不足)。



ArchR被設(shè)計(jì)用于基于Unix的筆記本電腦上。對于中等規(guī)模的實(shí)驗(yàn)(少于100,000個(gè)細(xì)胞),ArchR足夠快,可以執(zhí)行臨時(shí)分析并實(shí)時(shí)顯示結(jié)果,從而可以更深入,更有意義的方式與數(shù)據(jù)進(jìn)行交互。當(dāng)然,對于更高的單元數(shù)或更喜歡基于服務(wù)器的分析的用戶,ArchR提供了可輕松導(dǎo)出的圖和項(xiàng)目,可在服務(wù)器上生成后下載并使用。
當(dāng)前,尚未將ArchR優(yōu)化為在Windows上運(yùn)行。它應(yīng)該可以工作,但是尚未為Windows啟用ArchR中的并行化功能,因此上述性能提升將無法轉(zhuǎn)化。
1.3什么是箭頭文件/ ArchRProject?

ArchR中分析項(xiàng)目的基本單位稱為箭頭文件。每個(gè)Arrow文件都存儲與單個(gè)樣本關(guān)聯(lián)的所有數(shù)據(jù)(即,元數(shù)據(jù),可訪問的片段和數(shù)據(jù)矩陣)。在此,“單個(gè)樣本”將是所需的最詳細(xì)的分析單位(例如,特定條件的單個(gè)重復(fù))。在創(chuàng)建過程中以及執(zhí)行附加分析時(shí),ArchR更新和編輯每個(gè)Arrow文件以包含附加信息層。值得注意的是,對于ArchR,Arrow文件實(shí)際上只是磁盤上存儲的外部文件的路徑。更明確地說,箭頭文件不是存儲在內(nèi)存中的R語言對象,而是存儲在磁盤上的HDF5格式的文件。因此,我們使用ArchRProject對象,將這些Arrow文件關(guān)聯(lián)在一起,成為一個(gè)可以在R中快速訪問的單個(gè)分析框架。此ArchRProject對象尺寸很小,并存儲在內(nèi)存中。



某些操作可以直接在Arrow文件上執(zhí)行,而其他操作則可以在上執(zhí)行ArchRProject,從而依次更新每個(gè)關(guān)聯(lián)的Arrow文件。由于Arrow文件存儲為大型HDF5格式文件,因此ArchR中的“ get-er”功能通過與ArchRProjectwhile“ add-er”功能進(jìn)行交互來檢索數(shù)據(jù),或者(i)將數(shù)據(jù)直接添加到Arrow文件,(ii)直接添加數(shù)據(jù)到ArchRProject,或(iii)通過與交互數(shù)據(jù)添加到箭頭文件ArchRProject。


1.4 ArchR中的輸入文件類型

ArchR可以利用scATAC-seq數(shù)據(jù)的多種輸入格式,這種格式最常見的是片段文件和BAM文件的格式。片段文件是由tabix排序的文本文件,包含每個(gè)scATAC-seq片段和相應(yīng)的單元ID,每行一個(gè)片段。BAM文件是按Tabix排序的二進(jìn)制文件,包含每個(gè)scATAC-seq片段,原始序列,蜂窩條形碼ID和其他信息。使用的輸入格式將取決于使用的預(yù)處理管道。例如,10x Genomics Cell Ranger軟件返回片段文件,而sci-ATAC-seq應(yīng)用程序?qū)⑹褂肂AM文件。ArchR使用“ scanTabix”讀取片段文件,使用“ scanBam”讀取BAM文件。在此輸入過程中,對輸入進(jìn)行分塊,然后將每個(gè)輸入塊轉(zhuǎn)換為基于壓縮表的片段表示形式,其中包含每個(gè)片段染色體,偏移校正后的染色體起始位置,偏移校正后的染色體終止位置和細(xì)胞條形碼ID。然后,將這些逐塊片段存儲在HDF5格式的臨時(shí)文件中,以保留內(nèi)存使用率,同時(shí)保持對每個(gè)塊的快速訪問。最后,與每個(gè)染色體相關(guān)的所有塊均被讀取,組織并重新寫入一個(gè)稱為“片段”的HDF5組內(nèi)的Arrow文件。此預(yù)分塊過程使ArchR可以有效地處理非常大的輸入文件,并且內(nèi)存使用率較低,從而可以充分利用并行處理。與每個(gè)染色體相關(guān)的所有塊均被讀取,組織并重寫為一個(gè)稱為“片段”的HDF5組中的Arrow文件。此預(yù)分塊過程使ArchR可以有效地處理非常大的輸入文件,并且內(nèi)存使用率較低,從而可以充分利用并行處理。與每個(gè)染色體相關(guān)的所有塊均被讀取,組織并重寫為一個(gè)稱為“片段”的HDF5組中的Arrow文件。此預(yù)分塊過程使ArchR可以有效地處理非常大的輸入文件,并且內(nèi)存使用率較低,從而可以充分利用并行處理。

1.5設(shè)置

我們要做的第一件事是更改到所需的工作目錄,設(shè)置我們要使用的線程數(shù),并加載我們的基因和基因組注釋。根據(jù)您本地環(huán)境的配置,您可能需要在中修改threads以下使用的數(shù)量addArchRThreads()。默認(rèn)情況下,ArchR使用threads可用總數(shù)的一半,但是您可以根據(jù)需要手動進(jìn)行調(diào)整。如果使用Windows,則threads因?yàn)锳rchR中的并行處理是針對基于Unix的操作系統(tǒng)而構(gòu)建的,所以可用將自動設(shè)置為1。

首先,我們加載ArchR庫。如果失敗,則說明您尚未正確安裝ArchR,應(yīng)重新訪問安裝說明。

library(ArchR)

接下來,我們設(shè)置ArchR函數(shù)的默認(rèn)線程數(shù)。這是您在每個(gè)新的R會話期間都必須執(zhí)行的操作。我們建議將threads可用內(nèi)核總數(shù)設(shè)置為1/2到3/4。ArchR中的內(nèi)存使用量通常會隨所用線程的數(shù)量而定,因此允許ArchR使用更多線程也將導(dǎo)致更高的內(nèi)存使用量。

addArchRThreads(threads = 16) 

將并行線程的默認(rèn)數(shù)量設(shè)置為16。

然后,我們設(shè)置用于基因和基因組注釋的基因組。如上所述,這是您在每個(gè)新的R會話期間都必須執(zhí)行的操作。當(dāng)然,該基因組版本必須與用于比對的基因組版本匹配。對于本教程中使用的數(shù)據(jù),我們將使用hg19參考基因組,但是ArchR本機(jī)支持其他基因組注釋和自定義基因組注釋,如下一節(jié)所述。

addArchRGenome("hg19")

將默認(rèn)基因組設(shè)置為Hg19。##設(shè)置基因組和基因注釋

ArchR需要基因和基因組注釋來執(zhí)行諸如計(jì)算TSS富集得分,核苷酸含量和基因活性得分之類的事情。由于我們的教程數(shù)據(jù)集使用已經(jīng)與hg19參考基因組對齊的scATAC-seq數(shù)據(jù),因此在上一節(jié)中我們將“ hg19”設(shè)置為默認(rèn)基因組。但是,ArchR本地支持“ hg19”,“ hg38”,“ mm9”和“ mm10”,您可以使用createGeneAnnotation()createGenomeAnnotation()函數(shù)創(chuàng)建自己的基因組和基因注釋。

通過該addArchRGenome()功能可以簡化向ArchR提供此信息的過程。此函數(shù)告訴ArchR,對于當(dāng)前會話中的所有分析,它都應(yīng)使用genomeAnnotationgeneAnnotation與define 關(guān)聯(lián)ArchRGenome。每個(gè)由本地支持的基因組均由BSgenome定義每個(gè)染色體的基因組坐標(biāo)和序列的GRanges對象,包含一組列入黑名單的區(qū)域的TxDb對象,定義所有基因的位置和結(jié)構(gòu)的OrgDb對象以及提供中心基因的對象組成基因標(biāo)識符,并包含此標(biāo)識符與其他種類的標(biāo)識符之間的映射。

以下是如何為本地支持的基因組加載基因和基因組注釋的示例,以及有關(guān)其BSgenome和黑名單組件的信息。


在預(yù)編譯的版本hg19基因組ArchR使用BSgenome.Hsapiens.UCSC.hg19,TxDb.Hsapiens.UCSC.hg19.knownGene,org.Hs.eg.db,和用合并黑名單ArchR::mergeGR()hg19 V2黑名單區(qū)顯示高mappability到hg19核基因組線粒體地區(qū)從迦勒Lareau和Jason Buenrostro。要將全局基因組默認(rèn)設(shè)置為預(yù)編譯的hg19基因組,請執(zhí)行以下操作:

addArchRGenome("hg19")

將默認(rèn)基因組設(shè)置為Hg19。


在預(yù)編譯的版本hg38基因組ArchR使用BSgenome.Hsapiens.UCSC.hg38,TxDb.Hsapiens.UCSC.hg38.knownGeneorg.Hs.eg.db,和用合并黑名單ArchR::mergeGR()hg38 V2黑名單區(qū)顯示高mappability到hg38核基因組線粒體地區(qū)從迦勒Lareau和Jason Buenrostro。要將全局基因組默認(rèn)設(shè)置為預(yù)編譯的hg38基因組,請執(zhí)行以下操作:

addArchRGenome("hg38")

將默認(rèn)基因組設(shè)置為Hg38。


在預(yù)編譯的版本MM9在ArchR用途的基因組BSgenome.Mmusculus.UCSC.mm9,TxDb.Mmusculus.UCSC.mm9.knownGene,org.Mm.eg.db,并使用合并,這是一個(gè)黑名單ArchR::mergeGR()MM9 V1黑名單地區(qū)從Anshul Kundaje和顯示高mappability至MM9核基因組線粒體地區(qū)從迦勒Lareau和Jason Buenrostro。要將全局基因組默認(rèn)設(shè)置為預(yù)編譯的mm9基因組,請執(zhí)行以下操作:

addArchRGenome("mm9")

將默認(rèn)基因組設(shè)置為Mm9。


在預(yù)編譯的版本MM10基因組ArchR使用BSgenome.Mmusculus.UCSC.mm10,TxDb.Mmusculus.UCSC.mm10.knownGeneorg.Mm.eg.db,和用合并黑名單ArchR::mergeGR()MM10 V2黑名單區(qū)顯示高mappability到MM10核基因組線粒體地區(qū)從迦勒Lareau和Jason Buenrostro。要將全局基因組默認(rèn)設(shè)置為預(yù)編譯的mm10基因組,請執(zhí)行以下操作:

addArchRGenome("mm10")

將默認(rèn)基因組設(shè)置為Mm10。


1.5.1創(chuàng)建自定義ArchRGenome

如上所述,ArchRGenome由基因組注釋和基因注釋組成。

要?jiǎng)?chuàng)建自定義基因組注釋,我們使用createGenomeAnnotation()。為此,您將需要以下信息:

  1. BSgenome其中包含一個(gè)基因組序列信息的對象。這些通常是Bioconductor軟件包(例如,BSgenome.Hsapiens.UCSC.hg38),可通過google輕松找到。
  2. 一個(gè)GRanges基因組范圍對象,其中包含一組列入黑名單的區(qū)域,這些區(qū)域?qū)⒂糜趶南掠畏治鲋羞^濾掉不需要的區(qū)域。這不是必需的,但建議這樣做。有關(guān)如何創(chuàng)建黑名單的信息,請參閱ENCODE黑名單上的出版物。

例如,如果我們想從果蠅中創(chuàng)建自定義基因組注釋,我們將首先識別并安裝并加載相關(guān)BSgenome對象。

if (!requireNamespace("BSgenome.Dmelanogaster.UCSC.dm6", quietly = TRUE)){
  BiocManager::install("BSgenome.Dmelanogaster.UCSC.dm6")
}
library(BSgenome.Dmelanogaster.UCSC.dm6)

加載所需的軟件包:BSgenome
加載所需的軟件包:Biostrings
加載所需的軟件包:XVector
附加軟件包:'Biostrings'
以下對象從'package:base'中屏蔽:strsplit

然后,我們從該BSgenome對象創(chuàng)建基因組注釋。

genomeAnnotation <- createGenomeAnnotation(genome = BSgenome.Dmelanogaster.UCSC.dm6)

正在獲取基因組..
正在獲取chromSizes ..
正在獲取黑名單..
未下載黑名單!如果沒有繼續(xù),請注意下游的偏差。

檢查該對象顯示了ArchR基因組注釋的組成部分。

genomeAnnotation

長度為3的列表
名稱(3):基因組chromSizes黑名單

要?jiǎng)?chuàng)建自定義基因注釋,我們使用createGeneAnnotation()。為此,您將需要以下信息:

  1. TxDb從Bioconductor的對象(轉(zhuǎn)錄數(shù)據(jù)庫),其包含用于基因/轉(zhuǎn)錄物的坐標(biāo)的信息。
  2. OrgDb來自Bioconductor 的對象(生物數(shù)據(jù)庫),提供了一個(gè)統(tǒng)一的框架來映射基因名稱和各種基因標(biāo)識符。

繼續(xù)以果蠅(Drosophila melanogaster)為例,我們首先安裝并加載相關(guān)對象TxDbOrgDb對象。

if (!requireNamespace("TxDb.Dmelanogaster.UCSC.dm6.ensGene", quietly = TRUE)){
  BiocManager::install("TxDb.Dmelanogaster.UCSC.dm6.ensGene")
}
if (!requireNamespace("org.Dm.eg.db", quietly = TRUE)){
  BiocManager::install("org.Dm.eg.db")
}
library(TxDb.Dmelanogaster.UCSC.dm6.ensGene)

加載所需的軟件包:GenomicFeatures
加載所需的軟件包:AnnotationDbi

library(org.Dm.eg.db)

然后我們創(chuàng)建基因注釋對象。

geneAnnotation <- createGeneAnnotation(TxDb = TxDb.Dmelanogaster.UCSC.dm6.ensGene, OrgDb = org.Dm.eg.db)

正在獲取基因..
確定的注釋樣式= ENSEMBL
正在獲取外顯子..
正在獲取TSS ..

檢查該對象顯示了ArchR基因注釋的組成部分。

geneAnnotation

長度為3的列表
名稱(3):基因外顯子TSS

另外,如果您沒有TxDbOrgDb對象,則可以geneAnnotation根據(jù)以下信息創(chuàng)建一個(gè)對象:

  1. “基因”對象- GRanges包含基因坐標(biāo)的對象(開始到結(jié)束)。該對象的符號列必須與下面描述的“外顯子”對象的符號列匹配。
  2. “外顯子”對象- GRanges包含基因外顯子坐標(biāo)的對象。必須具有與上述“基因”對象的符號列匹配的符號列。
  3. 一個(gè)GRanges包含standed轉(zhuǎn)錄起始位點(diǎn)(對象TSS)的坐標(biāo)。
geneAnnotation <- createGeneAnnotation(
  TSS = geneAnnotation$TSS, 
  exons = geneAnnotation$exons, 
  genes = geneAnnotation$genes
)

1.5.2在ArchR中使用非標(biāo)準(zhǔn)基因組

ArchR實(shí)施了一些檢查,以防止您執(zhí)行我們認(rèn)為“超出正常范圍”的事情。這些檢查之一會強(qiáng)制seqnames您的基因組注釋以“ chr”開頭。在大多數(shù)應(yīng)用中都是如此,但是有些基因組(例如玉米)不使用“ chr”作為不同染色體的前綴。要對此類基因組進(jìn)行任何ArchR分析,您必須告訴ArchR忽略染色體前綴。為此,您必須addArchRChrPrefix(chrPrefix = FALSE)在創(chuàng)建Arrow文件之前運(yùn)行。這將在當(dāng)前R會話中全局關(guān)閉對seqnames的“ chr”前綴的要求。請記住,ArchR默認(rèn)將染色體/序列名稱轉(zhuǎn)換為字符。因此,如果你seqnames僅僅是整數(shù),你需要提供他們的角色,即 useSeqnames = c("1", "2", "3")替代useSeqnames = c(1, 2, 3)。您始終可以使用來檢查當(dāng)前R會話中是否需要染色體前綴getArchRChrPrefix()。

1.6創(chuàng)建箭頭文件

在本教程的其余部分中,我們將使用來自Granja *等人的造血細(xì)胞降采樣數(shù)據(jù)集的數(shù)據(jù)。自然生物技術(shù)2019。這包括來自骨髓單核細(xì)胞(BMMC),外周血單核細(xì)胞(PBMC)和來自骨髓的CD34 +造血干細(xì)胞和祖細(xì)胞(CD34 BMMC)的數(shù)據(jù)。

該數(shù)據(jù)以片段文件的形式下載,其中包含所有比對的測序片段的起始和終止基因組坐標(biāo)。片段文件是10x Genomics分析平臺(和其他平臺)的基本文件類型之一,可以從任何BAM文件輕松創(chuàng)建。有關(guān)創(chuàng)建自己的片段文件以輸入到ArchR的信息,請參見10x Genomics網(wǎng)站。

有了片段文件后,我們會將它們的路徑作為字符向量提供給createArrowFiles()。在創(chuàng)建過程中,一些基本的元數(shù)據(jù)和矩陣被添加到每個(gè)Arrow文件中,其中包括一個(gè)“ TileMatrix”(包含跨全基因組范圍500 bp的條帶的插入計(jì)數(shù)addTileMatrix())(請參見參考資料)和“ GeneScoreMatrix”,該存儲基于在圖塊中加權(quán)插入計(jì)數(shù)的預(yù)測基因表達(dá)在基因啟動子附近(請參閱參考資料addGeneScoreMatrix())。

可以使用該getTutorialData()功能下載教程數(shù)據(jù)。教程數(shù)據(jù)的大小約為0.5 GB。如果您已經(jīng)在當(dāng)前工作目錄中下載了該教程,則ArchR將繞過下載。

library(ArchR)

inputFiles <- getTutorialData("Hematopoiesis")
inputFiles

scATAC_BMMC_R1
“HemeFragments / scATAC_BMMC_R1.fragments.tsv.gz”
scATAC_CD34_BMMC_R1
“HemeFragments / scATAC_CD34_BMMC_R1.fragments.tsv.gz”
scATAC_PBMC_R1
“HemeFragments / scATAC_PBMC_R1.fragments.tsv.gz”

與往常一樣,在開始項(xiàng)目之前,我們必須為并行化設(shè)置ArchRGenome和默認(rèn)值threads。

addArchRGenome("hg19")

將默認(rèn)基因組設(shè)置為Hg19。

addArchRThreads(threads = 16) 

將并行線程的默認(rèn)數(shù)量設(shè)置為16。

現(xiàn)在,我們將創(chuàng)建耗時(shí)10-15分鐘的箭頭文件。對于每個(gè)樣本,此步驟將:

  1. 從提供的輸入文件中讀取可訪問的片段。
  2. 計(jì)算每個(gè)細(xì)胞的質(zhì)量控制信息(即TSS富集得分和核小體信息)。
  3. 根據(jù)質(zhì)量控制參數(shù)過濾單元。
  4. 使用500 bp的條帶創(chuàng)建全基因組的TileMatrix。
  5. 使用geneAnnotation調(diào)用時(shí)定義的自定義創(chuàng)建GeneScoreMatrix addArchRGenome()。
ArrowFiles <- createArrowFiles(
  inputFiles = inputFiles,
  sampleNames = names(inputFiles),
  filterTSS = 4, #Dont set this too high because you can always increase later
  filterFrags = 1000, 
  addTileMat = TRUE,
  addGeneScoreMat = TRUE
)

使用addArchRGenome(Hg19)設(shè)置的GeneAnnotation!
使用addArchRGenome(Hg19)設(shè)置的GeneAnnotation!
ArchR記錄到:ArchRLogs / ArchR-createArrows-dfa159ddbf6e-Date-2020-04-15_Time-09-21-27.log
如果有問題,請使用logFile向github報(bào)告!
清理臨時(shí)文件
2020-04-15 09:21:28:批量執(zhí)行w / safelapply !,已過去0分鐘。
ArchR記錄成功到:ArchRLogs / ArchR-createArrows-dfa159ddbf6e-Date-2020-04-15_Time-09-21-27.log

我們可以檢查ArrowFiles對象,以查看它實(shí)際上只是Arrow文件路徑的字符向量。

ArrowFiles

“ scATAC_BMMC_R1.arrow”“ scATAC_CD34_BMMC_R1.arrow”
“ scATAC_PBMC_R1.arrow”

1.7每單元質(zhì)量控制

scATAC-seq數(shù)據(jù)的嚴(yán)格質(zhì)量控制(QC)對于消除低質(zhì)量細(xì)胞的作用至關(guān)重要。在ArchR中,我們考慮數(shù)據(jù)的三個(gè)特征:

  1. 獨(dú)特核片段的數(shù)量(即不映射到線粒體DNA)。
  2. 信噪比。低的信噪比通常歸因于死亡或垂死的細(xì)胞,這些細(xì)胞具有脫色的DNA,可以在全基因組范圍內(nèi)進(jìn)行隨機(jī)轉(zhuǎn)座。
  3. 片段大小分布。由于核小體的周期性,我們預(yù)計(jì)會看到碎片消失,這些碎片是包裹在核小體周圍的DNA長度(大約147 bp)。

第一個(gè)度量標(biāo)準(zhǔn)是唯一的核片段,很簡單-可用片段很少的細(xì)胞將無法提供足夠的數(shù)據(jù)來做出有用的解釋,因此應(yīng)排除在外。

第二個(gè)指標(biāo),即信噪比,被計(jì)算為TSS富集得分。傳統(tǒng)的批量ATAC-seq分析已使用此TSS富集得分作為確定信號到背景(例如,ENCODE項(xiàng)目)的標(biāo)準(zhǔn)工作流程的一部分)。我們和其他人已經(jīng)發(fā)現(xiàn),在批量ATAC-seq和scATAC-seq中測試的大多數(shù)細(xì)胞類型中,TSS富集具有代表性。TSS富集得分度量標(biāo)準(zhǔn)背后的想法是,由于與啟動子結(jié)合的大型蛋白質(zhì)復(fù)合物,與其他基因組區(qū)域相比,ATAC-seq數(shù)據(jù)普遍在基因TSS區(qū)域富集。通過查看以這些TSS區(qū)域?yàn)橹行牡拿總€(gè)堿基對的可及性,我們發(fā)現(xiàn)相對于側(cè)翼區(qū)域(兩個(gè)方向的遠(yuǎn)端1900-2000 bp)而言,局部富集。相對于這些側(cè)翼區(qū)域,該富集峰(以TSS為中心)之間的比率表示TSS富集得分。

傳統(tǒng)上,針對每個(gè)批量ATAC-seq樣本計(jì)算每個(gè)堿基對的可訪問性,然后使用此配置文件確定TSS富集得分。在scATAC-seq中以每個(gè)單元為單位執(zhí)行此操作相對較慢且計(jì)算量很大。為了準(zhǔn)確估算每個(gè)單細(xì)胞的TSS富集得分,我們計(jì)算以每個(gè)單堿基TSS位置為中心的50 bp區(qū)域內(nèi)的平均可訪問性,并將其除以TSS側(cè)翼位置的平均可訪問性(+/- 1900 – 2000 bp )。該近似值與原始方法高度相關(guān)(R> 0.99),并且值在大小上非常接近。

第三個(gè)度量標(biāo)準(zhǔn),片段大小分布通常不那么重要,但始終可以手動檢查。由于DNA包裹核小體的模式化方式,我們希望在我們的數(shù)據(jù)中看到片段大小分布的核小體周期性。之所以出現(xiàn)這些丘陵和山谷,是因?yàn)槠伪仨毧缭?、1、2等。核小體(Tn5無法切割緊緊包裹在核小體周圍的DNA。

默認(rèn)情況下,在ArchR中,將通過過濾器細(xì)胞識別為那些TSS富集得分大于4且具有1000個(gè)以上獨(dú)特核片段的細(xì)胞。重要的是要注意,TSS富集得分的實(shí)際數(shù)值取決于所使用的TSS的集合。ArchR中的默認(rèn)值是為人類數(shù)據(jù)設(shè)計(jì)的,在運(yùn)行時(shí)更改默認(rèn)閾值可能很重要createArrowFiles()


創(chuàng)建Arrow文件將在當(dāng)前工作目錄中創(chuàng)建一個(gè)名為“ QualityControl”的文件夾,該文件夾將包含與每個(gè)樣本關(guān)聯(lián)的2個(gè)圖。第一張圖顯示了log10(unique nuclear fragments)vs TSS富集得分,并指出了虛線所用的閾值。第二個(gè)顯示片段大小分布。

對于我們的教程數(shù)據(jù),我們有三個(gè)示例,如下所示:

對于BMMC

對于CD34 BMMC


對于PBMC

參考材料:

https://www.archrproject.com/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容