ArchR官網(wǎng)教程學(xué)習(xí)筆記9:ArchR的偽批量重復(fù)

系列回顧:
ArchR官網(wǎng)教程學(xué)習(xí)筆記1:Getting Started with ArchR
ArchR官網(wǎng)教程學(xué)習(xí)筆記2:基于ArchR推測(cè)Doublet
ArchR官網(wǎng)教程學(xué)習(xí)筆記3:創(chuàng)建ArchRProject
ArchR官網(wǎng)教程學(xué)習(xí)筆記4:ArchR的降維
ArchR官網(wǎng)教程學(xué)習(xí)筆記5:ArchR的聚類
ArchR官網(wǎng)教程學(xué)習(xí)筆記6:單細(xì)胞嵌入(Single-cell Embeddings)
ArchR官網(wǎng)教程學(xué)習(xí)筆記7:ArchR的基因評(píng)分和Marker基因
ArchR官網(wǎng)教程學(xué)習(xí)筆記8:定義與scRNA-seq一致的聚類

這一章都是理論的知識(shí),原理很多,對(duì)于我這個(gè)沒(méi)學(xué)過(guò)統(tǒng)計(jì)學(xué)的人來(lái)說(shuō)讀起來(lái)有些吃力。翻譯的也比較晦澀,感興趣的同學(xué)可以去官網(wǎng)看英文原版here

因?yàn)閟cATAC-seq數(shù)據(jù)本質(zhì)上是二進(jìn)制的,意味著任何單個(gè)的位點(diǎn)要么是可接近的,要么是不可接近的。我們想執(zhí)行的分析不可能在單個(gè)細(xì)胞上就能完成。此外,我們想要執(zhí)行的許多分析都需要重復(fù)來(lái)獲得統(tǒng)計(jì)學(xué)顯著性的測(cè)量值。在單細(xì)胞數(shù)據(jù)中,我們通過(guò)創(chuàng)建“偽批量重復(fù)”(pseudo-bulk replicates)來(lái)解決這些問(wèn)題。偽批量(pseudo-bulk)指的是一組單細(xì)胞,其中來(lái)自每個(gè)單細(xì)胞的數(shù)據(jù)被合并成一個(gè)單一的偽樣本(pseudo-sample),類似于bulk ATAC-seq實(shí)驗(yàn)。ArchR為每個(gè)預(yù)期的細(xì)胞分組生成多個(gè)這樣的偽批量樣本,因此有偽批量重復(fù)一詞。在這個(gè)過(guò)程中,潛在的假設(shè)是,被組合在一起的單細(xì)胞非常相似,所以我們不關(guān)心它們之間的區(qū)別。這些細(xì)胞分組幾乎總是來(lái)自單個(gè)的cluster或cluster的超級(jí)組,對(duì)應(yīng)于已知的細(xì)胞類型。本章描述了ArchR生成這些偽批量重復(fù)的過(guò)程。

(一)ArchR如何生成偽批量重復(fù)?

為了創(chuàng)建偽批量復(fù)制,ArchR使用了分級(jí)優(yōu)先的方法。用戶指定(i)所需的最小和最大重復(fù)數(shù),(ii)每個(gè)重復(fù)所需的最少和最多的細(xì)胞數(shù),以及(iii)如果特定分組缺少足夠的細(xì)胞來(lái)進(jìn)行所需的重復(fù)數(shù)時(shí)使用的采樣比率。例如,采樣率為0.8意味著對(duì)于每個(gè)重復(fù),可以在不替換的情況下采樣細(xì)胞總數(shù)的80%(這將導(dǎo)致對(duì)多個(gè)重復(fù)進(jìn)行替換的采樣)。在這種情況下,多個(gè)重復(fù)可能包含一些相同的細(xì)胞,但如果你希望從缺少足夠細(xì)胞的細(xì)胞群生成偽批量重復(fù),那么這是必要的犧牲。

我們處理偽批量重復(fù)的生成可以用一個(gè)決策樹(shù)來(lái)描述,如下所示:

我們?cè)谶@里用文字概括了這個(gè)過(guò)程的一些關(guān)鍵事項(xiàng)。首先,用戶標(biāo)識(shí)要使用的細(xì)胞群,這通常是ArchR里call的clusters。然后,對(duì)于每個(gè)細(xì)胞群,ArchR嘗試創(chuàng)建預(yù)期的偽批量重復(fù)。理想的偽批量重復(fù)是由單個(gè)樣本中足夠數(shù)量的細(xì)胞組成。這保持了樣品的多樣性和重復(fù)之間的生物學(xué)variation。這是ArchR努力想要得到的,但實(shí)際上在這個(gè)過(guò)程中有5種可能的結(jié)果,在ArchR中按優(yōu)先級(jí)排列如下:

1.足夠多的不同樣本(至少是最大#重復(fù)數(shù))每個(gè)都擁有超過(guò)最小細(xì)胞數(shù)的細(xì)胞,以感知樣本的方式創(chuàng)建偽批量重復(fù),僅將來(lái)自相同樣本的細(xì)胞合并為單個(gè)重復(fù)。
2.有些樣本的細(xì)胞數(shù)超過(guò)了最少細(xì)胞數(shù),可以以感知樣本的方式創(chuàng)建偽批量重復(fù)。剩下的所需要的重復(fù)是通過(guò)合并那些在感知樣本的偽批量重復(fù)中沒(méi)有出現(xiàn)的樣本的細(xì)胞來(lái)創(chuàng)建的。
3.沒(méi)有一個(gè)樣本擁有超過(guò)創(chuàng)建可識(shí)別樣本的偽批量重復(fù)所需的最小細(xì)胞數(shù),但是細(xì)胞數(shù)比minCells * minReps要多。
4.細(xì)胞群內(nèi)的總細(xì)胞數(shù)小于最小細(xì)胞數(shù)乘以最小重復(fù)數(shù)(minCells * minReps),但大于最小細(xì)胞數(shù)除以抽樣比例。通過(guò)在單個(gè)重復(fù)中不進(jìn)行替換而在多個(gè)重復(fù)中進(jìn)行替換的抽樣來(lái)創(chuàng)建最小的重復(fù)數(shù),同時(shí)最小化多個(gè)偽批量重復(fù)中的細(xì)胞數(shù)。
5.細(xì)胞分組內(nèi)的總細(xì)胞數(shù)小于最小細(xì)胞數(shù)除以抽樣比率。這意味著我們必須通過(guò)在單個(gè)重復(fù)中以及在不同的重復(fù)中進(jìn)行抽樣和替換來(lái)進(jìn)行復(fù)制。這是最壞的情況,用戶在使用這些偽批量重復(fù)時(shí)應(yīng)該謹(jǐn)慎。這可以在其他各種ArchR函數(shù)使用minCells參數(shù)來(lái)控制。

舉個(gè)例子,下面是一個(gè)示例數(shù)據(jù):

我們將參數(shù)設(shè)置成:minRep = 3, maxRep = 5, minCells = 300, maxCells = 1000, sampleRatio = 0.8

(1)Cluster 1

對(duì)于cluster 1,我們有6個(gè)樣品(超過(guò)maxRep設(shè)置的參數(shù)),每一個(gè)樣品都超過(guò)了minCells的300個(gè)細(xì)胞。這就是上面提到的第一種情況。我們創(chuàng)建5個(gè)偽批量重復(fù):

關(guān)于這些重復(fù),需要注意兩件事:(i) SampleC被忽略了,因?yàn)槲覀冇凶銐虻臉颖緛?lái)創(chuàng)建能夠識(shí)別maxRep樣本的偽批量重復(fù),而且SampleC擁有最少的細(xì)胞數(shù)。(ii)樣品D只使用了1000個(gè)細(xì)胞,因?yàn)檫@是maxCells的值。

(2)Cluster 2

對(duì)于Cluster2,我們有3個(gè)樣本的細(xì)胞數(shù)都比minCells多,其他的樣本沒(méi)有。這說(shuō)明了上面的第二種情況,我們將進(jìn)行以下偽批量重復(fù):

在這個(gè)例子中,第四個(gè)重復(fù)是從三個(gè)樣品里都取了一些細(xì)胞。

(3)Cluster 3

對(duì)于Cluster3,我們只有2個(gè)樣本的細(xì)胞數(shù)超過(guò)minCells的設(shè)置,小于所需的minReps。但是,如果我們把剩下的樣本中的細(xì)胞合并起來(lái),我們就可以有一個(gè)額外的重復(fù)(多于minCells)。這將給我們提供3個(gè)偽批量重復(fù),就是上面所說(shuō)的第三種情況:

(4)Cluster 4

對(duì)于Cluster4,總細(xì)胞數(shù)為750,小于minCells * minReps(900細(xì)胞)。在這種情況下,我們沒(méi)有足夠的細(xì)胞來(lái)使用minCells來(lái)生成minReps,而不進(jìn)行某種形式的替換采樣。然而,總細(xì)胞數(shù)仍然大于minCells / sampleRatio(375個(gè)細(xì)胞),這意味著我們只需要在不同的偽批量重復(fù)中進(jìn)行替換采樣,而不是在單個(gè)重復(fù)中進(jìn)行。這代表了上面第四種情況:

(5)Cluster 5

對(duì)于Cluster5,細(xì)胞總數(shù)為250個(gè),小于minCells * minReps(900個(gè)細(xì)胞)和minCells / sampleRatio(375個(gè)細(xì)胞)。這意味著我們必須在每個(gè)樣本內(nèi)和不同的重復(fù)之間進(jìn)行替換取樣,以制造偽批量重復(fù)。這代表了上面第五種最不理想的情況,因此我們?cè)谙掠畏治鲋惺褂眠@些偽批量重復(fù)時(shí)應(yīng)該謹(jǐn)慎:

(二)創(chuàng)建偽批量重復(fù)

在ArchR中,使用addGroupCoverages()函數(shù)進(jìn)行偽批量重復(fù)。這里的關(guān)鍵參數(shù)是groupBy,它定義了應(yīng)該為其進(jìn)行偽批量重復(fù)的組。這里,我們使用Clusters2,它是前一章中由scRNA-seq數(shù)據(jù)定義的細(xì)胞類型來(lái)標(biāo)記的clusters:

> projHeme4 <- addGroupCoverages(ArchRProj = projHeme3, groupBy = "Clusters2")

通過(guò)生成這些偽批量重復(fù),我們現(xiàn)在可以call數(shù)據(jù)中的peaks了。如前所述,我們不希望在所有細(xì)胞的合并集合上call peaks,因此定義這些更詳細(xì)的細(xì)胞群,為call peak提供了理想的起點(diǎn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容