一文學(xué)會(huì)單細(xì)胞轉(zhuǎn)錄組的CellRanger(二)

前面說(shuō)了cellranger安裝和一些簡(jiǎn)單的使用,我們繼續(xù)看一下cellranger的結(jié)果。
一文學(xué)會(huì)單細(xì)胞轉(zhuǎn)錄組的CellRanger(一) - 簡(jiǎn)書(shū) (jianshu.com)

一、HTML報(bào)告解讀

cellranger count 輸出一個(gè)名為web_summary.html 的交互式 HTML 文件,其中包含一些匯總的指標(biāo)和二次分析結(jié)果。如果在運(yùn)行期間檢測(cè)到問(wèn)題,則此頁(yè)面上會(huì)顯示warning或error。Cell Ranger 故障排除文檔中提供了有關(guān)警報(bào)的詳細(xì)信息,可在文檔中進(jìn)行查詢。
注:如設(shè)置了--nosecondary參數(shù)則沒(méi)有二次分析的結(jié)果

1、基本功能

圖是HTML的部分截圖
image.png

(1)可以通過(guò)單擊 HTML 文件中的“Sequencing”、“Mapping”和“Cells”旁邊的?圖標(biāo),來(lái)查看指標(biāo)的含義,點(diǎn)擊后出現(xiàn)如下圖的信息:
image.png

(2)可以通過(guò)單擊 HTML 文件左上角選項(xiàng)卡中的Summary來(lái)查看一些匯總指標(biāo)。匯總指標(biāo)描述了測(cè)序質(zhì)量和檢測(cè)到的細(xì)胞的各種特征。點(diǎn)擊Analysis查看二次分析結(jié)果。
image.png

2、重要指標(biāo)含義

(1)、下圖顯示的是檢測(cè)到的估計(jì)細(xì)胞數(shù)、每個(gè)細(xì)胞的平均reads數(shù)和每個(gè)細(xì)胞檢測(cè)到的基因中位數(shù)。
image.png

(2)、“Cells"部分的barcode-rank-plot的分布圖。y 軸是映射到每個(gè)barcode的 UMI 計(jì)數(shù)值,x 軸是低于該值的barcode數(shù)。急劇下降表示與cell關(guān)聯(lián)的barcode與背景區(qū)關(guān)聯(lián)的barcode之間具有良好的分離。由于barcode可以根據(jù)其UMI計(jì)數(shù)或RNA譜與細(xì)胞相關(guān)聯(lián),因此圖形的某些區(qū)域可以同時(shí)包含細(xì)胞相關(guān)和背景相關(guān)barcode。圖形的顏色表示與cell關(guān)聯(lián)的barcode的局部密度。

image.png

(3)、測(cè)序飽和度Sequencing Saturation: 每個(gè)樣本過(guò)濾后細(xì)胞的reads數(shù)占總reads數(shù)(含背景)的百分比,反應(yīng)測(cè)序數(shù)據(jù)利用率,當(dāng)值達(dá)到80%以上,代表測(cè)序reads覆蓋了所有mRNA。
(4)、若Reads Mapped Confidently to Intronic Regions的值高于40%,是因?yàn)榘琾re-mRNA。
(5)、Fraction Reads in Cells :理想情況高于70%,數(shù)據(jù)質(zhì)量則比較好。若值較低,可能是以下兩種情況導(dǎo)致。第一,細(xì)胞裂解或死亡,cell ranger將其判斷為背景RNA,導(dǎo)致樣品中背景RNA含量過(guò)高;第二,大量具有低 RNA 含量的細(xì)胞,算法并未將其判斷為cell導(dǎo)致的。 后一種情況可以通過(guò)檢查數(shù)據(jù)來(lái)確定適當(dāng)?shù)募?xì)胞計(jì)數(shù)并使用 --force-cells 來(lái)解決。

二、filtered_feature_bc_matrix和raw_feature_bc_matrix文件夾

兩個(gè)文件夾下的內(nèi)容是一樣的,是稀疏矩陣,包含三個(gè)文件。文件的區(qū)別是數(shù)量上的,顧名思義,一個(gè)是原始的數(shù)據(jù),一個(gè)是過(guò)濾后的結(jié)果。后面的分析一般使用filtered_feature_bc_matrix文件夾下的矩陣。

filtered_feature_bc_matrix
├── barcodes.tsv.gz
├── features.tsv.gz
└── matrix.mtx.gz

1、 barcodes.tsv.gz文件存放的細(xì)胞的barcodes標(biāo)簽,可以理解為每個(gè)barcode標(biāo)簽代表一個(gè)cell。

 $ less barcodes.tsv.gz|head
AAACCCAAGACGCATG-1
AAACCCACACAAGCCC-1
AAACCCACACTTACAG-1
AAACCCAGTAACTTCG-1
AAACCCAGTCTGTTAG-1
AAACCCAGTGAGATAT-1
AAACCCAGTTCGTACA-1
AAACCCATCCGAGATT-1
AAACGAAAGACTTGTC-1
AAACGAAAGCTCACTA-1

2、 features.tsv.gz文件存放的gene id和對(duì)應(yīng)的gene name。

 $ less features.tsv.gz|head
ENSG00000243485 MIR1302-2HG     Gene Expression
ENSG00000237613 FAM138A Gene Expression
ENSG00000186092 OR4F5   Gene Expression
ENSG00000238009 AL627309.1      Gene Expression
ENSG00000239945 AL627309.3      Gene Expression
ENSG00000239906 AL627309.2      Gene Expression
ENSG00000241860 AL627309.5      Gene Expression
ENSG00000241599 AL627309.4      Gene Expression
ENSG00000286448 AP006222.2      Gene Expression
ENSG00000236601 AL732372.1      Gene Expression

3、matrix.mtx.gz文件存放的對(duì)應(yīng)barcode和features的對(duì)應(yīng)count值。前兩行是一些版本信息等。第三行依次是features數(shù)量總和,barcode數(shù)量總和,count值總和,第四行開(kāi)始是對(duì)應(yīng)的結(jié)果。比如 31 1 4 對(duì)應(yīng)的是在features文件第31行的基因,1對(duì)應(yīng)的barcode文件中的第1行信息,4對(duì)應(yīng)檢測(cè)到的count值。

 $ less matrix.mtx.gz|head
%%MatrixMarket matrix coordinate integer general
%metadata_json: {"software_version": "cellranger-4.0.0", "format_version": 2}
36601 9620 11561775
31 1 4
74 1 2
81 1 1
84 1 1
87 1 1
114 1 1
171 1 3

三、analysis文件夾

軟件默認(rèn)會(huì)進(jìn)行二次分析,結(jié)果中會(huì)出現(xiàn)analysis文件。如果后續(xù)用其他軟件代替這部分內(nèi)容(比如Seurat、Scanpy等),可以設(shè)置了--nosecondary參數(shù),省略二次分析。以下是analysis文件夾的結(jié)構(gòu):

clustering
├── graphclust
├── kmeans_10_clusters
├── kmeans_2_clusters
├── kmeans_3_clusters
├── kmeans_4_clusters
├── kmeans_5_clusters
├── kmeans_6_clusters
├── kmeans_7_clusters
├── kmeans_8_clusters
└── kmeans_9_clusters
diffexp
├── graphclust
├── kmeans_10_clusters
├── kmeans_2_clusters
├── kmeans_3_clusters
├── kmeans_4_clusters
├── kmeans_5_clusters
├── kmeans_6_clusters
├── kmeans_7_clusters
├── kmeans_8_clusters
└── kmeans_9_clusters
pca
└── 10_components
tsne
└── 2_components
umap
└── 2_components

1、pca 降維

在對(duì)細(xì)胞進(jìn)行聚類之前,在歸一化過(guò)濾的矩陣上運(yùn)行主成分分析 (PCA),以減少features(基因)維度的數(shù)量。僅將基因表達(dá)特征用作 PCA 特征。PCA 分析生成五個(gè)輸出文件。第一個(gè)是每個(gè)cell對(duì)前 N 個(gè)主分量的投影。默認(rèn)情況下 N=10。

$ head -2 analysis/pca/gene_expression_10_components/projection.csv
Barcode,PC-1,PC-2,PC-3,PC-4,PC-5,PC-6,PC-7,PC-8,PC-9,PC-10
AAACAAGCACCATACT-1,18.55496347631502,-8.428877305709332,3.7717969735420835,-0.61215157678172,-1.0987614379684771,2.194733668965279,-2.6595895212967386,-2.8703699622639114,1.867229094193604,0.2658532968798859

第二個(gè)文件是一個(gè)分量矩陣,它指示每個(gè)特征對(duì)每個(gè)主分量的貢獻(xiàn)(荷載)。未包含在 PCA 分析中的要素的所有載荷值都設(shè)置為零。

$ head -2 analysis/pca/gene_expression_10_components/components.csv
PC,ENSG00000228327,ENSG00000237491,ENSG00000177757,ENSG00000225880,...,ENSG00000160310
1,-0.0044,0.0039,-0.0024,-0.0016,...,-0.0104

第三個(gè)文件包含選擇用于主成分計(jì)算的具有最高離散的要素的gene id。

$ head -5 analysis/pca/gene_expression_10_components/features_selected.csv
Feature
1,ENSG00000167723
2,ENSG00000179029
3,ENSG00000196544
4,ENSG00000141499

第四個(gè)文件記錄每個(gè)主成分解釋的總方差比例。 在選擇重要的主成分?jǐn)?shù)量時(shí),查看很有用,當(dāng)數(shù)字變化平緩時(shí), 后續(xù) PC 在數(shù)據(jù)中的意義不大。

$ head -5 analysis/pca/gene_expression_10_components/variance.csv
PC,Proportion.Variance.Explained
1,0.0056404970744118104
2,0.0038897311237809061
3,0.0028803714818085419
4,0.0020830581822081206

最后一個(gè)文件列出了每個(gè)要素,按平均表達(dá)式對(duì)要素進(jìn)行分箱后的歸一化離散程度,用于度量每個(gè)特征的可變性。

$ head -5 analysis/pca/gene_expression_10_components/dispersion.csv
Feature,Normalized.Dispersion
ENSG00000228327,2.0138970131886671
ENSG00000237491,1.3773662040549017
ENSG00000177757,-0.28102027567224191
ENSG00000225880,1.9887312950109921

2、t-SNE

運(yùn)行 PCA 后,運(yùn)行 t-distributed Stochastic Neighbor Embedding(t-SNE) 將數(shù)據(jù)在一個(gè)2D的維度進(jìn)行可視化。

$ head -5 analysis/tsne/gene_expression_2_components/projection.csv
Barcode,TSNE-1,TSNE-2
AAACATACAACGAA-1,-13.5494,1.4674
AAACATACTACGCA-1,-2.7325,-10.6347
AAACCGTGTCTCGC-1,12.9590,-1.6369
AAACGCACAACCAC-1,-9.3585,-6.7300

3、UMAP

運(yùn)行 PCA 后,運(yùn)行Uniform Manifold Approximation and Projection(UMAP)將數(shù)據(jù)在一個(gè)2D的維度進(jìn)行可視化。

$ head -5 analysis/umap/gene_expression_2_components/projection.csv
Barcode,UMAP-1,UMAP-2
AAACCTGAGAATAGGG-1,0.5974335,1.320372
AAACCTGAGAGCTGGT-1,2.2277818,-0.52756095
AAACCTGAGCGTTGCC-1,2.675832,1.1010709
AAACCTGCACGGACAA-1,2.7049212,-3.1494563

4、clustering 聚類

運(yùn)行聚類分析,根據(jù)具有相似表達(dá)譜的細(xì)胞在 PCA 空間中的投影,將它們分組在一起。cellranger使用了兩中方法:

  • Graph-based
    ??圖聚類算法包括兩步:首先用PCA降維的數(shù)據(jù)構(gòu)建一個(gè)細(xì)胞間的k近鄰稀疏矩陣,即將一個(gè)細(xì)胞與其歐式距離上最近的k個(gè)細(xì)胞聚為一類,然后在此基礎(chǔ)上用Louvain算法進(jìn)行模塊優(yōu)化,旨在找到圖中高度連接的模塊。最后通過(guò)層次聚類將位于同一區(qū)域內(nèi)沒(méi)有差異表達(dá)基因(B-H adjusted p-value 低于0.05)的cluster進(jìn)一步融合,重復(fù)該過(guò)程直到?jīng)]有clusters可以合并。因?yàn)樗恍枰A(yù)先指定數(shù)量的聚類,只需要運(yùn)行一次。
  • K-Means
    ??k-means算法隨機(jī)在PCA降維的空間中適當(dāng)選取k個(gè)聚類質(zhì)心點(diǎn),對(duì)于每一個(gè)細(xì)胞計(jì)算其應(yīng)該屬于的cluster,然后對(duì)于每一個(gè)cluster重新計(jì)算該cluster的質(zhì)心,重復(fù)該過(guò)程直到收斂。注意這里K-means針對(duì) K=2,...,N 的許多值運(yùn)行,其中 K 對(duì)應(yīng)于聚類數(shù)。默認(rèn)情況下 N=10(與圖聚類算法的k意義不同),質(zhì)心代表對(duì)屬于同一個(gè)cluster的細(xì)胞中心點(diǎn)的猜測(cè)。k-means可說(shuō)是最簡(jiǎn)單、最經(jīng)典的聚類算法。
$ ls analysis/clustering
gene_expression_graphclust
gene_expression_kmeans_10_clusters
gene_expression_kmeans_2_clusters
gene_expression_kmeans_3_clusters
gene_expression_kmeans_4_clusters
gene_expression_kmeans_5_clusters
gene_expression_kmeans_6_clusters
gene_expression_kmeans_7_clusters
gene_expression_kmeans_8_clusters
gene_expression_kmeans_9_clusters

5、diffexp差異表達(dá)

cellranger還會(huì)生成一個(gè)表,指示每個(gè)聚類中相對(duì)于所有其他聚類中哪些要素以差異方式表示。對(duì)于每個(gè)特征和每個(gè)聚類 i,我們計(jì)算三個(gè)值:

  • The mean expression of this feature in cluster i (i.e., across cells assigned to cluster i)
  • The log2 fold-change of this feature's mean expression in cluster i relative to all other cells
  • A p-value denoting significance of this feature's expression in cluster i relative to cells in other clusters. P-values within each cluster are adjusted for false discovery rate to account for the number of hypotheses (i.e., number of features) being tested.
$ head -5 analysis/diffexp/gene_expression_kmeans_3_clusters/differential_expression.csv
Feature ID,Feature Name,Cluster 1 Mean UMI Counts,Cluster 1 Log2 fold change,Cluster 1 Adjusted p value,Cluster 2 Mean UMI Counts,Cluster 2 Log2 fold change,Cluster 2 Adjusted p value,Cluster 3 Mean UMI Counts,Cluster 3 Log2 fold change,Cluster 3 Adjusted p value
ENSG00000228327,RP11-206L10.2,0.0056858989363338264,2.6207666981569986,0.00052155805898912184,0.0,-0.75299726644507814,0.64066099091888962,0.00071455453829430329,-2.3725403666493312,0.0043023680184636837
ENSG00000237491,RP11-206L10.9,0.00012635330969630726,-0.31783275717885928,0.40959138980118809,0.0,3.8319652342760779,0.11986963938734894,0.0,0.56605908868652577,0.39910771338768203
ENSG00000177757,FAM87B,0.0,-2.9027952579000154,0.0,0.0,3.2470027335549219,0.19129034227967889,0.00071455453829430329,3.1510215894076818,0.0
ENSG00000225880,LINC00115,0.0003790599290889218,-5.71015017995762,8.4751637615375386e-28,0.20790015775229512,7.965820981010868,1.3374521290889345e-46,0.0017863863457357582,-2.2065304152104019,0.00059189960914085744
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容