10x RNAseq Cellranger結果的對應關系:

10x RNAseq數(shù)據(jù)

在用cellranger 跑完10xRNaseq數(shù)據(jù)分析后,會生成一個outs目錄,

這個目錄下還有一個/filtered_feature_bc_matrix目錄,里面放著三個文件:

matrix.mtx.gz

features.tsv.gz

barcodes.tsv.gz

這三個文件的對應關系是什么樣的呢?今天我們來一探究竟:

(一) matrix.mtx.gz文件:
image.png
(二) features.tsv.gz
image.png

多說一句: 如果建庫時有CITEseq的信息,會增加表面蛋白基因信息到這個文件的底部:比如這里增加了三個表面蛋白基因.

image.png
(三) barcode.tsv.gz文件:
image.png
這三個文件的對應關系:

先看一下barcode文件有多少行,就表示有多少barcode,也就是細胞:

le  barcodes.tsv.gz |wc

  9631    9631  182989

再看一下有多少gene(features)文件有多少行.表示總共有多少個基因.

$ le features.tsv.gz |wc

  36601  146404 1479171

就會發(fā)現(xiàn),9631個barcode和36601個基因跟matrix文件中的第三行是對應的,matrix表格中第三行的第三列數(shù)字是umi的總數(shù)。圖一綠色框所示.

matrix.tsv.gz這個文件,前兩行以%開頭的信息可以忽略,第三行是總數(shù),從第四行開始,每一行是某一個基因(第一列)在某一個barcode(第二列)中的 umi count(第三列)?;蚝蚥arcode的數(shù)字分別對應于barcodes.tsv.gz和features.tsv.gz的行數(shù)。

舉例: 比如文件第四行的數(shù)字是33509 1 67,就是features.tsv第33509行的這個基因,在barcodes.tsv第1行的barcode里,有67個umi count.

我們來驗證一下:

在features.tsv文件中找到第33509行的基因"ISG15",再找到barcode.tsv中第一行的barcode: "AAACCTGGTCCTAGCG-1",然后用這兩個值在R中找一下看看是不是結果等于67就可以了.

library(Seurat)
data = Seurat::Read10X(data.dir='/xxx/filtered_feature_bc_matrix')

data$`Gene Expression`['ISG15','AAACCTGGTCCTAGCG-1']
[1] 67
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容