10x RNAseq數(shù)據(jù)
在用cellranger 跑完10xRNaseq數(shù)據(jù)分析后,會生成一個outs目錄,
這個目錄下還有一個/filtered_feature_bc_matrix目錄,里面放著三個文件:
matrix.mtx.gz
features.tsv.gz
barcodes.tsv.gz
這三個文件的對應關系是什么樣的呢?今天我們來一探究竟:
(一) matrix.mtx.gz文件:

(二) features.tsv.gz

多說一句: 如果建庫時有CITEseq的信息,會增加表面蛋白基因信息到這個文件的底部:比如這里增加了三個表面蛋白基因.

(三) barcode.tsv.gz文件:

這三個文件的對應關系:
先看一下barcode文件有多少行,就表示有多少barcode,也就是細胞:
le barcodes.tsv.gz |wc
9631 9631 182989
再看一下有多少gene(features)文件有多少行.表示總共有多少個基因.
$ le features.tsv.gz |wc
36601 146404 1479171
就會發(fā)現(xiàn),9631個barcode和36601個基因跟matrix文件中的第三行是對應的,matrix表格中第三行的第三列數(shù)字是umi的總數(shù)。圖一綠色框所示.
matrix.tsv.gz這個文件,前兩行以%開頭的信息可以忽略,第三行是總數(shù),從第四行開始,每一行是某一個基因(第一列)在某一個barcode(第二列)中的 umi count(第三列)?;蚝蚥arcode的數(shù)字分別對應于barcodes.tsv.gz和features.tsv.gz的行數(shù)。
舉例: 比如文件第四行的數(shù)字是33509 1 67,就是features.tsv第33509行的這個基因,在barcodes.tsv第1行的barcode里,有67個umi count.
我們來驗證一下:
在features.tsv文件中找到第33509行的基因"ISG15",再找到barcode.tsv中第一行的barcode: "AAACCTGGTCCTAGCG-1",然后用這兩個值在R中找一下看看是不是結果等于67就可以了.
library(Seurat)
data = Seurat::Read10X(data.dir='/xxx/filtered_feature_bc_matrix')
data$`Gene Expression`['ISG15','AAACCTGGTCCTAGCG-1']
[1] 67