cellranger使用的初步探索(4):R讀取cellranger的輸出文件

在上一篇筆記里,練習(xí)了使用cellranger aggr整合不同GEM well的樣品(cellranger使用的初步探索(3)cellranger aggr),得到的"outs"文件夾里,有一個名為 “filtered_gene_bc_matrices_mex”的子文件夾,里面有三個文件:

其中,genes.tsv是基因名稱(需要注意的是,我使用的cellranger是2.2版本,目前v3版本的gene.tsv已經(jīng)改為 features.csv);barcodes.tsv是每一個barcode的序列,也就是每一個細胞的ID;matrix.mtx就是count矩陣。

> library(Matrix)
#讀取三個文件
> barcode.path <- paste0("barcodes.tsv")
> features.path <- paste0("genes.tsv")
> matrix.path <- paste0("matrix.mtx")
> mat <- readMM(file = matrix.path)
> feature.names = read.delim(features.path, 
                           header = FALSE,
                           stringsAsFactors = FALSE)
> barcode.names = read.delim(barcode.path, 
                           header = FALSE,
                           stringsAsFactors = FALSE)

feature.name(基因名稱矩陣)長這樣:

barcode.names(細胞barcode矩陣)長這樣:

> colnames(mat) = barcode.names$V1#把細胞ID賦值給count矩陣的列名,這樣每一列就是一個細胞
> rownames(mat) = feature.names$V2#把基因名稱的第二列賦值給count矩陣的行名,這樣行就是基因

看一下count矩陣:

> mat[1:4, 1:4]
4 x 4 sparse Matrix of class "dgTMatrix"
             AAACCTGAGGATGTAT-1 AAACCTGCAGCGATCC-1 AAACCTGGTACGAAAT-1 AAACGGGAGCTGGAAC-1
RP11-34P13.3                  .                  .                  .                  .
FAM138A                       .                  .                  .                  .
OR4F5                         .                  .                  .                  .
RP11-34P13.7                  .                  .                  .                  .
> dim(mat) #在count矩陣里有3萬多個基因,7922個細胞
[1] 33694  7922

之后就可以使用Seurat或者其他R包進行下游分析了~可以參考我之前的筆記:
1.單細胞測序分析之Seurat(3.0)包學(xué)習(xí)筆記
2.單細胞測序分析之Monocle2包學(xué)習(xí)筆記
3.單細胞測序分析之scater包學(xué)習(xí)筆記

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

友情鏈接更多精彩內(nèi)容