卡卡最近接觸到了單細胞空間轉錄組的數(shù)據(jù),需要對其進行標準分析得到統(tǒng)一的數(shù)據(jù)格式,接觸到了spaceranger軟件。
spaceranger軟件[1]
spaceranger軟件是10X Genomics開發(fā)的,適用其Visium Spatial platform產(chǎn)生的數(shù)據(jù),可以將原始fastq數(shù)據(jù)經(jīng)過質控,比對,定量等步驟后轉為spot X gene的表達矩陣,供分析人員進行二級分析;當然,其功能不僅限于此,但是這個是其很重要的功能。
raw feature-barcode matrix轉為filtered feature-barcode matrix
卡卡分析時發(fā)現(xiàn),有的公共數(shù)據(jù),只提供raw feature-barcode matrix,但是下游分析一般使用的是filtered feature-barcode matrix,該怎么辦呢?是不是spaceranger軟件可以幫忙呢?卡卡發(fā)現(xiàn):
- 對于10X的6.5mm的Visium slides芯片,barcode白名單有4992個,即raw feature-barcode matrix的spot數(shù)目一般為4992個;而對于11mm的芯片,則有14336個spot barcode白名單;
- 只有被tissue覆蓋的spot用于生成filtered feature-barcode matrix并進行下游分析[1];
- spcaeranger官網(wǎng)說明通過Imaging Algorithms確定真正被tissue組織覆蓋的spot,并將其定義在tissue_positions.csv文件中;
- 因此卡卡覺得可以根據(jù)tissue_positions.csv文件第二列信息(是否被tissue組織覆蓋),對raw feature-barcode matrix進行過濾得到filtered feature-barcode matrix;
- 于是卡卡找了一些公共及項目的數(shù)據(jù),驗證是否filtered feature-barcode matrix的barcode就是tissue_positions.csv文件中第二列為1的barcode;
- 構建驗證函數(shù)為check_tissue,并進行測試,發(fā)現(xiàn)猜想是正確的;
check_tissue <- function(tissuefile,filtereddir){
if(! file.exists(tissuefile)){stop(paste0(tissuefile,' not exist!!'))}
dat <- read.table(tissuefile,header=F,sep=",")
dat <- dat[dat[,2]==1,]
intissue_cell <- dat[,1]
barcode_file = file.path(filtereddir,'barcodes.tsv.gz')
if(! file.exists(barcode_file)){stop(paste0(barcode_file,' not exist!!'))}
filtered_barcode <- read.table(barcode_file)
if(length(filtered_barcode$V1) == length(intissue_cell) && all(intissue_cell %in% filtered_barcode$V1)){
print('yes, filtered barcodes is the same with that in tissue_positions_list')
}else{
print('no, filtered barcodes is not the same with that in tissue_positions_list')
}
}
- 因此,卡卡構建了函數(shù)raw2filtered,可以將raw feature-barcode matrix轉成filtered feature-barcode matrix;
raw2filtered <- function(datapath,tissuefile){
library(Seurat)
library(Matrix)
library(dplyr)
library(plyr)
library(data.table)
library(DropletUtils)
if(! file.exists(tissuefile)){stop(paste0(tissuefile,' not exist!!'))}
dat <- read.table(tissuefile,header=F,sep=",")
dat <- dat[dat[,2]==1,]
intissue_cell <- dat[,1]
rawdir <- file.path(datapath,'raw_feature_bc_matrix')
if(! dir.exists(rawdir)){stop(paste0(rawdir,' not exist!!'))}
raw_data <- Read10X(data.dir=file.path(datapath, "filtered_feature_bc_matrix"))
if(! all(intissue_cell %in% colnames(raw_data))){stop(paste0(tissuefile,' is error!!'))}
filtered_data <- raw_data[,intissue_cell]
filtereddir = file.path(datapath,'filtered_feature_bc_matrix')
write10xCounts(x = filtered_data, path = filtereddir, version='3', overwrite = TRUE)
}
- 其實有的分析步驟也可以直接用raw feature-barcode matrix進行分析,因為有的函數(shù)默認會根據(jù)tissue_positions.csv文件進行過濾,像BayesSpace的readVisium函數(shù)。
什么是單細胞空間轉錄組(Spatial Transcriptomics, ST)呢?
??單細胞轉錄組(scRNA-seq) 技術能夠檢測組織內(nèi)存在的不同亞群,但是在組織解離中會丟失細胞的空間信息,而空間信息對于了解細胞相互作用是很重要的,單細胞空間轉錄組就能夠提供細胞的空間信息。
??但是單細胞空間轉錄組的分辨率沒有scRNA-seq那么么高,也就是說單個細胞(spot) 實際上含有數(shù)個細胞。
??目前商用的空間轉錄組平臺可以說是一家(10X genomics Visium platform) 獨大[2],10X Visium是通過芯片來捕獲基因表達的位置信息的,在芯片的的捕獲區(qū)域內(nèi),進行HE染色和成像,對組織切片進行透化處理,釋放細胞內(nèi)的mRNA,mRNA被芯片上帶有oligo-dT的探針捕獲,在進行cDNA合成,構建文庫進行測序,由于每個探針都帶有特異的barcode來代表位置信息,從而能夠獲得基因表達的位置信息。

參考
[1] https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/algorithms/overview#10x-barcode.
[2] Multimodal Analysis of Composition and Spatial Architecture in Human Squamous Cell Carcinoma