spaceranger知識(1)

卡卡最近接觸到了單細胞空間轉錄組的數(shù)據(jù),需要對其進行標準分析得到統(tǒng)一的數(shù)據(jù)格式,接觸到了spaceranger軟件。

spaceranger軟件[1]

spaceranger軟件是10X Genomics開發(fā)的,適用其Visium Spatial platform產(chǎn)生的數(shù)據(jù),可以將原始fastq數(shù)據(jù)經(jīng)過質控,比對,定量等步驟后轉為spot X gene的表達矩陣,供分析人員進行二級分析;當然,其功能不僅限于此,但是這個是其很重要的功能。

raw feature-barcode matrix轉為filtered feature-barcode matrix

卡卡分析時發(fā)現(xiàn),有的公共數(shù)據(jù),只提供raw feature-barcode matrix,但是下游分析一般使用的是filtered feature-barcode matrix,該怎么辦呢?是不是spaceranger軟件可以幫忙呢?卡卡發(fā)現(xiàn):

  • 對于10X的6.5mm的Visium slides芯片,barcode白名單有4992個,即raw feature-barcode matrix的spot數(shù)目一般為4992個;而對于11mm的芯片,則有14336個spot barcode白名單;
  • 只有被tissue覆蓋的spot用于生成filtered feature-barcode matrix并進行下游分析[1];
  • spcaeranger官網(wǎng)說明通過Imaging Algorithms確定真正被tissue組織覆蓋的spot,并將其定義在tissue_positions.csv文件中;
  • 因此卡卡覺得可以根據(jù)tissue_positions.csv文件第二列信息(是否被tissue組織覆蓋),對raw feature-barcode matrix進行過濾得到filtered feature-barcode matrix;
  • 于是卡卡找了一些公共及項目的數(shù)據(jù),驗證是否filtered feature-barcode matrix的barcode就是tissue_positions.csv文件中第二列為1的barcode;
  • 構建驗證函數(shù)為check_tissue,并進行測試,發(fā)現(xiàn)猜想是正確的;
check_tissue <- function(tissuefile,filtereddir){
  if(! file.exists(tissuefile)){stop(paste0(tissuefile,' not exist!!'))}
  dat <- read.table(tissuefile,header=F,sep=",")
  dat <- dat[dat[,2]==1,]
  intissue_cell <- dat[,1]

  barcode_file = file.path(filtereddir,'barcodes.tsv.gz')
  if(! file.exists(barcode_file)){stop(paste0(barcode_file,' not exist!!'))}
  filtered_barcode <- read.table(barcode_file)
  if(length(filtered_barcode$V1) == length(intissue_cell) && all(intissue_cell %in% filtered_barcode$V1)){
    print('yes, filtered barcodes is the same with that in tissue_positions_list')
  }else{
    print('no, filtered barcodes is not the same with that in tissue_positions_list')
  }
}
  • 因此,卡卡構建了函數(shù)raw2filtered,可以將raw feature-barcode matrix轉成filtered feature-barcode matrix;
raw2filtered <- function(datapath,tissuefile){
  library(Seurat)
  library(Matrix)
  library(dplyr)
  library(plyr)
  library(data.table)
  library(DropletUtils)

  if(! file.exists(tissuefile)){stop(paste0(tissuefile,' not exist!!'))}
  dat <- read.table(tissuefile,header=F,sep=",")
  dat <- dat[dat[,2]==1,]
  intissue_cell <- dat[,1]

  rawdir <- file.path(datapath,'raw_feature_bc_matrix')
  if(! dir.exists(rawdir)){stop(paste0(rawdir,' not exist!!'))}
  raw_data <- Read10X(data.dir=file.path(datapath, "filtered_feature_bc_matrix"))

  if(! all(intissue_cell %in% colnames(raw_data))){stop(paste0(tissuefile,' is error!!'))}
  filtered_data <- raw_data[,intissue_cell]
  filtereddir = file.path(datapath,'filtered_feature_bc_matrix')
  write10xCounts(x = filtered_data, path = filtereddir, version='3', overwrite = TRUE)
}
  • 其實有的分析步驟也可以直接用raw feature-barcode matrix進行分析,因為有的函數(shù)默認會根據(jù)tissue_positions.csv文件進行過濾,像BayesSpace的readVisium函數(shù)。

什么是單細胞空間轉錄組(Spatial Transcriptomics, ST)呢?

??單細胞轉錄組(scRNA-seq) 技術能夠檢測組織內(nèi)存在的不同亞群,但是在組織解離中會丟失細胞的空間信息,而空間信息對于了解細胞相互作用是很重要的,單細胞空間轉錄組就能夠提供細胞的空間信息。
??但是單細胞空間轉錄組的分辨率沒有scRNA-seq那么么高,也就是說單個細胞(spot) 實際上含有數(shù)個細胞。
??目前商用的空間轉錄組平臺可以說是一家(10X genomics Visium platform) 獨大[2],10X Visium是通過芯片來捕獲基因表達的位置信息的,在芯片的的捕獲區(qū)域內(nèi),進行HE染色和成像,對組織切片進行透化處理,釋放細胞內(nèi)的mRNA,mRNA被芯片上帶有oligo-dT的探針捕獲,在進行cDNA合成,構建文庫進行測序,由于每個探針都帶有特異的barcode來代表位置信息,從而能夠獲得基因表達的位置信息。


Visium原理

參考

[1] https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/algorithms/overview#10x-barcode.
[2] Multimodal Analysis of Composition and Spatial Architecture in Human Squamous Cell Carcinoma

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容