要做單細(xì)胞分析,尤其是從公司拿回?cái)?shù)據(jù),或者從公共數(shù)據(jù)庫下載的數(shù)據(jù),看起來眼花繚亂的分析結(jié)果,首先第一步就是要把數(shù)據(jù)先讀入,才能有后續(xù)的結(jié)果和分析。

數(shù)據(jù)應(yīng)該是什么樣子
首先需要知道數(shù)據(jù)最終要分析之前應(yīng)該是一個(gè)什么樣子,那么我們就把得到數(shù)據(jù)準(zhǔn)備成相應(yīng)的樣子即可。

分析的數(shù)據(jù)應(yīng)該是行為基因名稱,列是樣本(細(xì)胞)名稱
然后再對(duì)這個(gè)再把這個(gè)數(shù)據(jù),轉(zhuǎn)換成seurat對(duì)應(yīng)的對(duì)象,進(jìn)行后續(xù)一系列的分析和操作。
標(biāo)準(zhǔn)10X數(shù)據(jù)的基本知識(shí)
barcode信息
10X Genomics數(shù)據(jù)中的barcode主要存放兩個(gè)信息:1)單個(gè)細(xì)胞的信息;2)單個(gè)細(xì)胞所屬的核酸序列信息。
在10X Genomics的單細(xì)胞測(cè)序中,每一個(gè)細(xì)胞都被分配一個(gè)唯一的barcode,用于標(biāo)記該細(xì)胞所產(chǎn)生的所有reads。這個(gè)barcode可以幫助研究人員將每個(gè)讀?。╮ead)數(shù)據(jù)分配到其相應(yīng)的單細(xì)胞中去,從而實(shí)現(xiàn)單細(xì)胞測(cè)序。
此外,10X Genomics還可以通過將barcode信息嵌入到核酸序列中,來實(shí)現(xiàn)單細(xì)胞RNA序列(scRNA-seq)以及單細(xì)胞基因組測(cè)序(scDNA-seq)數(shù)據(jù)的產(chǎn)生。在這種情況下,barcode的含義會(huì)稍有不同。 它主要用于區(qū)分來自不同細(xì)胞的核酸片段。將這些片段重新組合后,可以得到單細(xì)胞的RNA或DNA序列信息,從而分析單個(gè)細(xì)胞的轉(zhuǎn)錄組或基因組。
features主要信息
在10X Genomics數(shù)據(jù)中,feature主要存放的是基因或轉(zhuǎn)錄本的信息。
在單細(xì)胞RNA測(cè)序數(shù)據(jù)中,feature通常用于指代基因或轉(zhuǎn)錄本。每個(gè)feature都會(huì)被分配一個(gè)唯一的ID號(hào),用于區(qū)分不同的基因或轉(zhuǎn)錄本。這個(gè)ID號(hào)可以幫助研究人員對(duì)基因或轉(zhuǎn)錄本進(jìn)行定量分析和比較。
在10X Genomics的分析流程中,feature的信息可以通過基因或轉(zhuǎn)錄本的參考基因組或轉(zhuǎn)錄組進(jìn)行獲取。通過比對(duì)實(shí)驗(yàn)數(shù)據(jù)和參考序列,可得出每個(gè)細(xì)胞中每個(gè)基因或轉(zhuǎn)錄本的表達(dá)情況。這是進(jìn)行單細(xì)胞分析的重要基礎(chǔ)。
同時(shí),10X Genomics還可以根據(jù)用戶需求來自定義feature信息。用戶可以通過提供自己的參考基因組或轉(zhuǎn)錄組等方式,來獲得更具有自定義性的feature信息,從而實(shí)現(xiàn)更加精細(xì)化的分析。
可能的數(shù)據(jù)類型
標(biāo)準(zhǔn)的10X genomics的數(shù)據(jù)
10X genomics的數(shù)據(jù)如果是這個(gè)樣子,那么就可以直接使用Read10X函數(shù)直接讀取,只需要在這個(gè)數(shù)據(jù)的文件夾即可
這個(gè)是示例文件

scdata <- Read10X(data.dir = "data/GSE96583/stim/")
構(gòu)建seurat對(duì)象即可
scobj <- CreateSeuratObject(counts = scdata,
project = "pbmc_stim",
min.cells = 3,
min.features = 200)
### metadata 增加分組信息
metadata = scobj@meta.data
scobj@meta.data$group = "STIM"
已經(jīng)整理好的數(shù)據(jù)
也就是處理好的數(shù)據(jù),行是基因名稱,列是樣本名稱,直接讀取,并構(gòu)建seurat對(duì)象
# 根據(jù)數(shù)據(jù)的存放位置讀取即可,修改文件的名稱
scdata <- data.table::fread('data/****.txt.gz',data.table = F)
### 創(chuàng)建Seurat對(duì)象
scobj <- CreateSeuratObject(counts = scdata,
project = "*****", # 最終會(huì)形成到下圖的項(xiàng)目名稱中
min.cells = 3,
min.features = 200)
### metadata 增加分組信息
metadata = scobj@meta.data
scobj@meta.data$group = "**** " #根據(jù)個(gè)人的樣本進(jìn)行命名
saveRDS(scobj,file = "output/****.rds") #保存為RDS文件,便于讀取

后續(xù)分析,和單細(xì)胞分析(一)——seurat包單個(gè)樣本處理 銜接。
基因名稱和ID存在的數(shù)據(jù)

這個(gè)時(shí)候也是將其處理成上述的數(shù)據(jù)即可
scdata <- data %>%
select(-Gene_ID) %>%
distinct(Symbol, .keep_all = T) %>%
column_to_rownames('Symbol')
然后按照上面類似的處理步驟讀入,并進(jìn)行分析即可。