單細(xì)胞分析流程之Cell Ranger
大家好,我是新加入的小編Immujent,很高興能夠在這里和大家一起學(xué)習(xí)很分享單細(xì)胞的分析流程,以后就請大家多多關(guān)注啦~
話不多說,直接上干貨!
BEGINCell Ranger
相信做單細(xì)胞的小伙伴對Cell Ranger這個軟件都不陌生,我們今天就來了解一下Cell Ranger的安裝和使用方法。
Cell Ranger是10X Genomics為單細(xì)胞分析專門打造的分析軟件,直接對10X的下機數(shù)據(jù)進(jìn)行基因組比對、定量、生成單細(xì)胞矩陣、聚類以及其他的分析等。所以Cell Ranger能做的分析有很多,我們今天主要學(xué)一下Cell Ranger的安裝以及對單細(xì)胞RNA-Seq數(shù)據(jù)的定量。
Cell Ranger的官網(wǎng):https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger
1 Cell Ranger的下載與安裝
1. 首先進(jìn)入Cell Ranger官網(wǎng),點擊對下方的Download Link鏈接;
如果是第一次進(jìn)入下載界面,需要填寫一些基本信息,填寫完后點擊continue即可(如下:)
2. 根據(jù)需求下載Cell Ranger,可使用curl或者wget命令下載(在linux系統(tǒng)中運行黑框中的內(nèi)容即可);
注:默認(rèn)下載最新版的Cell Ranger,如果需要選擇之前的版本可點擊右下方的紅框,選擇想要的版本(如下圖);
3. 安裝包下載完之后直接使用tar命令進(jìn)行解壓即可。
tar -xzvf xxx.tar.gz
這樣就完成Cell Ranger的安裝啦,下面給大家看一下小編安裝完的結(jié)果(小編之前使用的是5.0.1的版本,因為那個課題一直在做,所以也就沒有更新Cell Ranger的版本了,當(dāng)然也建議大家一個課題最好保持使用軟件版本的一致哈~)
2 使用Cell Ranger進(jìn)行單細(xì)胞轉(zhuǎn)錄組測序數(shù)據(jù)(scRNA-Seq)的定量
因為小編是做單細(xì)胞轉(zhuǎn)錄組方向的,所以下面介紹一下小編常用的Cell Ranger命令---cellrange count。
count也是cellrange中一個很重要的命令,用來對單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行基因組比對,細(xì)胞定量最終得到用后下游分析的單細(xì)胞表達(dá)矩陣(默認(rèn)情況也會對表達(dá)矩陣進(jìn)行聚類)。
在做定量之前,我們首先需要準(zhǔn)備2組文件:原始fq文件以及物種的References(其中包括參考基因組序列、gtf文件以及star的索引文件)。
1. 原始fq文件
cellranger的輸入文件格式是fq格式,并且文件的命名也是有要求,文件命名格式如下:
**[Sample Name]**S1_L00**[Lane Number]****[Read Type]**_001.fastq.gz
如果fq的文件名格式不對,在運行的過程中會出現(xiàn)錯誤,所以最開始需要確定文件名的格式以及進(jìn)行修改。小編的一個習(xí)慣是重新創(chuàng)建一個目錄并且用軟連接將原始文件鏈接到新的目錄中,這樣做的好處是首先不會改變原始文件的名字(害怕修改了文件名后有些文件沒有同步,導(dǎo)致最后找不到具體的文件),其實也不會占用很多存儲(畢竟我們還要在夾縫中生存),下面就是小編使用的風(fēng)格:
2. 物種的References
第二個需要準(zhǔn)備的文件就是物種的References。
好消息就是Cell Ranger官網(wǎng)已經(jīng)為我們提供了人和小鼠的References,如果大家的樣本是人或者小鼠的某些細(xì)胞可以直接去Cell Ranger官網(wǎng)進(jìn)行下載。
下載流程和Cell Ranger軟件下載流程一致,其中也是有很多版本的References可供大家選擇,下載后解壓就可用了;
下載網(wǎng)頁:
https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest?
那么問題來了,如果我研究的是其他物種,那怎么構(gòu)建這個References?
cellranger的mkref就是這么一個功能,可用對其他的物種構(gòu)建cellranger需要的References格式,只需要準(zhǔn)備物種的參考基因組序列和gtf注釋文件就可以直接運行。
因為之前小編做個擬南芥單細(xì)胞的數(shù)據(jù),所以這里就以擬南芥為例子構(gòu)建References。
mkdir refdata-cellranger-Arabidopsis-TAIR10 #首先創(chuàng)建存放References的目錄,這是小編的一個習(xí)慣,也推薦大家在運行不同步驟的時候能夠創(chuàng)建專門的文件,這樣也便于文檔管理。
具體命令如下:
cellranger mkref \
--genome=TAIR10 \
--nthreads=10 \
--fasta=TAIR10.fa \
--genes=TAIR10_GFF3_genes.miRBase20.gtf
--genome:生成索引的目錄
--fasta:基因組序列
--genes:基因注釋文件(gtf格式)
運行完上面的命令就構(gòu)建完索引啦~
這里小編還要推薦一個運行腳本的命令,希望能夠?qū)Υ蠹矣袔椭鷡
我們可以使用vi編輯器,將上面的內(nèi)容存放在一個shell腳本中,然后使用后面運行shell腳本,這樣后臺在運行的同時,我們?nèi)匀豢梢栽诋?dāng)前界面進(jìn)行其他操作,并且網(wǎng)絡(luò)不穩(wěn)定的時候也不會影響我們的運行,所以小編非常推薦。下面就給大家看看小編的腳本格式啦(腳本名:index_test.sh)~
投后臺的命令是:
nohup sh index_test.sh >index_test.sh.o 2>index_test.sh.e &
這樣的話中間的輸出文件會保存在index_test.sh.o,如果腳本報錯就會保存在index_test.sh.e中。我們可以通過查看這兩個文件了解運行的進(jìn)展??梢酝ㄟ^使用jobs命令查看后臺運行的命令是不是還在。
References構(gòu)建完后就會生成TAIR10目錄,并且該目錄下的文件有:
3. 定量
在所有文件都準(zhǔn)備好了以后,就可以使用count對單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行定量啦。
具體命令如下(一般使用默認(rèn)參數(shù)):
cellranger count \
--id=sample_test \
--transcriptome=/xx/ AT \
--fastqs=/xxx/fastq_path \
--localcores=8 \
--localmem=64
參數(shù)解釋:
id:樣本名(唯一性)
transcriptome:上一步創(chuàng)建的索引的目錄名
fastqs:下機數(shù)據(jù)的目錄名
localcores:內(nèi)核
localmem:內(nèi)存
下面是小編的腳本,和上面是同樣的腳本格式~
成功運行之后會生成sample_test目錄(腳本中id參數(shù)后面輸入的內(nèi)容),最終結(jié)果都保存在sample_test/outs中。
目錄
analysis:cellranger聚類的結(jié)果
filtered_feature_bc_matrix:過濾后的單細(xì)胞表達(dá)矩陣(后續(xù)可以對接到seurat中)
raw_feature_bc_matrix:過濾前的單細(xì)胞表達(dá)數(shù)據(jù)(一般不怎么使用)
文件
possorted_genome_bam.bam:單細(xì)胞比對的bam文件,其中包含了每個reads的信息
web_summary.html:報告網(wǎng)頁(單細(xì)胞定量后的報告,包括檢測到的細(xì)胞數(shù)、基因數(shù)、UMI、分群等等)
END Cell Ranger
以上就是cellranger的下載、安裝以及初步的使用流程,希望能夠幫到大家啦~
我們下期再見