0. STAR下載
- 下載2.6.1b版本的STAR
wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz - 文件解壓
tar -xzf 2.6.1b.tar.gz - 進(jìn)入文件夾
cd STAR-2.6.1b/source/ - 軟件安裝
make STAR
1. 創(chuàng)建reference目錄
這里下載的參考基因組為ensemble的人GRCh38參考基因組,最好單獨(dú)建立一個(gè)文件夾,后續(xù) 解壓縮 和 建立索引 的 輸出文件 都存放在該目錄。
參考命令行如下:
mkdir –p references/Homo_sapiens/Ensembl/GRCh38/
cd references/Homo_sapiens/Ensembl/GRCh38/
2. wget下載壓縮包
默認(rèn)當(dāng)前路徑為*/references/Homo_sapiens/Ensembl/GRCh38/;
命令如下:
fasta文件壓縮包:
wget ftp://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gzgtf文件壓縮包:
wget ftp://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens/Homo_sapiens.GRCh38.99.gtf.gz
3. gizp解壓文件
-
fasta文件解壓縮
gzip -c -d Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz > Homo_sapiens.GRCh38.fa -
gtf文件解壓縮
gzip -c -d Homo_sapiens.GRCh38.99.gtf.gz > Homo_sapiens.GRCh38.99.gtf
4. STAR構(gòu)建索引
STAR是celescope的依賴軟件,在下載和安裝celescope時(shí)就已經(jīng)嵌入到celescope對(duì)應(yīng)的環(huán)境內(nèi)。因此可以在celescope的環(huán)境中執(zhí)行 構(gòu)建索引 的步驟
(1)激活celescope的環(huán)境:conda activate celescope
(2)編輯index.sh,shell腳本內(nèi)輸入如下指令和參數(shù):
STAR \
--runMode genomeGenerate \ #讓STAR執(zhí)行基因組索引的生成工作
--runThreadN 10 \ #構(gòu)建運(yùn)行使用的線程數(shù)
--genomeDir . \ #構(gòu)建好的參考基因組存放的位置,最好是單獨(dú)建立的一個(gè)文件夾,這里是/references/Homo_sapiens/Ensembl/GRCh38
--genomeFastaFiles ./Homo_sapiens.GRCh38.fa \ #fasta文件(參考基因組序列文件)
--sjdbGTFfile ./Homo_sapiens.GRCh38.99.gtf \# gtf文件(基因注釋文件)
--sjdbOverhang 149 #讀段長(zhǎng)度: 后續(xù)回帖讀段的長(zhǎng)度, 如果讀長(zhǎng)是PE 100, 則該值設(shè)為100-1=99
(3)使用nohup投遞任務(wù):nohup sh index.sh &
STAR運(yùn)行將近90min,構(gòu)建好的正確索引文件如下:
$ ll
total 29037186
chrLength.txt
chrNameLength.txt
chrName.txt
chrStart.txt
exonGeTrInfo.tab
exonInfo.tab
geneInfo.tab
Genome
genomeParameters.txt
Log.out
SA
SAindex
sjdbInfo.txt
sjdbList.fromGTF.out.tab
sjdbList.out.tab
transcriptInfo.tab
我當(dāng)前的運(yùn)行結(jié)果:(修改和補(bǔ)救ing)

5. CeleScope構(gòu)建索引
celescope也有內(nèi)置的參數(shù)celescope rna mkref構(gòu)建索引,同時(shí)生成一個(gè)config文件

celescope rna mkref
-h #查看幫助信息
--genomeDir #默認(rèn)為./
--thread #線程數(shù)默認(rèn)為6
--genome_name #設(shè)置參考基因組的名稱,這個(gè)名稱會(huì)最終展示到celescope生成的報(bào)告里,默認(rèn)為None
--dry_run 只生成config文件
--fasta #接fasta文件
--gtf #接gtf文件
--mt_gene_list #基因列表文件,指定為某些基因歸類(一般用不到,默認(rèn)None)
(1)激活celescope的環(huán)境:conda activate celescope
(2)編輯index.sh,shell腳本內(nèi)輸入如下指令和參數(shù):
celescope rna mkref \
--genome_name Homo_sapiens_ensembl_99\ #基因組名稱
--fasta ./Homo_sapiens.GRCh38.fa \ #fasta文件(參考基因組序列文件)
--gtf ./Homo_sapiens.GRCh38.99.gtf \# gtf文件(基因注釋文件)
(3)使用nohup投遞任務(wù):nohup sh index.sh &
postscript:
單細(xì)胞測(cè)序分析軟件鏈接 celescope的下載和安裝