參考基因組下載和構(gòu)建STAR索引(人源)

0. STAR下載

  • 下載2.6.1b版本的STAR wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
  • 文件解壓tar -xzf 2.6.1b.tar.gz
  • 進(jìn)入文件夾 cd STAR-2.6.1b/source/
  • 軟件安裝 make STAR

1. 創(chuàng)建reference目錄

這里下載的參考基因組為ensemble的人GRCh38參考基因組,最好單獨(dú)建立一個(gè)文件夾,后續(xù) 解壓縮建立索引輸出文件 都存放在該目錄。
參考命令行如下:
mkdir –p references/Homo_sapiens/Ensembl/GRCh38/
cd references/Homo_sapiens/Ensembl/GRCh38/

2. wget下載壓縮包

默認(rèn)當(dāng)前路徑為*/references/Homo_sapiens/Ensembl/GRCh38/;
命令如下:

  • fasta文件壓縮包:
    wget ftp://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

  • gtf文件壓縮包:
    wget ftp://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens/Homo_sapiens.GRCh38.99.gtf.gz

3. gizp解壓文件

  • fasta文件解壓縮
    gzip -c -d Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz > Homo_sapiens.GRCh38.fa
  • gtf文件解壓縮
    gzip -c -d Homo_sapiens.GRCh38.99.gtf.gz > Homo_sapiens.GRCh38.99.gtf

4. STAR構(gòu)建索引

STAR是celescope的依賴軟件,在下載和安裝celescope時(shí)就已經(jīng)嵌入到celescope對(duì)應(yīng)的環(huán)境內(nèi)。因此可以在celescope的環(huán)境中執(zhí)行 構(gòu)建索引 的步驟
(1)激活celescope的環(huán)境:conda activate celescope
(2)編輯index.sh,shell腳本內(nèi)輸入如下指令和參數(shù):

STAR \
    --runMode genomeGenerate \ #讓STAR執(zhí)行基因組索引的生成工作
    --runThreadN 10 \ #構(gòu)建運(yùn)行使用的線程數(shù)
    --genomeDir . \ #構(gòu)建好的參考基因組存放的位置,最好是單獨(dú)建立的一個(gè)文件夾,這里是/references/Homo_sapiens/Ensembl/GRCh38
    --genomeFastaFiles ./Homo_sapiens.GRCh38.fa \ #fasta文件(參考基因組序列文件)
    --sjdbGTFfile ./Homo_sapiens.GRCh38.99.gtf \# gtf文件(基因注釋文件)
    --sjdbOverhang 149 #讀段長(zhǎng)度: 后續(xù)回帖讀段的長(zhǎng)度, 如果讀長(zhǎng)是PE 100, 則該值設(shè)為100-1=99

(3)使用nohup投遞任務(wù):nohup sh index.sh &
STAR運(yùn)行將近90min,構(gòu)建好的正確索引文件如下:

$ ll
total 29037186
chrLength.txt
chrNameLength.txt
chrName.txt
chrStart.txt
exonGeTrInfo.tab
exonInfo.tab
geneInfo.tab
Genome
genomeParameters.txt
Log.out
SA
SAindex
sjdbInfo.txt
sjdbList.fromGTF.out.tab
sjdbList.out.tab
transcriptInfo.tab

我當(dāng)前的運(yùn)行結(jié)果:(修改和補(bǔ)救ing)


我的運(yùn)行結(jié)果

5. CeleScope構(gòu)建索引

celescope也有內(nèi)置的參數(shù)celescope rna mkref構(gòu)建索引,同時(shí)生成一個(gè)config文件

config文件內(nèi)容

celescope rna mkref
-h #查看幫助信息
--genomeDir #默認(rèn)為./
--thread #線程數(shù)默認(rèn)為6
--genome_name #設(shè)置參考基因組的名稱,這個(gè)名稱會(huì)最終展示到celescope生成的報(bào)告里,默認(rèn)為None
--dry_run 只生成config文件
--fasta #接fasta文件
--gtf #接gtf文件
--mt_gene_list #基因列表文件,指定為某些基因歸類(一般用不到,默認(rèn)None)

(1)激活celescope的環(huán)境:conda activate celescope
(2)編輯index.sh,shell腳本內(nèi)輸入如下指令和參數(shù):

celescope rna mkref \
    --genome_name Homo_sapiens_ensembl_99\ #基因組名稱
    --fasta ./Homo_sapiens.GRCh38.fa \ #fasta文件(參考基因組序列文件)
    --gtf ./Homo_sapiens.GRCh38.99.gtf \# gtf文件(基因注釋文件)

(3)使用nohup投遞任務(wù):nohup sh index.sh &

postscript:
單細(xì)胞測(cè)序分析軟件鏈接 celescope的下載和安裝

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容