snpEff使用說明(上)-了解及創(chuàng)建SnpEff注釋數(shù)據(jù)庫

SnpEff是一款注釋變異位點(SNP+InDel+MNP)和預測變異對基因的影響(例如氨基酸變化)的工具。

用法:

輸入文件:輸入是變異位點(SNP,插入,缺失和MNP)的VCF文件(一般情況下)。
輸出:SnpEff分析輸入變異位點并注釋和計算了它們對已知基因產(chǎn)生的影響。

學習軟件的最詳細的教程當然是官方Tutorial,SnpEff官方網(wǎng)頁。但是由于Tutorial需要講解的參數(shù)非常多,看起來非常繁復,所以如果你急需了解SnpEff請跟著我們的步伐吧!

image.png

1. 下載

#在合適的文件夾下創(chuàng)建biosoft/snpeff文件
mkdir -p  ~/biosoft/snpeff
snpeffDir=~/biosoft/snpeff
#進入snpeff文件夾下
cd $snpeffDir
# 下載最新版 
wget https://snpeff.blob.core.windows.net/versions/snpEff_latest_core.zip
# 解壓文件
unzip snpEff_latest_core.zip

??先跑一個注釋的案例吧

java -Xmx4g -jar ${snpeffDir}/snpEff.jar GRCh37.75 examples/test.chr22.vcf > test.chr22.ann.vcf

#使用 命令-v可以顯示更多的軟件運行信息,方便debug
java -Xmx4g -jar ${snpeffDir}/snpEff.jar -v GRCh37.75 examples/test.chr22.vcf > test.chr22.ann.vcf

??這個例子之所以能運行,是因為我們已經(jīng)創(chuàng)建了GRCh37.75的注釋數(shù)據(jù)庫,如果你第一次使用snpEff和第一次注釋某個物種,需要在注釋前需要準備注釋的數(shù)據(jù)庫,SnpEff目前已包含20,000多種參考基因組的注釋庫,下載方式為

cd $snpeffDir
java -jar snpEff.jar databases | less
java -jar snpEff.jar databases | grep -i musculus
java -jar snpEff.jar databases | grep -i GRCh37
##下載數(shù)據(jù)庫
java -jar snpEff.jar download -v GRCh37.75

??但是為了保證注釋庫新鮮,大家可以自己創(chuàng)建,創(chuàng)建方式如下

準備文件:1. 參考基因組fasta文件; 2. 參考文件gtf注釋文件。
選擇性文件:3. cds文件; 4. pep文件;5. 一般注釋文件

  1. 進入SnpEff安裝文件夾
cd $snpeffDir
  1. 創(chuàng)建數(shù)據(jù)庫文件夾
mkdir data/GRCh37.100
cd data/GRCh37.100
  1. 下載注釋基因,官方例子是下載的ensemble注釋版本70,而現(xiàn)在數(shù)據(jù)庫已經(jīng)更新到101了,我們使用release-100
wget ftp://ftp.ensembl.org/pub/release-100/gtf/homo_sapiens/Homo_sapiens.GRCh37.100.gtf.gz
mv Homo_sapiens.GRCh37.100.gtf.gz genes.gtf.gz
  1. 下載蛋白
#目的1 -稀有氨基酸注釋,2- 檢查從DNA序列預測的蛋白與真實蛋白匹配
wget ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/pep/Homo_sapiens.GRCh37.100.pep.all.fa.gz
mv Homo_sapiens.GRCh37.100.pep.all.fa.gz protein.fa.gz
  1. 下載CDSs
#目的:檢查從DNA序列預測的CDS與真實CDS匹配
wget ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh37.100.cdna.all.fa.gz
mv Homo_sapiens.GRCh37.100.cdna.all.fa.gz cds.fa.gz
  1. 下載一般注釋文件
wget ftp://ftp.ensembl.org/pub/release-100/regulation/homo_sapiens/AnnotatedFeatures.gff.gz
mv AnnotatedFeatures.gff.gz regulation.gff.gz
#解壓gz文件
gunzip *.gz

7.下載 genome基因組文件(fasta格式)

cd ../genomes/
wget ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.100.dna.toplevel.fa.gz
mv Homo_sapiens.GRCh37.100.dna.toplevel.fa.gz GRCh37.100.fa.gz
gunzip GRCh37.100.fa.gz
  1. 編輯snpEff.config文件
vi snpEff.config
#添加文字
GRCh37.100.genome : Homo_sapiens
GRCh37.100.reference : ftp://ftp.ensembl.org/pub/release-100/gtf/
  1. 文件準備完畢,創(chuàng)建注釋數(shù)據(jù)庫
cd ~/snpeff
java -Xmx20g -jar ${snpeffDir}/snpEff.jar build -v GRCh37.100 2>&1 | tee GRCh37.100.build
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容