WES2Neoantigen Pipeline

Part 5 VEP

簡介

VEP(Variant Effect Predictor)是ENSEMBL制作的一個專門對突變數(shù)據(jù)添加注釋信息的工具,但它是基于perl語言的,所以會有模塊的依賴性(實際上我按照官網(wǎng)教程來安裝VEP一直沒有成功,一直顯示缺少需要的模塊,這里我推薦用conda安裝,完全沒有權(quán)限問題困擾,唯一的瑕疵就是版本更新不及時,大概是官網(wǎng)更新幾個月之后才會有最新版)。 跟snpEFF一樣,也是對遺傳變異信息提供更具體的注釋,而不僅僅是基于位點區(qū)域和基因。

下載安裝這里就不說了,用conda安裝直接搜索bioconda找到VEP包,里面給出了安裝命令。

安裝完軟件,有一個必不可少的就是注釋所需要的數(shù)據(jù)庫了,VEP支持非常多的物種的注釋,這里我用人類的注釋來稍作解釋。在這個ftp里ftp://ftp.ensembl.org/pub/選擇安裝好的VEP對應(yīng)的版本,這里用V95為例,ftp://ftp.ensembl.org/pub/release-95/variation/VEP/這個ftp就包含了所有可用的注釋文件。

這幾個就是對應(yīng)的人類相關(guān)的(GRCH37->hg19, GRCH38->hg38),一般選擇_vep_這類。下載完解壓后隨便放一個地方就行,因為后面使用的時候會指定文件目錄。

輸入數(shù)據(jù)

?BED: a simple tab-delimited format containing 3-12 columns of data. The first 3 columns contain the coordinates of the feature. If available, the VEP will use the 4th column of the file as the identifier of the feature.

?GFF: a format for describing genes and other features. If available, the VEP will use the "ID" field as the identifier of this feature.

?GTF: treated in an identical manner to GFF.

?VCF: a format used to describe genomic variants. The VEP will use the 3rd column of the file as the identifier.

?bigWig: a format for storage of dense continuous data. The VEP uses the value for the given position as the "identifier". Note that bigWig files contain their own indices, and do not need to be indexed by tabix.

以上數(shù)據(jù)均可用于VEP的輸入,不過我只測試了VCF,其他文件沒有測試。

主要參數(shù)

--input_file / -i

? ? 輸入文件名,如果不指定,VEP將會在嘗試從STDIN讀取數(shù)據(jù)

--output_file / -o

? ? 輸出文件名,可以標(biāo)注為STDOUT,這將會強制打開靜默模式,輸出到默認(rèn)輸出地址,默認(rèn)文件名為variant_effect_output.txt

--quiet / -q

? 不輸出任何警告信息

--dir_cache

指定cache文件目錄,默認(rèn)是$HOME/.vep/

--dir_plugins

指定插件所在目錄,默認(rèn)是$HOME/.vep/

--plugin

? ? 指定使用哪個插件

--terms

輸出結(jié)果的類型,默認(rèn)為SO

--symbol

? ? 在結(jié)果中加入gene symbol

--tsl

在輸出結(jié)果中添加添加或轉(zhuǎn)錄本水平信息

--hgvs

在輸出中添加基于Ensembl stable identifiers的HGVS命名法

--fasta

參考基因組文件

……

運行命令

可以直接進入安裝目錄來運行,

/pub5/xiaoyun/BioSoftware/Conda/envs/VEP_2/share/ensembl-vep-95.3-0/vep --input_file ***.vcf.gz --output_file ***.vcf --format vcf --vcf --symbol --terms SO --tsl --hgvs –fasta reference.hg19.fa –dir_cache /pub5/xiaoyun/BioSoftware/Conda/envs/VEP_2/share/ensembl-vep-95.3-0/ –plugin Downstream --plugin Wildtype

這條是專門用于pvacseq流程的命令,后面需要加兩個插件

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容