作者:charon
審稿:童蒙
編輯:amethyst
二代測(cè)序技術(shù)蓬勃發(fā)展,已經(jīng)用于臨床上輔助疾病診斷,利用二代測(cè)序數(shù)據(jù)挖掘孟德?tīng)栠z傳病相關(guān)的基因及變異位點(diǎn)也是越來(lái)越普遍。近年來(lái),研究人員開(kāi)發(fā)出很多工具,幫助分析人員可以更簡(jiǎn)單,快速的分析數(shù)據(jù)。今天我們就來(lái)介紹3個(gè)常用的軟件,利用父母-子代的trio家系數(shù)據(jù)來(lái)挖掘孟德?tīng)栠z傳相關(guān)的變異。
一、GEMINI
1、軟件概述
GEMINI ( GEnome MINIng ) 旨在為個(gè)人和醫(yī)學(xué)遺傳學(xué)開(kāi)發(fā)的一個(gè)簡(jiǎn)單、靈活和強(qiáng)大的框架來(lái)探索遺傳變異。GEMINI將遺傳變異(VCF文件)和豐富的基因組注釋集成到統(tǒng)一的數(shù)據(jù)庫(kù)(sqlite)中,利用這個(gè)集成的數(shù)據(jù)庫(kù)作為分析框架,可以充分利用SQL的快速計(jì)算能力。此外,通過(guò)定義樣本關(guān)系的PED文件,GEMINI允許探索滿足特定遺傳模式(比如,隱性,顯性等)的變異。
GEMINI 能在人類(lèi)疾病遺傳基礎(chǔ)的廣泛研究中應(yīng)用,包括研究個(gè)人基因組,未解決的孟德?tīng)柤膊?,探索大系譜中的罕見(jiàn)變異,以及全基因組病例對(duì)照研究。
可檢測(cè)變異類(lèi)型:SNPs, INDELs 和 structural variants。
官網(wǎng):https://gemini.readthedocs.io/en/latest/index.html
gitlab:https://github.com/arq5x/gemini
- 注意事項(xiàng):
- GEMINI只支持檢測(cè)人基因組變異,參考基因組版本僅支持37(hg19)
- GEMINI只支持的VCF版本為4.1
- GEMINI數(shù)據(jù)庫(kù)需要有訪問(wèn)權(quán)限
2、軟件安裝
GEMINI提供了一個(gè)自動(dòng)安裝腳本,非常方便:
wget https://raw.github.com/arq5x/gemini/master/gemini/scripts/gemini_install.py
python gemini_install.py $tools $data # $tools是軟件安裝路徑,$data是軟件數(shù)據(jù)庫(kù)所在路徑
export PATH=$PATH:~/gemini/bin
# 下載數(shù)據(jù)庫(kù)
gemini update --dataonly --extra cadd_score
gemini update --dataonly --extra gerp_bp
注意事項(xiàng),首先需要安裝以下依賴(lài)包:
- Python 2.7.x
- git
- wget
- a working C / C++ compiler such as gcc
- zlib (including headers)
3、軟件運(yùn)行
數(shù)據(jù)準(zhǔn)備
合并后的vcf文件
家系信息ped文件
參考基因組文件
運(yùn)行命令
##setup
VCF=/path/to/my.vcf
NORMVCF=/path/to/my.norm.vcf.gz
REF=/path/to/human.b37.fasta
SNPEFFJAR=/path/to/snpEff.jar
##decompose, normalize and annotate VCF with snpEff.
##NOTE: can also swap snpEff with VEP
zless $VCF \
| sed 's/ID=AD,Number=./ID=AD,Number=R/' \
| vt decompose -s - \
| vt normalize -r $REF - \
| java -Xmx4G -jar $SNPEFFJAR GRCh37.75 \
| bgzip -c > $NORMVCF
tabix -p vcf $NORMVCF
##load the pre-processed VCF into GEMINI
gemini load --cores 3 -t snpEff -v $NORMVCF $db
##test autosomal recessive
gemini autosomal_recessive $db >$output
結(jié)果說(shuō)明
輸出結(jié)果文件包含166列,每列之間制表符(tab鍵)分割,第一行是表頭,隨后每行代表一個(gè)符合該遺傳模式的變異,此時(shí)變異個(gè)數(shù)會(huì)有數(shù)萬(wàn)甚至數(shù)百萬(wàn),因此我們需要對(duì)結(jié)果進(jìn)行過(guò)濾。
首先,impact_severity這列表示變異的影響,值有HIGH、MED、LOW,通常過(guò)濾掉LOW對(duì)應(yīng)的變異,剩下的變異位點(diǎn)將會(huì)急劇減少,一般只有幾十到幾百個(gè)。另外,該軟件還將變異注釋到了很多數(shù)據(jù)庫(kù),或者利用不同的方法對(duì)變異進(jìn)行了注釋?zhuān)热鏑linvar,千人基因組,SIFT等,分析人員都可以根據(jù)自己的研究進(jìn)一步過(guò)濾。
二、Exomiser
1、軟件概述
一款用java編寫(xiě)的軟件。利用表型和vcf信息檢測(cè)潛在的致病變異,可以應(yīng)用于WES和WGS。
2、軟件安裝
需要java環(huán)境、軟件包和依賴(lài)數(shù)據(jù)庫(kù)。
軟件包可以直接下載解壓,鏈接如下:
https://data.monarchinitiative.org/exomiser/latest/exomiser-cli-12.1.0-distribution.zip
依賴(lài)數(shù)據(jù)鏈接如下:
https://data.monarchinitiative.org/exomiser/data/
3、軟件運(yùn)行
數(shù)據(jù)準(zhǔn)備
- 合并后的vcf文件
- 家系信息ped文件
- 表型信息HPO編號(hào),中文可以用奇恩生物的罕見(jiàn)病輔助診斷系統(tǒng)https://www.genomcan.cn/#/info,英文用http://compbio.charite.de/phenomizer
運(yùn)行命令
- step1:修改示例yml文件的信息:vcf,ped,proband,hpoIds,inheritanceModes,outputPrefix,outputFormats(可選TSV-GENE, TSV-VARIANT, VCF, HTML)
- step2:java -Xms4g -Xmx8g -jar exomiser-cli-7.2.3.jar --analysis your-analysis.yml
結(jié)果說(shuō)明
yml文件中設(shè)置的outputFormats 對(duì)應(yīng)格式的文件都會(huì)輸出,html文件方便查看,其他格式方便腳本批量處理。
查看html文件,可以看到得分最高的基因及變異,html的詳細(xì)解讀可以參考 https://cloud.tencent.com/developer/news/390442
三、VAAST
1、軟件概述
全稱(chēng)為Variant Annotation, Analysis, and Search Tool ,是一個(gè)集變異注釋?zhuān)治龊退阉鞯墓ぞ?,整合氨基酸替換和等位頻率等信息。其中pVAAST模型用于識(shí)別家系的突變分析,識(shí)別家庭成員在特定遺傳模式中的變異情況,進(jìn)而判斷真正的致病突變。
2、軟件安裝
壓縮包獲取地址:http://www.yandelllab.org/software/vaast.html
3、軟件運(yùn)行
數(shù)據(jù)準(zhǔn)備
- 合并后的vcf文件
- 家系信息ped文件
- 參考基因組文件
- 基因組注釋GFF3文件
運(yùn)行命令
step1:創(chuàng)建cdr文件
$VAAST_dir/bin/vaast_tools/vcf2cdr.pl --vcf $vcf --output $outprefix --build hg19 --fasta $ref --gff3 $gff3 --info $infostep2:修改配置文件
所有遺傳模式的配置文件在目錄$VAAST_dir/data/pvaast/下,根據(jù)自己的數(shù)據(jù)選擇相應(yīng)文件,然后修改文件內(nèi)參數(shù),主要修改項(xiàng)為:input_ped_cdr_files,pedigree_representatives,inheritance_model
- step3:運(yùn)行VAAST
$VAAST_dir/bin/VAAST -m pvaast -o $output -pv_control $ctl --gw 1e6 $gff3 $outprefix-step4/family.cdr $outprefix-step4/case.cdr
結(jié)果說(shuō)明
輸出目錄中有個(gè)以 .simple結(jié)尾的文件,格式如下:該文件按照P-value對(duì)基因進(jìn)行了排序。進(jìn)一步可以根據(jù)自己的需求取排名靠前的基因位點(diǎn)作為候選集。
總結(jié)
軟件結(jié)果
模擬數(shù)據(jù)測(cè)試結(jié)果:
從我自己的測(cè)試結(jié)果來(lái)看,GEMINI結(jié)果比較全面,但是假陽(yáng)性比較多,需要另外過(guò)濾;Exomiser結(jié)果最好,假陽(yáng)性結(jié)果也是最少的;VAAST的召回率比較低,會(huì)漏掉一些真陽(yáng)性結(jié)果。
可檢測(cè)遺傳模式
輸入?yún)?shù)
參考文獻(xiàn)
1、Paila U , Chapman B A , Kirchner R , et al. GEMINI: Integrative Exploration of Genetic Variation and Genome Annotations[J]. PLoS Computational Biology,9,7(2013-7-18), 2013, 9(7):e1003153.
2、Smedley D , Jacobsen J O B , J?Ger M , et al. Next-generation diagnostics and disease-gene discovery with the Exomiser.[J]. Nature Protocols, 2015, 10(12):2004-2015.
3、Hu H , Huff C D , Moore B , et al. VAAST 2.0: Improved Variant Classification and Disease-Gene Identification Using a Conservation-Controlled Amino Acid Substitution Matrix[J]. Wiley-Blackwell Online Open, 2013, 37(6).