家系分析軟件匯總

作者:charon
審稿:童蒙
編輯:amethyst

二代測(cè)序技術(shù)蓬勃發(fā)展,已經(jīng)用于臨床上輔助疾病診斷,利用二代測(cè)序數(shù)據(jù)挖掘孟德?tīng)栠z傳病相關(guān)的基因及變異位點(diǎn)也是越來(lái)越普遍。近年來(lái),研究人員開(kāi)發(fā)出很多工具,幫助分析人員可以更簡(jiǎn)單,快速的分析數(shù)據(jù)。今天我們就來(lái)介紹3個(gè)常用的軟件,利用父母-子代的trio家系數(shù)據(jù)來(lái)挖掘孟德?tīng)栠z傳相關(guān)的變異。

一、GEMINI

1、軟件概述

GEMINI ( GEnome MINIng ) 旨在為個(gè)人和醫(yī)學(xué)遺傳學(xué)開(kāi)發(fā)的一個(gè)簡(jiǎn)單、靈活和強(qiáng)大的框架來(lái)探索遺傳變異。GEMINI將遺傳變異(VCF文件)和豐富的基因組注釋集成到統(tǒng)一的數(shù)據(jù)庫(kù)(sqlite)中,利用這個(gè)集成的數(shù)據(jù)庫(kù)作為分析框架,可以充分利用SQL的快速計(jì)算能力。此外,通過(guò)定義樣本關(guān)系的PED文件,GEMINI允許探索滿足特定遺傳模式(比如,隱性,顯性等)的變異。

GEMINI 能在人類(lèi)疾病遺傳基礎(chǔ)的廣泛研究中應(yīng)用,包括研究個(gè)人基因組,未解決的孟德?tīng)柤膊?,探索大系譜中的罕見(jiàn)變異,以及全基因組病例對(duì)照研究。

可檢測(cè)變異類(lèi)型:SNPs, INDELs 和 structural variants。

官網(wǎng):https://gemini.readthedocs.io/en/latest/index.html
gitlab:https://github.com/arq5x/gemini

  • 注意事項(xiàng):
  1. GEMINI只支持檢測(cè)人基因組變異,參考基因組版本僅支持37(hg19)
  2. GEMINI只支持的VCF版本為4.1
  3. GEMINI數(shù)據(jù)庫(kù)需要有訪問(wèn)權(quán)限

2、軟件安裝

GEMINI提供了一個(gè)自動(dòng)安裝腳本,非常方便:

wget https://raw.github.com/arq5x/gemini/master/gemini/scripts/gemini_install.py
python gemini_install.py $tools  $data   # $tools是軟件安裝路徑,$data是軟件數(shù)據(jù)庫(kù)所在路徑
export PATH=$PATH:~/gemini/bin
# 下載數(shù)據(jù)庫(kù)
gemini update --dataonly --extra cadd_score
gemini update --dataonly --extra gerp_bp

注意事項(xiàng),首先需要安裝以下依賴(lài)包:

  • Python 2.7.x
  • git
  • wget
  • a working C / C++ compiler such as gcc
  • zlib (including headers)

3、軟件運(yùn)行

數(shù)據(jù)準(zhǔn)備
合并后的vcf文件
家系信息ped文件
參考基因組文件

運(yùn)行命令

##setup

   VCF=/path/to/my.vcf
   NORMVCF=/path/to/my.norm.vcf.gz
   REF=/path/to/human.b37.fasta
   SNPEFFJAR=/path/to/snpEff.jar

   ##decompose, normalize and annotate VCF with snpEff.

   ##NOTE: can also swap snpEff with VEP

   zless $VCF \
      | sed 's/ID=AD,Number=./ID=AD,Number=R/' \
      | vt decompose -s - \
      | vt normalize -r $REF - \
      | java -Xmx4G -jar $SNPEFFJAR GRCh37.75 \
      | bgzip -c > $NORMVCF
   tabix -p vcf $NORMVCF

   ##load the pre-processed VCF into GEMINI

   gemini load --cores 3 -t snpEff -v $NORMVCF $db

   ##test autosomal recessive 

   gemini autosomal_recessive $db >$output

結(jié)果說(shuō)明
輸出結(jié)果文件包含166列,每列之間制表符(tab鍵)分割,第一行是表頭,隨后每行代表一個(gè)符合該遺傳模式的變異,此時(shí)變異個(gè)數(shù)會(huì)有數(shù)萬(wàn)甚至數(shù)百萬(wàn),因此我們需要對(duì)結(jié)果進(jìn)行過(guò)濾。

首先,impact_severity這列表示變異的影響,值有HIGH、MED、LOW,通常過(guò)濾掉LOW對(duì)應(yīng)的變異,剩下的變異位點(diǎn)將會(huì)急劇減少,一般只有幾十到幾百個(gè)。另外,該軟件還將變異注釋到了很多數(shù)據(jù)庫(kù),或者利用不同的方法對(duì)變異進(jìn)行了注釋?zhuān)热鏑linvar,千人基因組,SIFT等,分析人員都可以根據(jù)自己的研究進(jìn)一步過(guò)濾。

二、Exomiser

1、軟件概述

2、軟件安裝

需要java環(huán)境、軟件包和依賴(lài)數(shù)據(jù)庫(kù)。

軟件包可以直接下載解壓,鏈接如下:

https://data.monarchinitiative.org/exomiser/latest/exomiser-cli-12.1.0-distribution.zip

依賴(lài)數(shù)據(jù)鏈接如下:

https://data.monarchinitiative.org/exomiser/data/

3、軟件運(yùn)行

數(shù)據(jù)準(zhǔn)備

運(yùn)行命令

  • step1:修改示例yml文件的信息:vcf,ped,proband,hpoIds,inheritanceModes,outputPrefix,outputFormats(可選TSV-GENE, TSV-VARIANT, VCF, HTML)
  • step2:java -Xms4g -Xmx8g -jar exomiser-cli-7.2.3.jar --analysis your-analysis.yml

結(jié)果說(shuō)明
yml文件中設(shè)置的outputFormats 對(duì)應(yīng)格式的文件都會(huì)輸出,html文件方便查看,其他格式方便腳本批量處理。

查看html文件,可以看到得分最高的基因及變異,html的詳細(xì)解讀可以參考 https://cloud.tencent.com/developer/news/390442

三、VAAST

1、軟件概述

全稱(chēng)為Variant Annotation, Analysis, and Search Tool ,是一個(gè)集變異注釋?zhuān)治龊退阉鞯墓ぞ?,整合氨基酸替換和等位頻率等信息。其中pVAAST模型用于識(shí)別家系的突變分析,識(shí)別家庭成員在特定遺傳模式中的變異情況,進(jìn)而判斷真正的致病突變。

2、軟件安裝

壓縮包獲取地址:http://www.yandelllab.org/software/vaast.html

3、軟件運(yùn)行

數(shù)據(jù)準(zhǔn)備

  • 合并后的vcf文件
  • 家系信息ped文件
  • 參考基因組文件
  • 基因組注釋GFF3文件

運(yùn)行命令

  • step1:創(chuàng)建cdr文件
    $VAAST_dir/bin/vaast_tools/vcf2cdr.pl --vcf $vcf --output $outprefix --build hg19 --fasta $ref --gff3 $gff3 --info $info

  • step2:修改配置文件

所有遺傳模式的配置文件在目錄$VAAST_dir/data/pvaast/下,根據(jù)自己的數(shù)據(jù)選擇相應(yīng)文件,然后修改文件內(nèi)參數(shù),主要修改項(xiàng)為:input_ped_cdr_files,pedigree_representatives,inheritance_model

  • step3:運(yùn)行VAAST
    $VAAST_dir/bin/VAAST -m pvaast -o $output -pv_control $ctl --gw 1e6 $gff3 $outprefix-step4/family.cdr $outprefix-step4/case.cdr

結(jié)果說(shuō)明
輸出目錄中有個(gè)以 .simple結(jié)尾的文件,格式如下:該文件按照P-value對(duì)基因進(jìn)行了排序。進(jìn)一步可以根據(jù)自己的需求取排名靠前的基因位點(diǎn)作為候選集。

總結(jié)

軟件結(jié)果

模擬數(shù)據(jù)測(cè)試結(jié)果:

從我自己的測(cè)試結(jié)果來(lái)看,GEMINI結(jié)果比較全面,但是假陽(yáng)性比較多,需要另外過(guò)濾;Exomiser結(jié)果最好,假陽(yáng)性結(jié)果也是最少的;VAAST的召回率比較低,會(huì)漏掉一些真陽(yáng)性結(jié)果。

可檢測(cè)遺傳模式

輸入?yún)?shù)

參考文獻(xiàn)

1、Paila U , Chapman B A , Kirchner R , et al. GEMINI: Integrative Exploration of Genetic Variation and Genome Annotations[J]. PLoS Computational Biology,9,7(2013-7-18), 2013, 9(7):e1003153.
2、Smedley D , Jacobsen J O B , J?Ger M , et al. Next-generation diagnostics and disease-gene discovery with the Exomiser.[J]. Nature Protocols, 2015, 10(12):2004-2015.
3、Hu H , Huff C D , Moore B , et al. VAAST 2.0: Improved Variant Classification and Disease-Gene Identification Using a Conservation-Controlled Amino Acid Substitution Matrix[J]. Wiley-Blackwell Online Open, 2013, 37(6).

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容