transvar變異坐標(biāo)轉(zhuǎn)換 - Linux篇

坐標(biāo)轉(zhuǎn)換困境

一些公開發(fā)表的論文中及很多數(shù)據(jù)庫中經(jīng)常提到變異,一般變異的表現(xiàn)形式有三種:1)基因組坐標(biāo):2)cDNA 坐標(biāo);3)蛋白氨基酸坐標(biāo)。舉個例子TP53上的某個變異的基因組坐標(biāo)是g.chr17:74026C>A,cDNA坐標(biāo)是c.1001G>T,蛋白氨基酸坐標(biāo)是p.G334V。在數(shù)據(jù)分析的過程中經(jīng)常會遇到這三種坐標(biāo)相關(guān)轉(zhuǎn)換的情況,例如你從文獻(xiàn)或者某個數(shù)據(jù)庫中收集到了幾百個腫瘤靶向藥的用藥位點(diǎn),而你在你樣本中檢測到了很多變異,想知道你的樣本中包含多少收集到的已知的用藥位點(diǎn)。但通常文獻(xiàn)或者數(shù)據(jù)庫會以第二種或者第三種形式表示變異,而我們自己檢測的變異通常會以vcf格式存儲,這樣就無法直接匹配。當(dāng)然可以對vcf格式的變異進(jìn)行ANNOVAR注釋,然后對cDNA或者蛋白氨基酸坐標(biāo)形式的變異進(jìn)行比較,但嘗試過的人都表示特別痛苦:需要考慮的規(guī)則太多!嘗試兩次,還是放棄了:一是匹配規(guī)則不通用;二是總擔(dān)心有沒有考慮到過的情況。所以急需一個能完成這種坐標(biāo)轉(zhuǎn)換的工具。15年發(fā)表在NATURE METHODS上的題為:TransVar: a multilevel variant annotator for precision genomics的文章中推出了一款名為TransVar的軟件成了解決不同層面變異坐標(biāo)轉(zhuǎn)換的神器。下面小編就介紹一下這款軟件(Linux版),沒有Linux基礎(chǔ)的也不用擔(dān)心,后續(xù)會寫一篇基于Web版TransVar進(jìn)行注釋(坐標(biāo)轉(zhuǎn)換)的文章。

TransVar軟件簡介

Transvar 是一款多種方向的突變/坐標(biāo)轉(zhuǎn)換工具,它支持基因組坐標(biāo)、cDNA 坐標(biāo)以及蛋白氨基酸坐標(biāo)之間的轉(zhuǎn)換。


image.png

如上圖所示,該軟件的功能可細(xì)分為下面3種:
1)正向注釋:對于基因組坐標(biāo)的變異進(jìn)行mRNA(cDNA)和蛋白注釋,這款工具會提供所有的可能結(jié)果;
2)反向注釋:將mRNA(cDNA)坐標(biāo)和蛋白坐標(biāo)的變異轉(zhuǎn)換成所有可能基因組坐標(biāo)形式的變異;
3)等價注釋:對于某一給定的蛋白坐標(biāo)的變異,搜索所有可能的與其為相同基因組坐標(biāo),但在不同轉(zhuǎn)錄本上的蛋白坐標(biāo)變異。

軟件下載和安裝:

軟件下載地址:
1,舊版(最近沒有在更新):https://bitbucket.org/wanding/transvar/src/master/
2,新版(一直在更新):https://github.com/zwdzwd/transvar
按照方法如下:

sudo pip install transvar ## 全局安裝,需要root權(quán)限
或者:
pip install --user transvar ##用戶安裝,沒有root權(quán)限的用此方法
軟件更新:
pip install -U transvar

這款軟件在安裝后要自己配置數(shù)據(jù)庫操作起來也比較簡單:

# set up databases
transvar config --download_anno --refversion hg19 #默認(rèn)的hg19的 dbSNP 數(shù)據(jù)庫是2016年的,部分?jǐn)?shù)據(jù)庫如dbSNP新版數(shù)據(jù)庫收錄內(nèi)容有很大變化(主要是數(shù)量的提升),所以建議自行重新下載

# in case you don't have a reference
transvar config --download_ref --refversion hg19

# in case you do have a reference to link
transvar config -k reference -v [path_to_hg19.fa] --refversion hg19

需要注意的是直接使用Transvar的命令下載數(shù)據(jù)庫容易因網(wǎng)絡(luò)問題出錯,導(dǎo)致下載的數(shù)據(jù)庫是不完整的(不報錯的,是個深坑?。┛梢缘?a target="_blank">http://transvar.info/transvar_user/annotations/直接下載后進(jìn)行配置。

軟件的使用

這款軟件即可以單點(diǎn)注釋,也可以批量處理,下面分別介紹一下:
單點(diǎn)注釋用 -i傳入待注釋位點(diǎn),包括3種:

# 基因組正向注釋
transvar ganno --ccds -i 'chr3:g.178936091G>A' 
 # cDNA反向注釋
transvar canno --ccds -i 'PIK3CA:c.1633G>A'
# 氨基酸反向注釋
transvar panno -i 'PIK3CA:p.E545K' --ensembl 
# 其中--ccds、--ensembl為使用不同的數(shù)據(jù)庫,如網(wǎng)頁版,可以同時多選,\
# 如 --ccds --ensembl --refseq --ucsc 來進(jìn)行多選

批量注釋:

/*/software/anaconda3/bin/transvar canno -l mutiation.canno.list  -m 1 -o 2  --refseq --longestcoding --gseq 
###
canno:指cDNA反向注釋,備選包括panno( 蛋白氨基酸反向注釋)和ganno(基因組正向注釋)
-l:輸入文件,變異與canno、panno、ganno對應(yīng)。格式示例如下:
![image.png](https://upload-images.jianshu.io/upload_images/22041438-ba466242c2050f60.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
-m:-l指定的輸入文件可以有多列,通過-m指定哪列是待注釋列,不加-m參數(shù)默認(rèn)是第一列
-o:同時可以通過-o來指定-l中的那一列作為輸出文件的首列,不加-o,默認(rèn)是第一列
--refseq:使用哪個數(shù)據(jù)庫的轉(zhuǎn)錄本進(jìn)行注釋,還有其他數(shù)據(jù)庫可選如 ensembl/gencode/ucsc/ccds/aceview等。
--longestcoding: 有多個轉(zhuǎn)錄本時,僅選擇最長的轉(zhuǎn)錄本。如果不加這個參數(shù)會把涉及到的所有轉(zhuǎn)錄本都輸出出來,這時候你就要自己制定標(biāo)準(zhǔn)進(jìn)行篩選了
--gseq :在輸出文件中增加類似VCF格式的變異信息,包括染色體,起始位置,終止位置,參考基因組序列,突變后的序列。

軟件官方教程

官網(wǎng):https://transvar.readthedocs.io/en/latest/
這里有對軟件詳細(xì)的介紹,這里就不贅述了,想深入研究的可以去官網(wǎng)看看。

image.png

說在最后的

transvar 在轉(zhuǎn)換時總會有很多損失,個人經(jīng)驗(yàn)損失主要來自于兩部分:
1,輸出結(jié)果中沒有該變異,直接被丟掉了;
2,輸出結(jié)果中有該變異,但在你選擇的數(shù)據(jù)庫中沒有這個轉(zhuǎn)錄本,提示“no_valid_transcript_found”。
為了盡量提高成功轉(zhuǎn)換的比例可以做如下嘗試:
1,用所有能用的庫去注釋,不過還是建議以一個庫的結(jié)果為準(zhǔn),把其它庫包含但該庫不包含的變異加上;
2,對于longestcoding沒有成功去掉該參數(shù)后再嘗試,然后自行選一個靠譜的轉(zhuǎn)錄本,如果不知道該怎么選就隨機(jī)選一個;
3,如果你拿到的變異信息有對應(yīng)的轉(zhuǎn)錄本,選取與所提供的轉(zhuǎn)錄本一致的數(shù)據(jù)庫,分析時不加--longestcoding,然后根據(jù)轉(zhuǎn)錄本信息對轉(zhuǎn)換結(jié)果進(jìn)行匹配,這種是準(zhǔn)確性最高的。

原創(chuàng)文字,如果覺得對你有幫助留下你的贊哦~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容