歡迎關(guān)注"生信修煉手冊(cè)"!
HGVS指定了一套完整的變異位點(diǎn)命名規(guī)則,統(tǒng)一的命名方便了學(xué)術(shù)溝通與交流。官網(wǎng)鏈接如下:
https://www.hgvs.org/
對(duì)于所有的變異位點(diǎn),劃分成了3個(gè)層次
DNA ?level
RNA ?level
-
Proteion level
一個(gè)好的命名,至少要體現(xiàn)2個(gè)因素:變異位點(diǎn)的位置和造成的影響,HGVS通個(gè)以下3個(gè)方面來(lái)定義一個(gè)變異位點(diǎn)
reference sequence
position
variant type
1. 參考序列
所有的突變位點(diǎn)必須基于一個(gè)參考序列進(jìn)行定位,不同類(lèi)型的參考序列前綴不同,g代表基因組參考序列;c代表編碼蛋白的DNA序列;m代表線粒體參考序列;n代表非編碼DNA序列;r代表RNA序列;p代表蛋白質(zhì)序列。
所有的參考序列必須是NCBI或者EBI數(shù)據(jù)庫(kù)中的ID,必須同時(shí)包含accession和version, 比如NC_000023.10, NC_000023代表編號(hào),10代表版本號(hào)。各種類(lèi)型的參考序列示例如下
NC_000023.10
NG_012232.1
NM_004006.2
NR_002196.1
NP_003997.1
一個(gè)典型的HGVS命名示例如下:
NC_000023.9:g.32317682G>A
NC_000023.9是NCBI中人類(lèi)的X染色體的編號(hào),在參考序列之后緊跟著一個(gè)冒號(hào),用于分隔參考序列和突變信息,g代表基因組序列,g.32317682代表在基因組上的位置, G>A表示由G堿基突變成A堿基。
如果突變位點(diǎn)在NCBI和EBI中沒(méi)有合適的參考序列,最終的解決方案就是申請(qǐng)一個(gè)LRG編號(hào),網(wǎng)址如下
http://www.lrg-sequence.org/
在該數(shù)據(jù)庫(kù)中對(duì)于HGNC定義的gene ?symbol也出給了對(duì)應(yīng)的LRG編號(hào)
2. 定位
對(duì)于突變位點(diǎn)而言,位置信息是基本信息之一。對(duì)于不同的參考序列,定位的策略也稍有差異。
g代表基因組,m代表線粒體, p代表蛋白質(zhì),這三種參考序列在定位時(shí),都是從1開(kāi)始計(jì)數(shù),寫(xiě)法為g.1, m.1, p.1, 除此之外,不需要任何的修飾符號(hào)。
c代表編碼蛋白的DNA序列,從起始密碼子的第一個(gè)堿基開(kāi)始計(jì)數(shù),寫(xiě)法為c.1, 只對(duì)exon區(qū)間進(jìn)行計(jì)數(shù),終點(diǎn)為終止密碼子的最后一個(gè)堿基。
對(duì)于起始密碼子上游的堿基,采用負(fù)號(hào)表示,比如c.-1;對(duì)于終止密碼子下游的堿基, 采用*表示,比如c.*1;
在內(nèi)含子區(qū)的變異位點(diǎn)要根據(jù)距離來(lái)決定,靠近內(nèi)含子5’末端的變異位點(diǎn),要根據(jù)上游最近的外顯子的最后一個(gè)堿基來(lái)定位,示例c.87+4.上游最近的外顯子的邊界位置為87,變異位點(diǎn)在內(nèi)含子5’端開(kāi)始的第4個(gè)堿基;
靠近內(nèi)含子3’末端的變異位點(diǎn),要根據(jù)下游最近的外顯子的第一個(gè)堿基來(lái)定位,示例c.109-4.下游最近的外顯子的邊界位置為109,變異位點(diǎn)在內(nèi)含子3’端開(kāi)始的第4個(gè)堿基;
位于5’UTR和3’UTR區(qū)的變異位點(diǎn),也當(dāng)做內(nèi)含子區(qū)來(lái)處理,5’UTR區(qū)添加c.-前綴;比如c.-85+1;3’UTR區(qū)添加c.*前綴,比如c.*37+1。
3. 變異類(lèi)型
不同突變類(lèi)型表示方式不同
Substitution 點(diǎn)突變: 格式如下
prefix:position_substituted"reference_nucleotide">"new_nucleotide"prefix代表參考序列,position_substituted代表突變位點(diǎn)在參考序列上的位置,reference_nucleotide代表參考序列上的堿基;>大于號(hào)表明變異類(lèi)型為點(diǎn)突變, new_nucleotide代表突變之后的堿基,示例如下
NC_000023.10:g.33038255C>A
Deletion 缺失:格式如下
prefix"position(s)_deleted"delprefix代表參考序列,positions_deleted代表缺失堿基在參考序列上的位置,del表明變異類(lèi)型為缺失,示例如下
NG_012232.1:g.19_21del
當(dāng)缺失堿基數(shù)大于1個(gè)時(shí),需要指定起始位置和終止位置,二者之間用下劃線連接。還可以在后面跟上缺失的堿基序列,比如
NG_012232.1:g.19_21delTGC
Insertion 插入:格式如下
prefix"positions_flanking"ins"inserted_sequence"prefix代表參考序列,position_flanking代表插入序列起點(diǎn)在參考序列上的位置;ins表明變異類(lèi)型為插入, inserted_sequence代表插入的堿基序列,示例如下
NC_000023.10:g.32862923_32862924insCCT
插入的序列一定是位于參考序列上兩個(gè)堿基之間,在描述插入序列的位置時(shí),即使插入的堿基只有個(gè),也需要兩個(gè)位置,比如上述示例中的位置為32862923_32862924。
Deletion-insertion : indel, 同時(shí)發(fā)生了插入和缺失,格式如下
prefix"position(s)_deleted"delins"inserted_sequence"prefix代表參考序列,position(s_deleted代表缺失序列在參考序列上的位置;delins表明變異類(lèi)型為插入缺失, inserted_sequence代表插入的堿基序列,示例如下
NC_000023.10:g.6775_6777delinsC
上述示例代表NC_000023.10染色體上的6775到6777共3個(gè)堿基突變成了C堿基,可以理解為這3個(gè)堿基先缺失,然后插入1個(gè)C堿基。
Duplication : 重復(fù)序列,基因組上的部分堿基重復(fù)出現(xiàn),和插入的效果類(lèi)似,格式如下
prefix"position(s)_duplicated"dupprefix代表參考序列,position(s)_duplicated代表重復(fù)序列在參考序列上的位置;dup表明變異類(lèi)型為重復(fù)序列,示例如下
NM_004006.2:c.20_23dup
如果只有一個(gè)堿基重復(fù)時(shí),可以只寫(xiě)1個(gè)位置,比如NM_004006.2:c.20dup;
雖然重復(fù)序列和插入有點(diǎn)類(lèi)似,但是不可以改寫(xiě)成插入的格式,一定要寫(xiě)成重復(fù)序列的格式
Inversion : 倒位,突變成了反向互補(bǔ)的堿基,格式如下
prefix"positions_inverted"invprefix代表參考序列,positions_inverted代表倒位序列在參考序列上的位置;inv表明變異類(lèi)型為倒位,示例如下
NC_000023.10:g.1077_1080inv
Conversion : 易位,染色體上部分區(qū)域替換為另一條染色體的堿基,格式如下
prefix"positions_converted"con"positions_replacing_sequence"prefix代表參考序列,positions_converted代表易位序列在參考序列上的位置;con表明變異類(lèi)型為易位,positions_replacing_sequence代表替換堿基在參考序列上的位置,示例如下
NC_000012.11:g.6128892_6128954conNC_000022.10:17179029_17179091
上述示例表示NC_000012.11染色體上的6128892到6128954區(qū)間的堿基替換為NC_000022.10染色體上17179029到17179091區(qū)間的堿基。對(duì)于同一條染色體上的易位,positions_replacing_sequence中可以不寫(xiě)參考序列的名字。示例如下
NC_000022.10:g.42522624_42522669con42536337_42536382
以上只是HGVS的基本規(guī)則,更多的細(xì)節(jié)可以參考以下網(wǎng)址
http://varnomen.hgvs.org/
掃描關(guān)注微信號(hào),更多精彩內(nèi)容等著你!