簡介
GFF和GTF是兩種最常用的基因組注釋格式,在信息分析中建庫時(shí)除了需要fasta文件一般還會(huì)需要這兩種文件,提取需要的信息進(jìn)行注釋。
一、GFF
GFF(General Feature Format)是一種用來描述基因組特征的文件,現(xiàn)在我們所使用的大部分都是第三版(gff3)。
gff文件除gff1以外均由9列數(shù)據(jù)組成,前8列在gff的3個(gè)版本中信息都是相同的,只是名稱不同:
gtf文件是以tab鍵分割的9列組成,以下為每一列的對(duì)應(yīng)信息:
-
seqid:參考序列的id。 -
source:注釋的來源。如果未知,則用點(diǎn)(.)代替。一般指明產(chǎn)生此gff3文件的軟件或方法。 -
type: 類型,此處的名詞是相對(duì)自由的,建議使用符合SO慣例的名稱(sequenceontology),如gene,repeat_region,exon,CDS等。 -
start:開始位點(diǎn),從1開始計(jì)數(shù)(區(qū)別于bed文件從0開始計(jì)數(shù))。 -
end:結(jié)束位點(diǎn)。 -
score:得分,對(duì)于一些可以量化的屬性,可以在此設(shè)置一個(gè)數(shù)值以表示程度的不同。如果為空,用點(diǎn)(.)代替。 -
strand:“+”表示正鏈,“-”表示負(fù)鏈,“.”表示不需要指定正負(fù)鏈。 -
phase:步進(jìn)。對(duì)于編碼蛋白質(zhì)的CDS來說,本列指定下一個(gè)密碼子開始的位置。可以是0、1或2,表示到達(dá)下一個(gè)密碼子需要跳過的堿基個(gè)數(shù)。 -
attributes:屬性。一個(gè)包含眾多屬性的列表,格式為“標(biāo)簽=值”(tag=value),不同屬性之間以分號(hào)相隔。
下列的標(biāo)簽已定義:
-
ID:指定一個(gè)唯一的標(biāo)識(shí)。對(duì)屬性分類是非常好用(例如查找一個(gè)轉(zhuǎn)錄單位中所以的外顯子)。 -
Name:指定屬性的名稱。展示給用戶的就是該屬性。 -
Alias:名稱的代稱或其它。當(dāng)存在其它名稱時(shí)使用該屬性。 -
Note:描述性的一些說明。
Alias和Note可以有多個(gè)值,不同值之間以逗號(hào)分隔。
如:Alias=M19211,gna-12,GAMMA-GLOBULIN
在GFF文件的開頭,可以有#開頭的注釋行,示例如下
##gff-version 3
#!gff-spec-version 1.21
#!processor NCBI annotwriter
#!genome-build GRCh38.p12
#!genome-build-accession NCBI_Assembly:GCF_000001405.38
#!annotation-date 26 March 2018
#!annotation-source NCBI Homo sapiens Annotation Release 109
##sequence-region NC_000001.11 1 248956422
##species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9606
對(duì)于不同的基因組特征,其屬性不同。
- 染色體
染色體用region表示,1號(hào)染色體對(duì)應(yīng)的信息如下
NC_000001.11 RefSeq region 1 248956422 . + . ID=id0;Dbxref=taxon:9606;Name=1;chromosome=1;gbkey=Src;genome=chromosome;mol_type=genomic DNA
染色體是基礎(chǔ),后續(xù)的基因,exon等都是需要定位在染色體上的。
- 非編碼基因
對(duì)于非編碼基因,首先給出基因的起始和終止位置,然后描述轉(zhuǎn)錄本的信息。對(duì)于轉(zhuǎn)錄本而言, 通過exon展示其結(jié)構(gòu)。
假基因示例如下
NC_000001.11 BestRefSeq pseudogene 11874 14409 . + . ID=gene0;Dbxref=GeneID:100287102,HGNC:HGNC:37102;Name=DDX11L1;description=DEAD/H-box helicase 11 like 1;gbkey=Gene;gene=DDX11L1;gene_biotype=transcribed_pseudogene;pseudo=true
NC_000001.11 BestRefSeq transcript 11874 14409 . + . ID=rna0;Parent=gene0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;Name=NR_046018.2;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2
NC_000001.11 BestRefSeq exon 11874 12227 . + . ID=id1;Parent=rna0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2
NC_000001.11 BestRefSeq exon 12613 12721 . + . ID=id2;Parent=rna0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2
NC_000001.11 BestRefSeq exon 13221 14409 . + . ID=id3;Parent=rna0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2
tRNA基因示例如下
NC_000010.11 tRNAscan-SE gene 67764503 67764584 . + . ID=gene28271;Dbxref=GeneID:100189279,HGNC:HGNC:34845;Name=TRS-TGA1-1;gbkey=Gene;gene=TRS-TGA1-1;gene_biotype=tRNA
NC_000010.11 tRNAscan-SE tRNA 67764503 67764584 . + . ID=rna83632;Parent=gene28271;Dbxref=GeneID:100189279,HGNC:HGNC:34845;Note=transfer RNA-Ser (TGA) 1-1;anticodon=(pos:67764536..67764538);gbkey=tRNA;gene=TRS-TGA1-1;inference=COORDINATES: profile:tRNAscan-SE:1.23;product=tRNA-Ser
NC_000010.11 tRNAscan-SE exon 67764503 67764584 . + . ID=id1011659;Parent=rna83632;Dbxref=GeneID:100189279,HGNC:HGNC:34845;Note=transfer RNA-Ser (TGA) 1-1;anticodon=(pos:67764536..67764538);gbkey=tRNA;gene=TRS-TGA1-1;inference=COORDINATES: profile:tRNAscan-SE:1.23;product=tRNA-Ser
miRNA基因示例如下
NC_000001.11 BestRefSeq gene 17369 17436 . - . ID=gene2;Dbxref=GeneID:102466751,HGNC:HGNC:50039,miRBase:MI0022705;Name=MIR6859-1;description=microRNA 6859-1;gbkey=Gene;gene=MIR6859-1;gene_biotype=miRNA;gene_synonym=hsa-mir-6859-1
NC_000001.11 BestRefSeq primary_transcript 17369 17436 . - . ID=rna2;Parent=gene2;Dbxref=GeneID:102466751,Genbank:NR_106918.1,HGNC:HGNC:50039,miRBase:MI0022705;Name=NR_106918.1;gbkey=precursor_RNA;gene=MIR6859-1;product=microRNA 6859-1;transcript_id=NR_106918.1
NC_000001.11 BestRefSeq exon 17369 17436 . - . ID=id15;Parent=rna2;Dbxref=GeneID:102466751,Genbank:NR_106918.1,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=precursor_RNA;gene=MIR6859-1;product=microRNA 6859-1;transcript_id=NR_106918.1
NC_000001.11 BestRefSeq miRNA 17369 17391 . - . ID=rna3;Parent=rna2;Dbxref=GeneID:102466751,miRBase:MIMAT0027619,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=ncRNA;gene=MIR6859-1;product=hsa-miR-6859-3p
NC_000001.11 BestRefSeq exon 17369 17391 . - . ID=id16;Parent=rna3;Dbxref=GeneID:102466751,miRBase:MIMAT0027619,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=ncRNA;gene=MIR6859-1;product=hsa-miR-6859-3p
NC_000001.11 BestRefSeq miRNA 17409 17431 . - . ID=rna4;Parent=rna2;Dbxref=GeneID:102466751,miRBase:MIMAT0027618,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=ncRNA;gene=MIR6859-1;product=hsa-miR-6859-5p
NC_000001.11 BestRefSeq exon 17409 17431 . - . ID=id17;Parent=rna4;Dbxref=GeneID:102466751,miRBase:MIMAT0027618,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=ncRNA;gene=MIR6859-1;product=hsa-miR-6859-5p
一個(gè)miRNA基因的最終會(huì)形成兩個(gè)成熟的miRNA。
lncRNA基因示例如下
NC_000001.11 Gnomon gene 29926 31295 . + . ID=gene3;Dbxref=GeneID:107985730,HGNC:HGNC:52482;Name=MIR1302-2HG;gbkey=Gene;gene=MIR1302-2HG;gene_biotype=lncRNA
NC_000001.11 Gnomon lnc_RNA 29926 31295 . + . ID=rna5;Parent=gene3;Dbxref=GeneID:107985730,Genbank:XR_001737835.1,HGNC:HGNC:52482;Name=XR_001737835.1;gbkey=ncRNA;gene=MIR1302-2HG;model_evidence=Supporting evidence includes similarity to: 100%25 coverage of the annotated genomic feature by RNAseq alignments%2C including 8 samples with support for all annotated introns;product=MIR1302-2 host gene;transcript_id=XR_001737835.1
NC_000001.11 Gnomon exon 29926 30039 . + . ID=id18;Parent=rna5;Dbxref=GeneID:107985730,Genbank:XR_001737835.1,HGNC:HGNC:52482;gbkey=ncRNA;gene=MIR1302-2HG;product=MIR1302-2 host gene;transcript_id=XR_001737835.1
NC_000001.11 Gnomon exon 30564 30667 . + . ID=id19;Parent=rna5;Dbxref=GeneID:107985730,Genbank:XR_001737835.1,HGNC:HGNC:52482;gbkey=ncRNA;gene=MIR1302-2HG;product=MIR1302-2 host gene;transcript_id=XR_001737835.1
- 蛋白編碼基因
對(duì)于蛋白編碼基因,在非編碼基因的基礎(chǔ)上,多出了CDS的信息。示例如下
NC_000010.11 BestRefSeq%2CGnomon gene 35126830 35212958 . + . ID=gene27850;Dbxref=GeneID:1390,HGNC:HGNC:2352,MIM:123812;Name=CREM;description=cAMP responsive element modulator;gbkey=Gene;gene=CREM;gene_biotype=protein_coding;gene_synonym=CREM-2,hCREM-2,ICER
NC_000010.11 BestRefSeq mRNA 35126841 35179847 . + . ID=rna82191;Parent=gene27850;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;Name=NM_001881.3;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator%2C transcript variant 2;transcript_id=NM_001881.3
NC_000010.11 BestRefSeq exon 35126841 35127193 . + . ID=id995818;Parent=rna82191;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator%2C transcript variant 2;transcript_id=NM_001881.3
NC_000010.11 BestRefSeq exon 35148368 35148491 . + . ID=id995819;Parent=rna82191;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator%2C transcript variant 2;transcript_id=NM_001881.3
NC_000010.11 BestRefSeq exon 35178889 35178986 . + . ID=id995820;Parent=rna82191;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator%2C transcript variant 2;transcript_id=NM_001881.3
NC_000010.11 BestRefSeq exon 35179134 35179847 . + . ID=id995821;Parent=rna82191;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator%2C transcript variant 2;transcript_id=NM_001881.3
NC_000010.11 BestRefSeq CDS 35148372 35148491 . + 0 ID=cds57086;Parent=rna82191;Dbxref=CCDS:CCDS7184.1,GeneID:1390,Genbank:NP_001872.3,HGNC:HGNC:2352,MIM:123812;Name=NP_001872.3;Note=isoform 2 is encoded by transcript variant 2;gbkey=CDS;gene=CREM;product=cAMP-responsive element modulator isoform 2;protein_id=NP_001872.3
NC_000010.11 BestRefSeq CDS 35178889 35178986 . + 0 ID=cds57086;Parent=rna82191;Dbxref=CCDS:CCDS7184.1,GeneID:1390,Genbank:NP_001872.3,HGNC:HGNC:2352,MIM:123812;Name=NP_001872.3;Note=isoform 2 is encoded by transcript variant 2;gbkey=CDS;gene=CREM;product=cAMP-responsive element modulator isoform 2;protein_id=NP_001872.3
NC_000010.11 BestRefSeq CDS 35179134 35179329 . + 1 ID=cds57086;Parent=rna82191;Dbxref=CCDS:CCDS7184.1,GeneID:1390,Genbank:NP_001872.3,HGNC:HGNC:2352,MIM:123812;Name=NP_001872.3;Note=isoform 2 is encoded by transcript variant 2;gbkey=CDS;gene=CREM;product=cAMP-responsive element modulator isoform 2;protein_id=NP_001872.3
需要注意是,由于可變剪切的存在,一個(gè)蛋白編碼基因可能會(huì)有多個(gè)轉(zhuǎn)錄本。
查看第9列有哪些注釋信息:
$awk 'BEGIN{FS=OFS="\t"} $3=="gene"{split($9, a, ";"); for(i in a){split(a[i], b, "="); if(++c[b[1]]==1) print b[1]}}' abc.gff
ID
Accession
annotation
Name
product
二、GTF
gtf全稱為gene transfer format,主要是用來對(duì)基因進(jìn)行注釋,當(dāng)前所廣泛使用的gtf格式為第二版(gtf2)。以下均基于gtf2敘述。
gtf同gff3很相似,也是9列內(nèi)容,其內(nèi)容如下:
-
seqname: 序列的名字。通常格式染色體ID或是contig ID。 -
source:注釋的來源。通常是預(yù)測(cè)軟件名或是公共數(shù)據(jù)庫。 -
feature:基因結(jié)構(gòu)。CDS,start_codon,stop_codon是一定要含有的類型。 -
start:開始位點(diǎn),從1開始計(jì)數(shù)。 -
end:結(jié)束位點(diǎn)。 -
score:這一列的值表示對(duì)該類型存在性和其坐標(biāo)的可信度,不是必須的,可以用點(diǎn)“.”代替。 -
strand:鏈的正向與負(fù)向,分別用加號(hào)+和減號(hào)-表示。 -
frame:密碼子偏移,可以是0、1或2。 -
attributes:必須要有以下兩個(gè)值:
gene_id value; 表示轉(zhuǎn)錄本在基因組上的基因座的唯一的ID。gene_id與value值用空格分開,如果值為空,則表示沒有對(duì)應(yīng)的基因。
transcript_id value; 預(yù)測(cè)的轉(zhuǎn)錄本的唯一ID。transcript_id與value值用空格分開,空表示沒有轉(zhuǎn)錄本。
例子:
YL_Chr01 EVM transcript 6582 7082 . + . transcript_id "YL_Chr01G000010.1"; gene_id "YL_Chr01G000010";
YL_Chr01 EVM exon 6582 6648 . + . transcript_id "YL_Chr01G000010.1"; gene_id "YL_Chr01G000010";
YL_Chr01 EVM exon 6829 7082 . + . transcript_id "YL_Chr01G000010.1"; gene_id "YL_Chr01G000010";
YL_Chr01 EVM CDS 6582 6648 . + 0 transcript_id "YL_Chr01G000010.1"; gene_id "YL_Chr01G000010";
YL_Chr01 EVM CDS 6829 7082 . + 2 transcript_id "YL_Chr01G000010.1"; gene_id "YL_Chr01G000010";
YL_Chr01 EVM transcript 24963 25235 . + . transcript_id "YL_Chr01G000020.1"; gene_id "YL_Chr01G000020";
YL_Chr01 EVM exon 24963 25235 . + . transcript_id "YL_Chr01G000020.1"; gene_id "YL_Chr01G000020";
YL_Chr01 EVM CDS 24963 25235 . + 0 transcript_id "YL_Chr01G000020.1"; gene_id "YL_Chr01G000020";
YL_Chr01 EVM transcript 147350 157709 . - . transcript_id "YL_Chr01G000030.1"; gene_id "YL_Chr01G000030";
YL_Chr01 EVM exon 147350 147511 . - . transcript_id "YL_Chr01G000030.1"; gene_id "YL_Chr01G000030";
三、 GTF與GFF比較
GFF全稱為general feature format,這種格式主要是用來注釋基因組。
GTF全稱為gene transfer format,主要是用來對(duì)基因進(jìn)行注釋。
GTF 的第九列,通常為:
gene _ id "At1ge0001"; transcript _ id "At1g0ee01.1";
而 GFF 的第九列,通常為:
ID =mrnae01; Name = abc
ID =exon1; Parent =mrnae01
ID =exon2; Parent =mrnae01
目前兩種文件可以方便的相互轉(zhuǎn)化:使用gffread
gffread YL.gff -T -o li.gtf
參考
UCSC GTF format
https://blog.csdn.net/sinat_38163598/article/details/72851239