轉(zhuǎn)載:https://biozx.top/gtf.html
參考
UCSC GTF format
https://blog.csdn.net/sinat_38163598/article/details/72851239
簡介
GFF和GTF是兩種最常用的基因組注釋格式,在信息分析中建庫時除了需要fasta文件一般還會需要這兩種文件,提取需要的信息進行注釋。
GTF是GFF2的擴展。前八個GTF字段與GFF相同,但是GTF還包含可選字段: 5UTR, 3UTR, inter, inter_CNS, and intron_CNS。
前八個字段:
-
seq_id:序列的編號,一般為chr或者scanfold編號; -
source: 注釋的來源,一般為數(shù)據(jù)庫或者注釋的機構(gòu),如果未知,則用點“.”代替; -
type: 注釋信息的類型,比如Gene、cDNA、mRNA、CDS等 -
start:該基因或轉(zhuǎn)錄本在參考序列上的起始位置; -
end: 該基因或轉(zhuǎn)錄本在參考序列上的終止位置; -
score: 得分,數(shù)字,是注釋信息可能性的說明,可以是序列相似性比對時的E-values值或者基因預(yù)測是的P-values值,“.”表示為空; -
strand: 該基因或轉(zhuǎn)錄本位于參考序列的正鏈(+)或負鏈(-)上; -
phase: 僅對注釋類型為“CDS”有效,表示起始編碼的位置,有效值為0、1、2(對于編碼蛋白質(zhì)的CDS來說,本列指定下一個密碼子開始的位置。每3個核苷酸翻譯一個氨基酸,從0開始,CDS的起始位置,除以3,余數(shù)就是這個值,,表示到達下一個密碼子需要跳過的堿基個數(shù)。該編碼區(qū)第一個密碼子的位置,取值0,1,2。0表示該編碼框的第一個密碼子第一個堿基位于其5'末端;1表示該編碼框的第一個密碼子的第一個堿基位于該編碼區(qū)外;2表示該編碼框的第一個密碼子的第一、二個堿基位于該編碼區(qū)外;如果Feature為CDS時,必須指明具體值。)
例子:
browser position chr22:10000000-10025000
browser hide all
track name=regulatory description="TeleGene(tm) Regulatory Regions" visibility=2
chr22 TeleGene enhancer 10000000 10001000 500 + . touch1
chr22 TeleGene promoter 10010000 10010100 900 + . touch1
chr22 TeleGene promoter 10020000 10025000 800 - . touch2
什么時候用到GTF文件
Cufflinks/Tophat 軟件需要 GTF文件作為基因注釋文件。
與GFF比較
GFF全稱為general feature format,這種格式主要是用來注釋基因組。
GTF全稱為gene transfer format,主要是用來對基因進行注釋。
目前兩種文件可以方便的相互轉(zhuǎn)化,比如:使用Cufflinks軟件的 的gffread。
GTF文件下載
以gencode最為權(quán)威,Ensemble、NCBI 、UCSC也有提供下載。
genecode的FTP:ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/
gencode官網(wǎng)的統(tǒng)計信息
#下載release_24所有的gtf文件
wget -c -r -np -nd -k -L -A “*gtf.gz” ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/