GTF文件是用于保存基因結(jié)構(gòu)信息的文件格式。它是基于通用特征格式(GFF)的制表符分隔文本格式,但包含一些特定的附加基因信息。
1.打開GENECODE網(wǎng)站 ,下載GTF文件
https://www.gencodegenes.org/human/release_29.html

image.png

image.png
2.傳入Linux(以shell為例)

image.png
3.解壓
gunzip gencode.v29.annotation.gtf.gz

image.png

image.png
4.less 查看
less -S gencode.v29.annotation.gtf

image.png
觀察得第14列為基因類型,第18列為基因名,取。
重導(dǎo)向?yàn)間encode.v25.annotation.gtf.gene3type
awk '{if(!NF || /^#/){next}}1' gencode.v25.annotation.gtf|sed 's/"http://g'| sed 's/;//g'|awk '{print $14,$18}' > gencode.v25.annotation.gtf.gene3type
5.less 一下新文件

image.png
1.存在以K開頭 2.存在重復(fù)
故去K,去重復(fù)
uniq gencode.v25.annotation.gtf.gene3type |grep '^[^K]' |less -S

image.png
可在R打開使用
更方便的方法是直接在Linux下載
wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_29/gencode.v29.annotation.gtf.gz

image.png
參考來源:生信技能樹
友情鏈接:
課程分享
生信技能樹全球公益巡講
(https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g)
B站公益74小時(shí)生信工程師教學(xué)視頻合輯
(https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw)
招學(xué)徒:
(https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw)
歡迎關(guān)注公眾號(hào):青島生信菜鳥團(tuán)