如何獲得基因名與基因類型的對(duì)應(yīng)關(guān)系——下載GTF文件

GTF文件是用于保存基因結(jié)構(gòu)信息的文件格式。它是基于通用特征格式(GFF)的制表符分隔文本格式,但包含一些特定的附加基因信息。
1.打開GENECODE網(wǎng)站 ,下載GTF文件

https://www.gencodegenes.org/human/release_29.html

image.png

image.png

2.傳入Linux(以shell為例)


image.png

3.解壓
gunzip gencode.v29.annotation.gtf.gz 
image.png

image.png

4.less 查看

less -S gencode.v29.annotation.gtf
image.png

觀察得第14列為基因類型,第18列為基因名,取。
重導(dǎo)向?yàn)間encode.v25.annotation.gtf.gene3type

awk '{if(!NF || /^#/){next}}1' gencode.v25.annotation.gtf|sed 's/"http://g'| sed 's/;//g'|awk '{print $14,$18}' > gencode.v25.annotation.gtf.gene3type

5.less 一下新文件

image.png

1.存在以K開頭 2.存在重復(fù)
故去K,去重復(fù)

uniq gencode.v25.annotation.gtf.gene3type |grep '^[^K]' |less -S
image.png

可在R打開使用
更方便的方法是直接在Linux下載

wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_29/gencode.v29.annotation.gtf.gz
image.png

參考來源:生信技能樹

友情鏈接:

課程分享
生信技能樹全球公益巡講
https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g
B站公益74小時(shí)生信工程師教學(xué)視頻合輯
https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw
招學(xué)徒:
https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw

歡迎關(guān)注公眾號(hào):青島生信菜鳥團(tuán)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容