一
現(xiàn)在,基因組測序和組裝的價格已經(jīng)降到了很多科研團隊都能負擔(dān)的水平,因此,很多物種的基因組序列都被測定并公開了。同時,描述這些基因結(jié)構(gòu)的文件,比如GTF或GFF3文件,也可以在網(wǎng)上免費下載。
對于大多數(shù)科研人員來說,有了這兩個文件就足夠他們開展研究了。但理想很豐滿,現(xiàn)實卻很骨感。雖然物種的基因組很多,但基因組序列的質(zhì)量往往參差不齊,而基因結(jié)構(gòu)注釋文件更是五花八門,這常常會給后續(xù)的數(shù)據(jù)分析帶來麻煩。我最近在研究一些數(shù)據(jù),就遇到了這樣的問題。
我想,如果能有一個工具,能夠規(guī)范化GFF3文件,補充完整缺失的信息,讓這個文件能更好地適應(yīng)各種后續(xù)的數(shù)據(jù)分析,甚至更方便進一步的研究使用,那該多好??!
我查了查,發(fā)現(xiàn)市面上幾乎沒有這樣的工具。除了一個perl腳本集合(在github上搜索aget能找到)可能能做點類似的工作外,真的沒找到其他相關(guān)的軟件,特別是那種還有用戶界面的。
功夫不負有心人,終于被我找到有位大佬花了一些時間,寫了一個叫做GXF Fix的工具,然后把它集成到了TBtools主程序里。這個工具的主要功能就是修復(fù)基因結(jié)構(gòu)注釋文件中缺失的部分,基于文件中已有的信息來補充完整。
二
基因結(jié)構(gòu)注釋信息文件是科研中常用的一種數(shù)據(jù)格式,但它們常常存在一些問題。
首先是“GENE”特征缺失。有些注釋文件可能非常粗糙,比如直接從轉(zhuǎn)錄組組裝結(jié)果得到的GTF文件,它們可能完全沒有包含“gene”這一特征。我遇到的,恰恰就是這個問題。
其次是“mRNA”特征的缺失。有些基因結(jié)構(gòu)注釋文件里,可能缺少了“mRNA”特征,只包含了“exon”(外顯子)和“cds”(編碼序列),或者只有“cds”。這樣的文件對于一些轉(zhuǎn)錄組分析流程來說,可能根本無法使用,比如“STAR align - stringtie”這個流程。這個問題,以前也遇到過。
再者是“UTR”(非翻譯區(qū))信息的缺失。只有極少數(shù)的物種會提供UTR區(qū)間的信息,大部分文件只給出“exon”和“cds”,甚至只有“mRNA”和“cds”。雖然UTR信息很可能存在,但需要用戶自己去計算坐標。而有了UTR區(qū)間的好處是,我們可以知道一些位點的絕對可靠序列特征信息,比如miRNA的靶位點等。
此外,基因結(jié)構(gòu)注釋信息文件的排序也可能混亂無序。
……當然,還有很多其他令人頭疼的問題。
三
GXF Fix 修復(fù)基因結(jié)構(gòu)注釋信息文件 - GTF/GFF3
話不多說,讓我們直接開始看看如何修復(fù)gff注釋文件。首先,功能界面如下:


示例一:擬南芥的基因結(jié)構(gòu)注釋信息文件,可以說是非常全面

內(nèi)容對比

使用示例 - 粗糙注釋
有一些注釋信息文件,還是比較粗糙的。比如缺少 gene,甚至 mRNA feature都沒有。
直接進行修復(fù)。

一個我做項目的實例:這是我在做3D基因組研究時,問中科院海洋所的一個大佬要的數(shù)據(jù)(在此實名感謝這位姐姐~)。但是其實數(shù)據(jù)有一些問題存在,比如基因組文件和注釋文件染色體名稱不匹配、注釋文件中第三列沒有“Gene”等。前者好解決,后面這個問題確實讓我想了很久。讓我們看看GXF Fix的強大吧。
修復(fù)前:第三列無gene

修復(fù)中,速度很快

修復(fù)后:第三列有g(shù)ene了!

最后,真的要感謝大佬寫出了這么方便好用的功能,讓我們這些基因組研究者能夠更加方便快捷的進行g(shù)ff文件修復(fù)~
參考鏈接:https://blog.csdn.net/abai0410/article/details/115679446