TBtools修復(fù)基因注釋文件的方法



現(xiàn)在,基因組測序和組裝的價格已經(jīng)降到了很多科研團隊都能負擔(dān)的水平,因此,很多物種的基因組序列都被測定并公開了。同時,描述這些基因結(jié)構(gòu)的文件,比如GTF或GFF3文件,也可以在網(wǎng)上免費下載。

對于大多數(shù)科研人員來說,有了這兩個文件就足夠他們開展研究了。但理想很豐滿,現(xiàn)實卻很骨感。雖然物種的基因組很多,但基因組序列的質(zhì)量往往參差不齊,而基因結(jié)構(gòu)注釋文件更是五花八門,這常常會給后續(xù)的數(shù)據(jù)分析帶來麻煩。我最近在研究一些數(shù)據(jù),就遇到了這樣的問題。

我想,如果能有一個工具,能夠規(guī)范化GFF3文件,補充完整缺失的信息,讓這個文件能更好地適應(yīng)各種后續(xù)的數(shù)據(jù)分析,甚至更方便進一步的研究使用,那該多好??!

我查了查,發(fā)現(xiàn)市面上幾乎沒有這樣的工具。除了一個perl腳本集合(在github上搜索aget能找到)可能能做點類似的工作外,真的沒找到其他相關(guān)的軟件,特別是那種還有用戶界面的。

功夫不負有心人,終于被我找到有位大佬花了一些時間,寫了一個叫做GXF Fix的工具,然后把它集成到了TBtools主程序里。這個工具的主要功能就是修復(fù)基因結(jié)構(gòu)注釋文件中缺失的部分,基于文件中已有的信息來補充完整。

基因結(jié)構(gòu)注釋信息文件是科研中常用的一種數(shù)據(jù)格式,但它們常常存在一些問題。

首先是“GENE”特征缺失。有些注釋文件可能非常粗糙,比如直接從轉(zhuǎn)錄組組裝結(jié)果得到的GTF文件,它們可能完全沒有包含“gene”這一特征。我遇到的,恰恰就是這個問題。

其次是“mRNA”特征的缺失。有些基因結(jié)構(gòu)注釋文件里,可能缺少了“mRNA”特征,只包含了“exon”(外顯子)和“cds”(編碼序列),或者只有“cds”。這樣的文件對于一些轉(zhuǎn)錄組分析流程來說,可能根本無法使用,比如“STAR align - stringtie”這個流程。這個問題,以前也遇到過。

再者是“UTR”(非翻譯區(qū))信息的缺失。只有極少數(shù)的物種會提供UTR區(qū)間的信息,大部分文件只給出“exon”和“cds”,甚至只有“mRNA”和“cds”。雖然UTR信息很可能存在,但需要用戶自己去計算坐標。而有了UTR區(qū)間的好處是,我們可以知道一些位點的絕對可靠序列特征信息,比如miRNA的靶位點等。

此外,基因結(jié)構(gòu)注釋信息文件的排序也可能混亂無序。

……當然,還有很多其他令人頭疼的問題。


GXF Fix 修復(fù)基因結(jié)構(gòu)注釋信息文件 - GTF/GFF3

話不多說,讓我們直接開始看看如何修復(fù)gff注釋文件。首先,功能界面如下:


示例一:擬南芥的基因結(jié)構(gòu)注釋信息文件,可以說是非常全面

內(nèi)容對比

使用示例 - 粗糙注釋

有一些注釋信息文件,還是比較粗糙的。比如缺少 gene,甚至 mRNA feature都沒有。

直接進行修復(fù)。

一個我做項目的實例:這是我在做3D基因組研究時,問中科院海洋所的一個大佬要的數(shù)據(jù)(在此實名感謝這位姐姐~)。但是其實數(shù)據(jù)有一些問題存在,比如基因組文件和注釋文件染色體名稱不匹配、注釋文件中第三列沒有“Gene”等。前者好解決,后面這個問題確實讓我想了很久。讓我們看看GXF Fix的強大吧。

修復(fù)前:第三列無gene

修復(fù)中,速度很快

修復(fù)后:第三列有g(shù)ene了!

最后,真的要感謝大佬寫出了這么方便好用的功能,讓我們這些基因組研究者能夠更加方便快捷的進行g(shù)ff文件修復(fù)~


參考鏈接:https://blog.csdn.net/abai0410/article/details/115679446

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容