改造IGV (八)- 基于RNAseq測序數(shù)據(jù) - 人工進行基因結(jié)構(gòu)注釋矯正

寫在前面

課題組目前做一些基因組相關(guān)工作。了解基因組的朋友應(yīng)該明白,基因結(jié)構(gòu)注釋錯誤幾乎遍布所有基因組,包括我們目前看到的大多數(shù)即使是發(fā)表在頂級期刊的工作。生物是復(fù)雜的,而算法是存在局限的。所以人工矯正基因結(jié)構(gòu)注釋往往是最終選擇之一。目前,市面上基本只有一個工具可以做到,那么是一款叫做Apolle Browser的瀏覽器。現(xiàn)在已經(jīng)是第二代【第一代似乎已經(jīng)無法下載到】,一個常用的網(wǎng)頁基因組瀏覽器JBrowser的一個插件實現(xiàn)。配置起來并不方便,涉及到各類軟件的安裝。所以最好的選擇或許還是直接使用IGV。本文提到的改造,沒有之前IGV-sRNA的改動大,主要原因是,我失敗了。不過這并不影響目的的基本達成【失敗只是相對于暫時定位過高的目標】。以下,直接講述操作,作為課題組師弟師妹的使用指引。

主要分為三步:

  1. IGV中定區(qū)間,指定基因ID
  2. TBtools中轉(zhuǎn)換輸出的文件為gff3格式【即是最優(yōu)基因結(jié)構(gòu)注釋】
  3. 替換原始GFF3文件對應(yīng)的內(nèi)容

第一步 - IGV中定區(qū)間

我寫工具,往往會考慮操作的難度。所以要求用戶在IGV中定區(qū)間,我做了一些簡單的東西,使得用戶可以相對輕松的完成。
如下
可以看到這是一個錯誤的注釋,或者是沒注釋出來。換句話說,其中已有的那個注釋,本身很可能是一個錯誤的注釋。


首先,使用IGV的區(qū)間工具,選中幾個區(qū)間,你可以一次選擇一個外顯子,也可以使用多個有重疊的區(qū)間,覆蓋一個外顯子(后續(xù)會自動合并)。
如下,我分幾步走,先用短的覆蓋邊界



隨后,我繼續(xù)使用區(qū)間工具,增加一些跟以上區(qū)間重疊的外顯子區(qū)間



在Region Navigator中可以看到

這個窗口一般不關(guān)閉,完成一個基因之后,我個人的建議是,先Assign成一個基因,首先是選中這些區(qū)間,然后點擊Assign

然后關(guān)閉小窗口,那么就會直接Assign一些信息上去
注意,其中GeneName必須是唯一的,Positive是轉(zhuǎn)錄本在正反鏈,我們用的是鏈特異,所以這些是負鏈的基因,Coding與否,你要有自己的判斷,我是直接截取這個區(qū)間,BlastX到NCBI,看了下,知道這個是Coding

針對每一個基因,可以一直重復(fù)一個操作。那么就會有一系列的基因

第二步

完成了你人工矯正的步驟之后,在IGV中導(dǎo)出regions.bed




隨后,打開TBtools



將文件設(shè)置進去,注意到必須輸入文件是一個,即regions.bed
如果你的是Coding的基因,那么最好是也輸入基因組序列文件,這樣TBtools會自動判斷并輸出CDS的Feature;如果沒有基因組序列文件,那么就不會有CDS feature,即使你輸入的是Coding的。

點擊Start,會在非常短的時間內(nèi)完成。



這個生成的gff3文件,可以直接導(dǎo)入到IGV

于是,我們完成了基因的結(jié)構(gòu)注釋人工矯正。

我們手上的IGV是已經(jīng)改造過的。所以,我們這個時候還可以做一個有趣的事情,直接點擊對應(yīng)的轉(zhuǎn)錄本



隨后打開TBtools,黏貼進去



是的,你點擊了一下轉(zhuǎn)錄本,就直接在剪切板中得到了全長CDS【這個功能是前幾天我增加進去的】。
于是你還得到了對應(yīng)的蛋白序列,找個公共數(shù)據(jù)庫BlastP

可以看到,我們確實完成了一個正確的基因結(jié)構(gòu)注釋的人工矯正。
荔枝基因組從此多了一個基因注釋。

寫在后面

當然,還有第三步,那么就是替換gff3,但是...暫時懶得寫了。以后再算吧。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容