寫在前面
課題組目前做一些基因組相關(guān)工作。了解基因組的朋友應(yīng)該明白,基因結(jié)構(gòu)注釋錯誤幾乎遍布所有基因組,包括我們目前看到的大多數(shù)即使是發(fā)表在頂級期刊的工作。生物是復(fù)雜的,而算法是存在局限的。所以人工矯正基因結(jié)構(gòu)注釋往往是最終選擇之一。目前,市面上基本只有一個工具可以做到,那么是一款叫做Apolle Browser的瀏覽器。現(xiàn)在已經(jīng)是第二代【第一代似乎已經(jīng)無法下載到】,一個常用的網(wǎng)頁基因組瀏覽器JBrowser的一個插件實現(xiàn)。配置起來并不方便,涉及到各類軟件的安裝。所以最好的選擇或許還是直接使用IGV。本文提到的改造,沒有之前IGV-sRNA的改動大,主要原因是,我失敗了。不過這并不影響目的的基本達成【失敗只是相對于暫時定位過高的目標】。以下,直接講述操作,作為課題組師弟師妹的使用指引。
主要分為三步:
- IGV中定區(qū)間,指定基因ID
- TBtools中轉(zhuǎn)換輸出的文件為gff3格式【即是最優(yōu)基因結(jié)構(gòu)注釋】
- 替換原始GFF3文件對應(yīng)的內(nèi)容
第一步 - IGV中定區(qū)間
我寫工具,往往會考慮操作的難度。所以要求用戶在IGV中定區(qū)間,我做了一些簡單的東西,使得用戶可以相對輕松的完成。
如下
可以看到這是一個錯誤的注釋,或者是沒注釋出來。換句話說,其中已有的那個注釋,本身很可能是一個錯誤的注釋。

首先,使用IGV的區(qū)間工具,選中幾個區(qū)間,你可以一次選擇一個外顯子,也可以使用多個有重疊的區(qū)間,覆蓋一個外顯子(后續(xù)會自動合并)。
如下,我分幾步走,先用短的覆蓋邊界

隨后,我繼續(xù)使用區(qū)間工具,增加一些跟以上區(qū)間重疊的外顯子區(qū)間

在Region Navigator中可以看到

這個窗口一般不關(guān)閉,完成一個基因之后,我個人的建議是,先Assign成一個基因,首先是選中這些區(qū)間,然后點擊Assign

然后關(guān)閉小窗口,那么就會直接Assign一些信息上去
注意,其中GeneName必須是唯一的,Positive是轉(zhuǎn)錄本在正反鏈,我們用的是鏈特異,所以這些是負鏈的基因,Coding與否,你要有自己的判斷,我是直接截取這個區(qū)間,BlastX到NCBI,看了下,知道這個是Coding
針對每一個基因,可以一直重復(fù)一個操作。那么就會有一系列的基因
第二步
完成了你人工矯正的步驟之后,在IGV中導(dǎo)出regions.bed


隨后,打開TBtools

將文件設(shè)置進去,注意到必須輸入文件是一個,即regions.bed
如果你的是Coding的基因,那么最好是也輸入基因組序列文件,這樣TBtools會自動判斷并輸出CDS的Feature;如果沒有基因組序列文件,那么就不會有CDS feature,即使你輸入的是Coding的。

點擊Start,會在非常短的時間內(nèi)完成。

這個生成的gff3文件,可以直接導(dǎo)入到IGV

于是,我們完成了基因的結(jié)構(gòu)注釋人工矯正。
我們手上的IGV是已經(jīng)改造過的。所以,我們這個時候還可以做一個有趣的事情,直接點擊對應(yīng)的轉(zhuǎn)錄本

隨后打開TBtools,黏貼進去

是的,你點擊了一下轉(zhuǎn)錄本,就直接在剪切板中得到了全長CDS【這個功能是前幾天我增加進去的】。
于是你還得到了對應(yīng)的蛋白序列,找個公共數(shù)據(jù)庫BlastP

可以看到,我們確實完成了一個正確的基因結(jié)構(gòu)注釋的人工矯正。
荔枝基因組從此多了一個基因注釋。
寫在后面
當然,還有第三步,那么就是替換gff3,但是...暫時懶得寫了。以后再算吧。