寫在前面
這兩天有看到幾個用戶朋友在生信札記討論群中討論了基因結構圖的繪制??吹狡渌脩粢恢蓖扑] GSDS,我便也沒有作聲,畢竟 GSDS 確實是很優(yōu)秀的網(wǎng)頁軟件。而現(xiàn)實情況是,近期 GSDS 網(wǎng)站無法訪問。這或許就是網(wǎng)頁或者在線軟件的一個麻煩事。與之相比,TBtools 幾乎不可能宕機,只要你手上安裝了,該更新就更新。QQ群有安裝軟件,github也有,甚至問你身邊的朋友,他們也有。類似的,其實 MEME suite 似乎也宕機了。
針對這兩個分析需求,TBtools 其實早已提供可能更為便利的解決方案。
TBtools 干不了這事?
這是一個有趣的事情。幾年前,我在 TBtools 上推出基因結構圖繪制的時候,主要注明的優(yōu)勢就是,啥也不用管,用上直接下載的全基因組注釋 GFF3/GTF 文件,只要感興趣的 ID,就可以繪制基因結構圖。于是,似乎所有人都覺得 TBtools 確實便利,卻只能基于基因結構注釋文件來繪制基因結構。
于是,總是存在部分人,不知為何,就是手上有:
- CDS序列
- DNA序列
換句話說,他們希望基于序列,繪制基因結構圖。這是一個有趣的事情,因為這明顯是基于序列比對,預測基因結構?;蛘哒f得更貼近基因組數(shù)據(jù)分析,那么是基于序列比對直接進行基因結構注釋。了解這塊的人就應是清楚,這類操作,不可能完美,多多少說會有細節(jié)上的小問題,當然幾乎不可能影響具體基因結構樣式。
GSDS 提供了這個操作接口;而 TBtools 確實沒有。
是的,沒有,但是不代表做不到。很久很久以前,TBtools中有這么一個功能

這是一個有趣的功能,可以基于輸入的mRNA或CDS序列集合 以及 DNA如基因組序列,直接生成一個GFF3文件。
那么一旦有了這個GFF3文件,那不就可以直接用TBtools做下一步基因結構可視化了嗎?
TBtools 怎么干這事?
說千遍,不如做一遍。此處直接拿擬南芥的序列為例,做個演示。

輸出結果發(fā)現(xiàn),有一個ID是NoGood,直接無視,一般這種只是小邊界問題,不影響基因結構情況。
于是二十秒不到,我們就得到一個優(yōu)秀的GFF3文件。
TBtools 這事干得如何?
直接上圖,首先看看預測出來結果文件的樣子,

是的,你輸入CDS,但是我只會給出EXON,因為...確實懶得。如果你自己感興趣,那么就直接全部文本替換為CDS就好了。
隨后,我們直接拿相同的輸入,分別使用:
- 真實的擬南芥 GFF3 注釋信息
- TBtools基于序列抓取或預測的 基因結構注釋信息
可視化,如下,

可以注意到,除了UTR確實搞不出來(因為你輸入的本身就是CDS,哪來的UTR)。只看CDS,大家一模一樣.....
OK,我覺得寫到這里就完全足夠了。
如果你再機制一點:
- mRNA序列做一個,不修改 EXON 標識
- cds序列做一個,修改 EXON 標識為CDS
然后兩個文件一合并...那不就?.....

跟原始的一模一樣嗎?
那么問題來了,沒有基因組,沒有基因結構注釋,你真的能拿到那么多DNA全長嗎?(UTR+Exon+Intron)
寫在最后
啊,東西不寫出來,感覺都沒人知道了。