寫(xiě)在前面
這兩天有看到幾個(gè)用戶朋友在生信札記討論群中討論了基因結(jié)構(gòu)圖的繪制??吹狡渌脩粢恢蓖扑] GSDS,我便也沒(méi)有作聲,畢竟 GSDS 確實(shí)是很優(yōu)秀的網(wǎng)頁(yè)軟件。而現(xiàn)實(shí)情況是,近期 GSDS 網(wǎng)站無(wú)法訪問(wèn)。這或許就是網(wǎng)頁(yè)或者在線軟件的一個(gè)麻煩事。與之相比,TBtools 幾乎不可能宕機(jī),只要你手上安裝了,該更新就更新。QQ群有安裝軟件,github也有,甚至問(wèn)你身邊的朋友,他們也有。類(lèi)似的,其實(shí) MEME suite 似乎也宕機(jī)了。
針對(duì)這兩個(gè)分析需求,TBtools 其實(shí)早已提供可能更為便利的解決方案。
TBtools 干不了這事?
這是一個(gè)有趣的事情。幾年前,我在 TBtools 上推出基因結(jié)構(gòu)圖繪制的時(shí)候,主要注明的優(yōu)勢(shì)就是,啥也不用管,用上直接下載的全基因組注釋 GFF3/GTF 文件,只要感興趣的 ID,就可以繪制基因結(jié)構(gòu)圖。于是,似乎所有人都覺(jué)得 TBtools 確實(shí)便利,卻只能基于基因結(jié)構(gòu)注釋文件來(lái)繪制基因結(jié)構(gòu)。
于是,總是存在部分人,不知為何,就是手上有:
- CDS序列
- DNA序列
換句話說(shuō),他們希望基于序列,繪制基因結(jié)構(gòu)圖。這是一個(gè)有趣的事情,因?yàn)檫@明顯是基于序列比對(duì),預(yù)測(cè)基因結(jié)構(gòu)?;蛘哒f(shuō)得更貼近基因組數(shù)據(jù)分析,那么是基于序列比對(duì)直接進(jìn)行基因結(jié)構(gòu)注釋。了解這塊的人就應(yīng)是清楚,這類(lèi)操作,不可能完美,多多少說(shuō)會(huì)有細(xì)節(jié)上的小問(wèn)題,當(dāng)然幾乎不可能影響具體基因結(jié)構(gòu)樣式。
GSDS 提供了這個(gè)操作接口;而 TBtools 確實(shí)沒(méi)有。
是的,沒(méi)有,但是不代表做不到。很久很久以前,TBtools中有這么一個(gè)功能

這是一個(gè)有趣的功能,可以基于輸入的mRNA或CDS序列集合 以及 DNA如基因組序列,直接生成一個(gè)GFF3文件。
那么一旦有了這個(gè)GFF3文件,那不就可以直接用TBtools做下一步基因結(jié)構(gòu)可視化了嗎?
TBtools 怎么干這事?
說(shuō)千遍,不如做一遍。此處直接拿擬南芥的序列為例,做個(gè)演示。

輸出結(jié)果發(fā)現(xiàn),有一個(gè)ID是NoGood,直接無(wú)視,一般這種只是小邊界問(wèn)題,不影響基因結(jié)構(gòu)情況。
于是二十秒不到,我們就得到一個(gè)優(yōu)秀的GFF3文件。
TBtools 這事干得如何?
直接上圖,首先看看預(yù)測(cè)出來(lái)結(jié)果文件的樣子,

是的,你輸入CDS,但是我只會(huì)給出EXON,因?yàn)?..確實(shí)懶得。如果你自己感興趣,那么就直接全部文本替換為CDS就好了。
隨后,我們直接拿相同的輸入,分別使用:
- 真實(shí)的擬南芥 GFF3 注釋信息
- TBtools基于序列抓取或預(yù)測(cè)的 基因結(jié)構(gòu)注釋信息
可視化,如下,

可以注意到,除了UTR確實(shí)搞不出來(lái)(因?yàn)槟爿斎氲谋旧砭褪荂DS,哪來(lái)的UTR)。只看CDS,大家一模一樣.....
OK,我覺(jué)得寫(xiě)到這里就完全足夠了。
如果你再機(jī)制一點(diǎn):
- mRNA序列做一個(gè),不修改 EXON 標(biāo)識(shí)
- cds序列做一個(gè),修改 EXON 標(biāo)識(shí)為CDS
然后兩個(gè)文件一合并...那不就?.....

跟原始的一模一樣嗎?
那么問(wèn)題來(lái)了,沒(méi)有基因組,沒(méi)有基因結(jié)構(gòu)注釋?zhuān)阏娴哪苣玫侥敲炊郉NA全長(zhǎng)嗎?(UTR+Exon+Intron)
寫(xiě)在最后
啊,東西不寫(xiě)出來(lái),感覺(jué)都沒(méi)人知道了。