進化保守的基因區(qū)塊-可視化挖掘

寫在前面

物種進化與基因進化,兩者總是生物學研究的關注點之一。物種進化的基礎,應是基因層面的演化。而基因進化的基礎更多的來源于基因復制。常見的基因復制包括:

  1. 全基因組復制,WGD
  2. 大片段復制,Segmental Duplication
  3. 串聯復制,Tandem Duplication
  4. 轉座復制,Translocation Duplication
  5. ....

無論是開展大規(guī)模的數據分析,或者是常見的某個物種新基因,基因新功能,更或者性狀的可能獲得原因分析,如果可以從物種演化的角度來探討相應基因的來源,那么可以使研究有多方面的提升:

  1. 證據更為可靠
  2. 故事更為完整:只對當前數據分析,我們只能知道是什么?更或者為什么?但是有時候我們可能還想知道去哪里,更或者更常見的,從哪里來?

近期,課題組的師弟在做一些類似的分析。大體他做了這么一張圖


我大概知道這個圖可能來源于比較基因組大牛唐海寶老師的JCVI工具集。喊師弟調整這個圖的一些部分時,我順便問了一句,


后面我就沒怎么管這個事情了。不過過了20多小時之后,發(fā)現這個問題調整的解決速度可能是個問題。昨晚吃完晚飯,我掐指一算,一周沒寫代碼....要退化了。于是我原本是計劃用最多兩個小時的時間寫完的,沒想到從18點寫到22點....
不過我還是得到了一個新的工具,對于這個功能,我加入了自己的思考 [純粹的功能復制對我來說,似乎沒有什么吸引力,也沒必要]:

  1. 靈活地按照用戶的需求,可以是輸入一個區(qū)間【比如我主要做小RNA的,不會有編碼基因】,也可以是輸入區(qū)間的起始編碼基因和終止編碼基因
  2. 自動層級化解析可能的基因區(qū)塊,并可視化,這個一種樹狀圖展開,第一個物種是一個區(qū)間,第二個物種可能是N個區(qū)間,第三個物種則可能是M個區(qū)間(取決于第二個物種對上多少個第三個物種的區(qū)間啊)
  3. 可以不依賴于共線性分析,是的,如果區(qū)間依賴于共線性分析,那么必要受到使用算法的限制。很多時候,算法總是存在局限的。當然,共線性分析結果可以讓你在最短的時間定為到可能的結果。
  4. .... 可交互,對于我來說,不可交互的圖形更適合展示而不適合分析??山换サ膱D形意味著可快速調整并直接分析。
  5. ....

基于這些考慮,得到了下面這個新的功能

Evolutionary Conserved Blocks Finder

具體的使用與輸入:

  1. 代表第一個物種某個區(qū)間的文本,如:Chr1#2142423#4345533,或 ATG01G1231#ATG01G2231
  2. 不同物種簡化后的基因信息文件,格式為:Chr1\tGeneID\tStartPos\tEndPos\t[+-],即包括了基因所在位置和鏈的信息,注意,需要有意識地按照先后順序擺放物種的基因位置信息
  3. 基因對信息,格式為:GeneID\tGeneID

使用注意:不同物種的染色體ID和基因ID都不能出現重復【建議對所有ID加上物種名】。

具體的使用方法如上圖,可以看到,不僅僅是一個可視化工具,還是一個可視化實時分析工具:

  1. 自動尋路
  2. 隨意調整基因區(qū)塊
  3. 基因區(qū)塊反向
  4. 鼠標懸停展示基因ID
  5. 其實可以直接右鍵刪除一些不感興趣的Panel
    6....

寫在后面

Emmm.... 正在考慮整理TBtools,然后盡快發(fā)表好了...不然似乎就要浪費300個Citations了?歡迎各位在評論區(qū)留下可能可以用于文章撰寫的方向,比如...TBtools到底有啥亮點?值得去發(fā)表。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內容