使用TBtools繪制進(jìn)化樹+motif分析+基因結(jié)構(gòu)~三圖合一

今天推文的內(nèi)容重點是畫圖用到的輸入文件的準(zhǔn)備

image.png

圖一

基因家族分析的論文中通常會把基因家族成員的進(jìn)化樹、基因結(jié)構(gòu)、motif分析放在一張圖里。效果如圖一。準(zhǔn)備這個圖 除了把各部分畫出來再使用ps將圖片拼接起來以外,還可以用TBtools直接繪制這種效果的圖片。其實繪制方法并不難,對于小白來說不友好的是準(zhǔn)備繪圖所需要的文件,本文旨在幫助像我一樣剛?cè)腴T的生信小白解決如何準(zhǔn)備繪圖文件的問題以及說明繪圖過程中的一些注意點,希望對你有所幫助。

作圖所需要的文件(本文重點)

作圖前,有一點要注意的是:三個文件中序列的ID要修改統(tǒng)一。不統(tǒng)一的話會報錯,導(dǎo)致繪圖失敗。然后繼續(xù)說重點,如何準(zhǔn)備繪圖所需的三個文件。

1 準(zhǔn)備nwk格式的進(jìn)化樹文件

MEGA構(gòu)建進(jìn)化樹的結(jié)果文件:nwk文件,提供進(jìn)化信息。這個文件準(zhǔn)備比較容易。把蛋白質(zhì)全長序列的fastA文件放入MEGA中中進(jìn)行多序列比對,比對完成后保存為MEG類型文件。用MEG文件構(gòu)建進(jìn)化樹,構(gòu)建進(jìn)化樹結(jié)果保存為nwk類型即可。

2 MEME分析結(jié)果文件meme.xml

提供對應(yīng)基因蛋白序列的motif結(jié)構(gòu)信息。在Linux中安裝MEME后,運(yùn)行以下命令(如圖二),我把命令的各部分解釋給標(biāo)記上了,可以根據(jù)需要靈活修改。這個命令的結(jié)果文件有好多個,找到xml文件(如圖三)。

image.png

圖二


image.png

圖三

3 gff格式或者gtf格式的注釋文件

這個文件的準(zhǔn)備對我個人而言最具難度。所面臨的問題是:如何從全基因組gff注釋文件中把相關(guān)基因的注釋文件提取出來保存并且保存為gff格式呢?

我在腦子里想了好多辦法。

  • 1.Notepad++中打開逐一篩選復(fù)制并保存。這個辦法讓我成功保存了一個txt格式的注釋文件,可我要的是 gff類型的文件啊。
  • 2.刪除全基因組gff注釋文件里的非目標(biāo)基因的注釋文件再保存…這辦法,算了吧,我大學(xué)生應(yīng)該還有辦法。
  • 3.自暴自棄,這圖我不做了。

最后,我在之前學(xué)的一個基因家族相關(guān)課程里找到了一個perl腳本正符合我的需求!這個課程很不錯,我自己跟著搗鼓了幾遍后,對基因家族分析以及一些生信知識上有了基本的把握。由于我自己還沒學(xué)過Perl腳本,只有一點python基礎(chǔ),以下運(yùn)行命令(如圖四)和腳本,只是根據(jù)課中老師的講解和觀察,知道了運(yùn)行規(guī)律(如圖四),總結(jié)分享給大家來解決自己的問題。懂Perl的同學(xué)可以靈活修改反復(fù)使用,不懂的可以像我一樣,暫時先知道怎么用就行了。記住你每一個手動處理數(shù)據(jù)的痛苦時刻,然后變成學(xué)習(xí)復(fù)雜工具(python、perl等)的動力!

image.png

圖四

image.png

圖五

一定要注意的是:運(yùn)行這個腳本一定要仔細(xì)觀察你的物種注釋文件中的ID,接下來我要以擬南芥的全基因組注釋文件以及石榴的全基因組注釋文件為例著重說明這一點,因為這關(guān)乎你是否能得到你想要的結(jié)果文件。請一定一定仔細(xì)看這一點?。?!

石榴的gff注釋文件(如圖六)。再強(qiáng)調(diào)一下:圖五紅框內(nèi)的每一個geneID和要和圖六中對應(yīng)gene的所有紅框中的ID以及ParentID保持一致,對于我的石榴物種而已,也就是全把圖六紅框中的ID以及Parent全替換成綠框內(nèi)的ID。因為腳本運(yùn)行的規(guī)律就是:如果gff文件中的ID存在于圖五紅框內(nèi),就把該基因的mRNA、cds、UTR等序列信息行提取出來,提取出來的文件如圖七。有些物種下載出來geneID就是保持一致的,比如擬南芥的(如圖八、圖九)。但是我研究的物種石榴就需要自己修改,這個你可以在Notepad++中搜索替換一下,這一步稍微麻煩點。

image.png

圖六


image.png

圖七

image.png

圖八

image.png

圖九

繪圖方法

方法我是參考了組學(xué)大講堂社區(qū)的文章來作圖的,繪圖過程并不是很難。具體可以點擊以下鏈接參考學(xué)習(xí)。https://www.omicsclass.com/article/1269。
值得注意的是:我自己在作圖過程中發(fā)現(xiàn),文章中老師點擊的位置(圖十)和我下載的最新版本的TBtools的位置完全不一樣,甚至名字都不一樣,找了好半天,我估計應(yīng)該是下載版本的問題。如果你也有這樣的問題,可以參考下我這個版本的位置(如圖十一),如果都不是的話,你就自己都點點看,點進(jìn)去的界面(如圖十二)即可。

image.png

圖十

image.png

圖十一

image.png

圖十二

最后,如果你需要自定義最后呈現(xiàn)的圖中進(jìn)化樹的序列ID(如圖十三),那么TBtools支持你提交一個

image.png

圖十三

原始的ID是基于進(jìn)化樹nwk文件提取獲得,tbtools本身接收進(jìn)行ID的批量修改,位于界面下方(圖十四):

image.png

圖十四

在紅框欄提交一個文件,文件只需要保持TAB分隔的文本文件,第一列是原始ID,第二列是新ID,不需要表頭,即可完成批量修改。

本期推文的內(nèi)容是讀者來稿
由小明進(jìn)行編輯整理

歡迎大家關(guān)注我的公眾號
小明的數(shù)據(jù)分析筆記本

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容