在進化樹建完后,需要對序列的結(jié)構(gòu)進行分析。這里需要區(qū)分兩個概念,即蛋白結(jié)構(gòu)域與保守結(jié)構(gòu)域,它們兩個不是一回事。從上一章,通過pfam方法同學(xué)們可以獲得蛋白結(jié)構(gòu)域的信息(即結(jié)構(gòu)域的名字,從哪兒開始到哪兒結(jié)束),而保守結(jié)構(gòu)域,它指的是在你所輸入的這些序列中保守的序列是哪些。至于這些保守的序列到底能不能到蛋白結(jié)構(gòu)域(即可以預(yù)測有功能的結(jié)構(gòu)域)的那個層次還不好說。
保守結(jié)構(gòu)域通過meme網(wǎng)站(MEME - Submission form (meme-suite.org)):

選擇要檢測出多少保守結(jié)構(gòu)域

選擇text格式:

接下來開始繪圖:
需要基因id以及每個基因的長度(即輸入到meme網(wǎng)站的那些~):

需要格式化meme的結(jié)果同時也需要這些基因的ID, ID的獲取:

格式化meme:

這些文件都是自動完成,大家只需要點點點就好:
繪圖:

這樣就完成了保守結(jié)構(gòu)域的繪制。且每單擊一次default colors, 顏色都會自動配置一次,然后再度點擊draw即可完成顏色的更改。其他參數(shù)參照之前的說明。上一張圖吧:

在上一章講到的pfam的結(jié)果可用于提取蛋白結(jié)構(gòu)域。建議同學(xué)們:如果你的文件里,基因名字過于復(fù)雜,就是含有額外信息,建議大家利用格式化的功能將這些額外去除掉,因為這些額外信息在后續(xù)的分析中基本不會用到但如果保留它們則會對后續(xù)的一些分析產(chǎn)生干擾。

這里要注意一個問題,如果所研究的家族有多個結(jié)構(gòu)域,需要依次對它們的pfam結(jié)果進行格式化。格式化的結(jié)果類似于這樣:

之后將該結(jié)果合并在一起(就是直接復(fù)制粘貼)以及上一步的基因ID+長度的那個文件輸入作圖模塊中進行作圖即可。
再就是啟動子元件的展示。需要提取啟動子序列,功能在這里:

執(zhí)行此功能,同學(xué)們需要注意一個問題,就是你蛋白序列文件中的ID可能與gff3文件里的ID有出入,需要稍微調(diào)整,例如:

通過比較可以發(fā)現(xiàn)蛋白文件中的多了“.p” 而gff文件中的多了“.v1.ABR2.1”,因此需要進行替換(就是一定要保證蛋白文件中的ID與gff文件中mRNA那一行對應(yīng)的ID是一樣的),替換功能在這里:

當然,同學(xué)們?nèi)绻涣晳T用SPDE也可以用其他軟件例如word替換,這里設(shè)置的替換功能,真正的用處是在執(zhí)行多個關(guān)鍵詞同時替換的時候,這種單個關(guān)鍵詞的替換,完全展現(xiàn)不出威力~。替換完成后,如下:

這個文件將作為提取啟動子的關(guān)鍵詞。對基因組序列文件進行格式化:


提取的啟動子如下:

將啟動子放到plantcare(PlantCARE, a database of plant promoters and their cis-acting regulatory elements (ugent.be))進行啟動子序列的分析。


這里有個點兒需要注意:一個基因的啟動子上有很多元件,如果將這些元件都展示在啟動子上會將圖整的跟食品包裝袋后的條碼似的,這并不利于我們展示重點想要展示的東西,因此,這里需要同學(xué)們根據(jù)自己的實驗?zāi)康倪M行刪減,例如,如果同學(xué)們想要展示的是脅迫條件下的情況,則可以將一些無關(guān)元件(如TATA等)刪除,只保留重點先要展示的,這樣也使得我們的研究結(jié)果一目了然。具體操作步驟與之前相同:

結(jié)果:

接下來是展示內(nèi)含子和外顯子的分布情況,當然還是要先處理文件,需要的是基因ID和GFF文件:

得到的文件如下:

之后畫圖

嗯,大致是這樣子的吧

同學(xué)們在做的時候如果基因數(shù)量多,大可考慮將這些基因分成幾組展示~