1. 軟件簡(jiǎn)介
? ? ? ? CFVisual_V2.1軟件是一款借助Python語(yǔ)言的matplotlib庫(kù)和PySide2庫(kù)進(jìn)行生物序列結(jié)構(gòu)繪圖的數(shù)據(jù)可視化軟件,主要用于生物信息學(xué)分析中的基因結(jié)構(gòu)分析,能繪制進(jìn)化樹(shù)圖,Motif圖,結(jié)構(gòu)域圖,啟動(dòng)子圖,BED文件等多種圖表的繪制和組合繪制。
? ? ? ? CFVisual_V2.1可以免費(fèi)從GitHub網(wǎng)址(https://github.com/ChenHuilong1223/CFVisual/releases/tag/CFVisual)下載。在獲取該安裝程序后,雙擊運(yùn)行安裝在用戶電腦相應(yīng)的位置即可?;螯c(diǎn)擊CFVisual_V2.1軟件依賴文件包中的CFVisual.exe即可進(jìn)入到CFVisual_V2.1軟件的首頁(yè)界面。如圖1所示:

圖1 CFVisual軟件界面
2. 文件準(zhǔn)備及使用
? ? ? ? 由于作者是做植物的基因家族出身,第一次分析的基因家族是做谷子PME基因家族,因此,GitHub網(wǎng)址下載的Example文件夾(https://github.com/ChenHuilong1223/CFVisual)里以C4模式植物谷子的PME基因家族文件為CFVisual的文件示例(如圖2所示),我們可以想繪制任何一種組合圖的時(shí)候,可以以Example文件夾的例子為參考即可解決文件格式的問(wèn)題。

圖2 CFVisual的示例文件
? ? ? ? 本文主要介紹如何用CFVisual繪制做基因家族分析流程中常見(jiàn)的樹(shù)圖+Motif圖+基因結(jié)構(gòu)圖+結(jié)構(gòu)域圖的組合圖繪制。當(dāng)然正如軟件所介紹的,也支持繪制啟動(dòng)子圖,因此,本文后部分作者將單獨(dú)介紹如何利用PlantCare網(wǎng)站預(yù)測(cè)啟動(dòng)子順式作用元件并利用CFVisual繪制啟動(dòng)子圖。
2.1 基因結(jié)構(gòu)文件準(zhǔn)備
CFVisual支持GFF3(Si.PME.Structure.GFF3.txt),GTF和BED(Si.PME.Structure.BED.txt)文件格式,輸入樹(shù)文件和基因結(jié)構(gòu)文件,點(diǎn)擊Start按鈕,稍作等待即可出圖。注意:括號(hào)中的文件名稱均來(lái)自Example文件夾中的示例文件名。
本文以常用的GFF3文件(Si.PME.Structure.GFF3.txt)作為示例(如圖3),具體GFF3文件的介紹及獲取方式,讀者可以自行百度查閱相關(guān)資料,特別詳細(xì),本文篇幅有限。因此,這里就介紹一下如何從JGI的phytozome數(shù)據(jù)庫(kù)中獲取谷子的GFF3文件(https://genome.jgi.doe.gov/portal/)(圖4、5、6、7)——溫馨提示:該網(wǎng)站要先注冊(cè)賬號(hào)才能正常下載。

圖3 GFF3文件格式

圖4

圖5

圖6

圖7
獲取到整個(gè)基因組的GFF3文件之后,根據(jù)自己鑒定出來(lái)的家族ID(Si.PME.Ordered.ID.txt),自己編程也好(可以參考https://github.com/ChenHuilong1223/CFVisual里的Seven_according_original_GFF3_extract_gene_family_GFF3.py),手動(dòng)也好,用現(xiàn)有軟件也好,提取出對(duì)應(yīng)的基因家族的GFF3文件(其實(shí)不提取也可以使用,但由于菜雞的作者用的是python實(shí)現(xiàn)的,因此,直接用基因組的,讀者需要等待漫長(zhǎng)的時(shí)間,而且做多物種的基因結(jié)構(gòu)圖的時(shí)候,時(shí)間會(huì)更漫長(zhǎng)。所以,最好提取出基因家族的GFF3文件)。最終,得到(Si.PME.Structure.GFF3.txt)就準(zhǔn)備好了GFF3文件了。
2.2 Motif文件準(zhǔn)備
首先,讀者需要準(zhǔn)備鑒定出來(lái)的基因家族成員的蛋白序列(Si.PME.Amino.acids.fasta),然后用最好的motif預(yù)測(cè)網(wǎng)站MEME(https://meme-suite.org/meme/)去預(yù)測(cè)蛋白序列上的motif情況(圖8、9、10),下載meme.xml(Si.PME.Motif.meme.xml)或mast.xml(Si.PME.Motif.mast.xml)文件即可作為CFVisual繪制motif圖的準(zhǔn)備文件。當(dāng)然,作者知道也有大神不用網(wǎng)站,喜歡用本地版的MEME軟件生成的結(jié)果文件,CFVisual自然也是支持的。

圖8

圖9
等著......

圖10
? ? ? ? 作者知道有的讀者喜歡在基因家族文章中加上motif序列和logo,可以自行點(diǎn)擊MEME/MAST HTML output進(jìn)入下載(圖11),這里不做介紹,因?yàn)榫W(wǎng)上使用教程太多,基因家族網(wǎng)課太多。

圖11
作者這里想強(qiáng)調(diào)一下,mast結(jié)果是只有一種結(jié)果展示的,但是meme結(jié)果中其實(shí)是有兩種結(jié)果的展示形式的,默認(rèn)的是Only Motif Site的(圖12),還有一個(gè)是Motif Sites+Scanned Sites結(jié)果的。這是很多做基因家族的朋友所忽略的,當(dāng)你點(diǎn)擊Motif Sites+Scanned Sites的結(jié)果的時(shí)候,就會(huì)有半透明的motif矩形盒子出現(xiàn)的,本身就相當(dāng)于Motif Sites和Scanned Sites的組合圖(圖13)。同時(shí)哈,細(xì)心的朋友會(huì)發(fā)現(xiàn)有的motif的高度會(huì)比較低,正如MEME官網(wǎng)所介紹,這些motif矩形盒子低的,都是p值比較高的,可以認(rèn)為是不太可信的。但是有相應(yīng)的結(jié)果,也繪制出來(lái),供專家們參考。而CFVisual是完全還原了MEME官網(wǎng)的Motif圖的,同樣還原Only Motif Site和Motif Sites+Scanned Sites的切換選擇功能(圖14),這是一件值得高興的事,對(duì)于做基因家族的完美主義者或者說(shuō)嚴(yán)謹(jǐn)?shù)呐笥褋?lái)說(shuō)。

圖12

圖13

圖14 CFVisual的motif交互界面
2.3 進(jìn)化樹(shù)文件準(zhǔn)備
CFVisual僅支持Newick format(后面簡(jiǎn)稱nwk格式)的樹(shù)文件?,F(xiàn)在,構(gòu)樹(shù)軟件種類繁多,如果用戶的樹(shù)文件格式不是nwk格式,請(qǐng)使用其他軟件把樹(shù)文件轉(zhuǎn)換成nwk格式的樹(shù)文件,這里推薦Figtree軟件(http://tree.bio.ed.ac.uk/software/figtree/),操作步驟如圖(圖15、16):

圖15

圖16
? ? ? ? nwk格式的樹(shù)文件從包含信息來(lái)講,作者認(rèn)為可以分為四類,分別為包含bootstrap值和枝長(zhǎng)信息的nwk文件(Si.PME.Tree.Topology.Bootstrap.BranchLength0.nwk)(圖17)、只包含bootstrap值的nwk文件(Si.PME.Tree.Topology.Bootstrap1.nwk)(圖18)、只包含枝長(zhǎng)信息的nwk文件(Si.PME.Tree.Topology.BranchLength2.nwk)(圖19)和最簡(jiǎn)單的拓?fù)浣Y(jié)構(gòu)的nwk文件(Si.PME.Tree.Topology3.nwk)(圖20)。

圖17、18、19、20
2.4 CFVisual繪制常見(jiàn)的樹(shù)圖+Motif+基因結(jié)構(gòu)的組合圖
? ? ? ? 作者讀研三年,做的最多的生信分析就是基因家族分析了,深知做基因家族分析少不了這兩個(gè)分析,而大多數(shù)人最喜歡的還是將樹(shù)圖、基因結(jié)構(gòu)和Motif圖進(jìn)行組合成一張圖展示,我們一般都是用Ai或Ps手動(dòng)進(jìn)行拼接,作者深知修圖的繁瑣和痛苦。正好,CFVisual的面世完全的解決了這個(gè)問(wèn)題。換句話說(shuō),讀者朋友們做基因家族的這個(gè)可視化展示的時(shí)候,再也不需要用修圖軟件去拼接和修圖了。(作者也常跟師弟和師妹們說(shuō)的一句話是,你手動(dòng)拼接的能有代碼對(duì)齊的整齊嗎?這也是CFVisual作者致力寫(xiě)這個(gè)功能的初衷。)
廢話不多說(shuō),上操作(圖21、22):在CFVisual對(duì)應(yīng)的功能界面輸入你的準(zhǔn)備文件(注意:CFVisual要求用戶一定要輸入一個(gè)nwk格式的樹(shù)文件或者控制展示順序的ID文本文件——因?yàn)楦鶕?jù)作者的經(jīng)驗(yàn),沒(méi)人會(huì)直接根據(jù)默認(rèn)的順序展示,要么結(jié)合進(jìn)化樹(shù)的順序,要么根據(jù)基因家族的一些特點(diǎn)的順序展示;這樣的設(shè)計(jì)對(duì)于開(kāi)發(fā)者來(lái)講簡(jiǎn)單,同時(shí)用戶也快樂(lè)——因?yàn)橛脩舯4鎴D片的時(shí)候壓根不需要再花n秒時(shí)間去選擇保存的文件夾(作者以前使用很多軟件的時(shí)候,就總感覺(jué)每次保存都要選擇一個(gè)文件夾,還總選擇不好,就很搞心態(tài),并覺(jué)得浪費(fèi)時(shí)間。),直接默認(rèn)保存到樹(shù)文件或ID文本文件所在的文件夾,多省事,當(dāng)然,用戶自然也可以選擇想要保存的其他文件夾。當(dāng)然,GUI界面設(shè)計(jì)理念是學(xué)習(xí)最好的基因結(jié)構(gòu)可視化工具GSDS(http://gsds.gao-lab.org/index.php))。輸入方式支持三種:①把文件拖進(jìn)文本框中,CFVisual自動(dòng)識(shí)別文件路徑。②也可以點(diǎn)擊文件圖標(biāo)在對(duì)應(yīng)的文件夾選擇文件路徑。③也可以把文件路徑手動(dòng)復(fù)制粘貼進(jìn)文本框。

圖21、22
? ? ? ? 點(diǎn)擊Start按鈕,然后等待,什么也不要去操作,結(jié)果如下(圖23)

圖23
? ? ? ? 然后,點(diǎn)擊Edit按鈕可以自定義一些參數(shù),使這張組合圖更好看,當(dāng)然主要的還是為了給進(jìn)化樹(shù)分類上色,這樣才能真正的放到文章當(dāng)中。如圖24、25、26

圖24 樹(shù)圖參數(shù)設(shè)置窗口

圖25 Motif參數(shù)設(shè)置窗口

圖26 基因結(jié)構(gòu)參數(shù)設(shè)置窗口
首先介紹一下樹(shù)圖的交互功能,基本參數(shù)設(shè)置,用戶自行摸索體會(huì)就行,這里主要詳細(xì)介紹一下分類及美化的操作方式:
? ? ? ? 由于作者深知要真正實(shí)現(xiàn)基因家族分析中這個(gè)多圖合一,樹(shù)圖的分類及美化功能是必須得有的,這里值得仔細(xì)說(shuō)明的是關(guān)于樹(shù)圖的分類及美化。
首先,CFVisual支持兩種可以識(shí)別的分類及美化文件,分別為基因名前的形狀控制文件(Si.PME.Tree.Shape.before.gene.name.txt)和樹(shù)圖分類控制文件(Si.PME.Tree.Classification.txt)(文件格式設(shè)計(jì)理念學(xué)習(xí)著名的樹(shù)圖美化工具EvolView(https://evolgenius.info//evolview-v2/#login))。
基因名前的形狀控制文件格式如下圖(圖27)。用戶根據(jù)自己的需求,利用EXCEL制作一個(gè)CFVisual可以識(shí)別的交互格式文件:從左到右的列分別表示為:基因名、形狀符號(hào)、形狀尺寸、形狀填充顏色和形狀輪廓顏色。其中,形狀符號(hào)理解如圖28,顏色參數(shù)支持常用的8個(gè)表示顏色的單詞或簡(jiǎn)寫(xiě)(圖29)和十六進(jìn)制的顏色編碼字符串(圖30)——這里作者推薦菜鳥(niǎo)工具中的一個(gè)板塊(https://c.runoob.com/front-end/55),因?yàn)椴粌H支持顏色查找,也支持RGB格式和十六進(jìn)制顏色編碼字符串的相互轉(zhuǎn)換,值得收藏。

圖27

圖28

圖29

圖30
準(zhǔn)備好的基因名字前形狀設(shè)置文件,即可在在樹(shù)圖編輯窗口輸入文件(圖31),再點(diǎn)擊Figure窗口的Redraw按鈕進(jìn)行重新繪制(圖32)。

圖31

圖32
樹(shù)圖分類控制文件的格式如下(圖33):從左到右的列分別表示為:分類區(qū)域上端或下端的基因名、分類區(qū)域下端或上端對(duì)應(yīng)的基因名、顏色和分類的標(biāo)簽。注意:每一行對(duì)應(yīng)一個(gè)分類區(qū)域;第四列可以不提供。

圖33
支持四種分類形式(如圖34),分別為樹(shù)枝顏色、分類豎線顏色、基因名字顏色和分類區(qū)域顏色。用戶可以把準(zhǔn)備好的樹(shù)圖分類控制文件拖進(jìn)用戶喜歡的任意一種或多種分類形式所對(duì)應(yīng)的文本框中(圖35)。設(shè)置好分類參數(shù)之后,點(diǎn)擊Redraw按鈕,結(jié)果如圖36。值得一提的是,充分利用分類區(qū)域顏色界面中的Direction和Inversion的設(shè)置,可以調(diào)節(jié)區(qū)域漸變的方向。例如,默認(rèn)的Direction設(shè)置為1,Inversion不選中,區(qū)域漸變方向?yàn)?b>從右到左;Inversion選中,區(qū)域漸變方向?yàn)橄喾吹?b>從左到右。Direction設(shè)置為0,Inversion不選中,區(qū)域漸變方向?yàn)?b>從下到上;Inversion選中,區(qū)域漸變方向?yàn)橄喾吹?b>從上到下。另外,把Gradient控件取消選中,區(qū)域?yàn)?b>完全填充,不顯示漸變的效果。

圖34

圖35

圖36
然后是Motif圖的交互功能,CFVisual完全還原了MEME官網(wǎng)的Motif圖結(jié)果。當(dāng)用戶輸入的文件為mast.xml的時(shí)候,只有一種結(jié)果展示。當(dāng)用戶輸入的文件為meme.xml將有兩種結(jié)果的展示,分別為:Only Motif Sites(圖37)和Motif Sites+Scanned Sites(圖38)。可通過(guò)Motif編輯選項(xiàng)卡上的控件進(jìn)行切換(圖39)。另外,CFVisual也支持用戶選擇性地隱藏用戶不想要展示的motif(這個(gè)功能似乎有點(diǎn)多余,但作者假想一種需求:我只想研究一下某個(gè)motif或某些motifs的分布情況)。

圖37 跟MEME官網(wǎng)一模一樣的初始化結(jié)果(Only Motif Sites)

圖38 Motif Sites+Scanned Sites的結(jié)果

圖39
另外,用戶可以增加其它信息:用戶可以增加其它信息與Motif圖進(jìn)行結(jié)合(圖40、41、42),增加信息文件類型為gff格式文件(CFVisual中Gene structure和Motif功能中增加的信息gff格式文件不是標(biāo)準(zhǔn)的GFF3文件,而是Gene,Start,End,Feature的這樣從左到右的四列——相當(dāng)于GFF3文件中的這四列。(Si.PME.Structure.and.Motif.add.gff.txt))。

圖40

圖41

圖42
接著是基因結(jié)構(gòu)圖的交互功能,支持GFF3(Si.PME.Structure.GFF3.txt),GTF和BED(Si.PME.Structure.BED.txt)文件格式。參數(shù)設(shè)置窗口如圖43。

圖43
這里主要介紹一下CFVisual繪制基因結(jié)構(gòu)圖的特色,點(diǎn)擊Statistics按鈕,彈出顯示基因結(jié)構(gòu)長(zhǎng)度,內(nèi)含子個(gè)數(shù),UTR,CDS等數(shù)量信息(圖44),建議及時(shí)全選(Ctrl+A)復(fù)制(Ctrl+C)粘貼(Ctrl+V)到一個(gè)新建文本文件中進(jìn)行留存。根據(jù)作者對(duì)幾百篇基因家族文章的閱讀,大多數(shù)人描述基因結(jié)構(gòu)分析的時(shí)候,喜歡從數(shù)量差異角度來(lái)描述,而以往只能肉眼判斷大致的數(shù)量差異,或者花費(fèi)不少時(shí)間肉眼去數(shù)。因此,該功能有助于讀者寫(xiě)論文時(shí),對(duì)基因結(jié)構(gòu)組成的數(shù)字描述。

圖44
同樣也支持增加其它信息:用戶可以增加其它信息與基因結(jié)構(gòu)圖進(jìn)行結(jié)合(圖45),增加信息文件格式為gff格式文件。如果用戶勾選中Mapped to CDS(圖46),那么位置信息將映射到CDS結(jié)構(gòu)位置上(圖47)(方便了解哪段CDS編碼該信息,一般針對(duì)氨基酸結(jié)構(gòu)域的位置映射)。這里說(shuō)明一下:CFVisual的展示方式不太同于GSDS,GSDS是完全填充顏色,CFVisual采用的是矩形方框的形式,因?yàn)樽髡哒J(rèn)為,這樣更直觀一些,可以避免小白誤以為編碼結(jié)構(gòu)域的那段CDS序列不是CDS而是結(jié)構(gòu)域的名稱(這個(gè)展示形式也更加直觀的判斷該家族結(jié)構(gòu)域中的編碼序列中可能存在的內(nèi)含子的數(shù)量及長(zhǎng)度情況)。

圖45

圖46

圖47
最后可以保存圖片了。點(diǎn)擊Save按鈕(圖48)進(jìn)行保存圖片:目前支持png(500dpi),pdf,svg,svgz,raw,rgba這六種圖片格式(圖49)。注意:如果用戶不選擇路徑,CFVisual軟件自動(dòng)保存到用戶輸入的樹(shù)文件或ID順序文件所在文件夾中(省去選文件夾的揪心操作)。

圖48

圖49 CFVisual的圖片輸出窗口
? ? ? ? 至此,就生成一張滿足科研論文要求的高質(zhì)量的樹(shù)圖+Motif+基因結(jié)構(gòu)的組合圖。這里展示兩張作者覺(jué)得配色還不錯(cuò)的樣圖以供參考(圖50、51)。

圖50

圖51
2.5 結(jié)構(gòu)域文件準(zhǔn)備
等等,細(xì)心的網(wǎng)友會(huì)發(fā)現(xiàn)標(biāo)題里有結(jié)構(gòu)域和啟動(dòng)子圖啊,好的。這里繼續(xù)介紹,正如前面介紹的可以準(zhǔn)備一個(gè)gff格式的增加信息文件來(lái)作為結(jié)構(gòu)域的位置信息,再映射到motif或基因結(jié)構(gòu)圖中。當(dāng)然,如果讀者做基因家族經(jīng)驗(yàn)比較豐富,讀者會(huì)知道,基因家族鑒定過(guò)程中,往往需要PFAM(http://pfam.xfam.org/search#tabview=tab1)、CDD(https://www.ncbi.nlm.nih.gov/cdd)或SMART(http://smart.embl-heidelberg.de/)等結(jié)構(gòu)域數(shù)據(jù)庫(kù)來(lái)識(shí)別結(jié)構(gòu)域的信息。因此,如果讀者手里有PFAM和CDD網(wǎng)站下載的結(jié)果文件(沒(méi)有SMART是因?yàn)樽髡?b>很菜沒(méi)找到SMART的結(jié)果位置文件,然后目前又不會(huì)用python爬蟲(chóng)網(wǎng)頁(yè)圖形顯示的位置信息。因此,如果讀者想結(jié)合SMART的位置信息,只能手動(dòng)根據(jù)網(wǎng)頁(yè)顯示的圖形位置信息手動(dòng)準(zhǔn)備一個(gè)gff格式的增加信息文件或者補(bǔ)充到PFAM和CDD結(jié)果文件中的對(duì)應(yīng)蛋白名字所在的行中),可以直接使用,因?yàn)镃FVisual可以自動(dòng)識(shí)別提取需要的位置信息。好在根據(jù)作者僅有的幾次投稿經(jīng)驗(yàn)中了解到,專家們對(duì)于結(jié)構(gòu)域的識(shí)別還是更愿意用CDD的預(yù)測(cè)結(jié)果。因此,這里作者建議用CDD的結(jié)果文件比較合適,當(dāng)然作者本人是更喜歡PFAM的預(yù)測(cè)結(jié)果,因?yàn)榻Y(jié)構(gòu)域的名稱很統(tǒng)一,幾乎不用處理就可以直接使用。然后作者的一個(gè)師妹嘗試過(guò)將三種甚至四種結(jié)構(gòu)域網(wǎng)站預(yù)測(cè)的位置結(jié)果手動(dòng)整合成一個(gè)文件(她直接把其他結(jié)構(gòu)域預(yù)測(cè)結(jié)果手動(dòng)補(bǔ)充到PFAM預(yù)測(cè)結(jié)果文件中,這樣方便省事。),這樣就是多種結(jié)構(gòu)域信息的綜合展示,可能結(jié)果更有價(jià)值一些(個(gè)人的愚見(jiàn),僅供參考)。
首先,介紹一下如何獲取PFAM的位置信息文件(圖52、53、54):

圖52
? ? ? ? 可以關(guān)閉PFAM網(wǎng)頁(yè)了,耐心等待PFAM網(wǎng)站返回的郵件......

圖53
這里需要說(shuō)明一下,根據(jù)作者的經(jīng)驗(yàn),目前大多時(shí)候PFAM網(wǎng)站返回的郵箱結(jié)果用的是Tab鍵分割,如圖53一樣,這樣的結(jié)果是可以直接被CFVisual識(shí)別使用的。如果PFAM網(wǎng)站返回的郵箱結(jié)果為其他符號(hào)分割,比如空格分割(圖54),讀者記得把空格全部替換為Tab鍵——或者用EXCEL里分列功能并保存起來(lái),這樣就是Tab鍵分割的,事實(shí)上EXCEL保存為文本文件就是不同列之間是Tab鍵(如果只有這兩種分割形式,作者也可以用代碼去自動(dòng)判別,但作者害怕有其他特殊情況,所以就統(tǒng)一要求PFAM的結(jié)果文件為Tab鍵分割的)。

圖54
接著,介紹一下如何獲取CDD的位置信息文件(圖55、56、57、58)。

圖55

圖56

圖57

圖58
? ? ? ? 點(diǎn)擊圖58里的Download按鈕,即可獲得CDD的結(jié)構(gòu)域預(yù)測(cè)信息文件(Si.PME.Domain.CDD.txt)(圖59)。

圖59
? ? ? ? 文件準(zhǔn)備好后,可以直接用CFVisual繪制基因家族的結(jié)構(gòu)域展示圖了。首先,承接上文,可以直接根據(jù)PFAM或CDD結(jié)構(gòu)域預(yù)測(cè)結(jié)果文件把結(jié)構(gòu)域位置信息映射到Motif圖和基因結(jié)構(gòu)圖中(圖60、61),這樣就實(shí)現(xiàn)了所謂的基因結(jié)構(gòu)+Motif+結(jié)構(gòu)域+進(jìn)化樹(shù)圖的四圖合一了。

圖60

圖61
? ? ? ? 如果讀者只想展示Motif圖和結(jié)構(gòu)域的位置關(guān)系,就在基因結(jié)構(gòu)參數(shù)設(shè)置選項(xiàng)卡中去掉Show domain前面的勾(圖62),再Redraw一下就可以了(圖63)。同理,Motif參數(shù)設(shè)置選項(xiàng)卡中也是同樣操作。

圖62

圖63
當(dāng)然,如果讀者只想繪制基因家族的結(jié)構(gòu)域圖,那么讀者只需要輸入結(jié)構(gòu)域文件,但必須輸入預(yù)測(cè)用的蛋白序列fasta文件(圖64),因?yàn)檫@個(gè)文件是用來(lái)確定基因家族成員的氨基酸序列長(zhǎng)度的——也就對(duì)應(yīng)結(jié)構(gòu)域底下的那條長(zhǎng)線(圖65)。而前面繪制組合圖的時(shí)候Motif或基因結(jié)構(gòu)文件是提供了長(zhǎng)度的,因此不需要再輸入蛋白序列fasta文件。

圖64

圖65
? ? ? ? 至此,作者把必要的東西都介紹的差不多了,剩下的個(gè)性化交互讀者自行摸索。
2.6 單獨(dú)繪制啟動(dòng)子順勢(shì)作用元件分布圖
? 關(guān)于這個(gè)啟動(dòng)子圖啊,作者有一些話想說(shuō)。關(guān)于開(kāi)發(fā)CFVisual心路歷程,作者以前從來(lái)沒(méi)想過(guò)寫(xiě)軟件,因?yàn)榛蚪Y(jié)構(gòu)圖和Motif圖分別可以通過(guò)GSDS和MEME繪制并通過(guò)Ai或Ps拼接修圖,雖然過(guò)程繁瑣,但是效果滿意。是研二之初,要做啟動(dòng)子分析,發(fā)現(xiàn)市面上并沒(méi)有一款軟件可以繪制啟動(dòng)子圖。因此,無(wú)奈只能尋找已有的工具。作者小戀一下,通過(guò)EXCEL成功實(shí)現(xiàn)了啟動(dòng)子圖的繪制并破解了繪制啟動(dòng)子圖的繪圖原理(這有可能是得益于作者第一個(gè)計(jì)算機(jī)相關(guān)的等級(jí)考試——Office拿到優(yōu)秀成績(jī)證書(shū)的成果)這里展示一下EXCEL繪制啟動(dòng)子圖的效果(圖66)。作者很高興,但是繪制過(guò)程太麻煩,太繁瑣,耗費(fèi)自己太多時(shí)間,又不容易傳授給師弟師妹。因此下定決定,自己去寫(xiě)一個(gè)繪制啟動(dòng)子圖的程序。寫(xiě)出來(lái)了第一個(gè)啟動(dòng)子圖,才有的后來(lái)。

圖66
關(guān)于這個(gè)啟動(dòng)子分析啊,作者也有一些話想說(shuō)。根據(jù)作者僅有的幾次投稿經(jīng)驗(yàn),有位審稿人對(duì)啟動(dòng)子分析是這么說(shuō)的(promoter analysis programs (especially for plant genome data) are notoriously unreliable and are best suited for setting up hypotheses to test empirically. Similar to the interpretation of the array data, the manuscript interprets the cis-element predictions without any cautions as to their accuracy. There is nothing inherently wrong with showing the promoter-analysis predictions, but caveats and limitations need to be recognized, presented, and discussed——譯文:啟動(dòng)子分析程序(尤其是針對(duì)植物基因組數(shù)據(jù)的啟動(dòng)子分析程序)是出了名的不可靠,最適合建立假設(shè)來(lái)進(jìn)行實(shí)證檢驗(yàn)。類似于對(duì)數(shù)組數(shù)據(jù)的解釋,手稿對(duì)順式元件預(yù)測(cè)的解釋沒(méi)有任何關(guān)于其準(zhǔn)確性的警告。展示推廣分析預(yù)測(cè)本身并沒(méi)有錯(cuò),但是需要認(rèn)識(shí)、提出和討論警告和限制)。所以讀者們?cè)谧龌蚣易宸治鲋械膯?dòng)子預(yù)測(cè)分析的時(shí)候,務(wù)必記住這位專家的建議。
然后是這個(gè)啟動(dòng)子序列如何獲取的一些個(gè)人看法,作者聲稱閱讀過(guò)幾百篇基因家族文章,發(fā)現(xiàn)做啟動(dòng)子分析的文章還是少數(shù)。像華北理工大學(xué)的生信大牛宋小明老師以往的基因家族分析文章壓根看不到啟動(dòng)子分析。像這種現(xiàn)象,作者個(gè)人的解釋是,正如上段專家所講,啟動(dòng)子分析程序是出了名的不可靠,這是其一。其二是,這個(gè)一般的基因家族套路分析中,啟動(dòng)子分析都是用代碼提取的基因上游2000、1500或1000bp等長(zhǎng)度的DNA序列作為假定的啟動(dòng)子序列。所以,本身啟動(dòng)子序列就不是真實(shí)預(yù)測(cè)的,而是根據(jù)經(jīng)驗(yàn)假設(shè)的。所以,基于以上兩點(diǎn)個(gè)人總結(jié)的原因,作者認(rèn)為是解釋這種啟動(dòng)子分析少做現(xiàn)象的原因。換句話說(shuō),灌水,也要基于真實(shí)的數(shù)據(jù)來(lái)分析。
但隨著發(fā)展,作者知道越來(lái)越多的網(wǎng)課啊,家族流程啊,為了增加內(nèi)容啊,工作量啥的啊,都會(huì)加上啟動(dòng)子分析。因此,這里,作者基于自己的經(jīng)驗(yàn)對(duì)做啟動(dòng)子分析的朋友們有以下兩點(diǎn)建議:①最好是實(shí)驗(yàn)數(shù)據(jù)或某些存儲(chǔ)數(shù)據(jù)庫(kù)得來(lái)的啟動(dòng)子序列②如果只能自己提取假定區(qū)間的啟動(dòng)子序列,作者建議提mRNA上游的2000bp(這是源于作者對(duì)啟動(dòng)子的概念、文獻(xiàn)背景、幾百篇基因家族文章的總結(jié)結(jié)果和經(jīng)歷的一個(gè)審稿人給的意見(jiàn)。For promoter analysis, it is unclear why only 1 kb upstream sequence was taken. Ideally, 2kb upstream sequences should be scanned for cis-acting elements——譯文:對(duì)于啟動(dòng)子分析,尚不清楚為什么只取上游1 kb序列。理想情況下,應(yīng)該對(duì)2kb上游序列進(jìn)行順式作用元件的掃描)。當(dāng)然,以上關(guān)于啟動(dòng)子分析的看法是作者成長(zhǎng)經(jīng)歷總結(jié)的建議,讀者們還是要根據(jù)自身情況做選擇。說(shuō)的不好的地方,大佬們隨意批評(píng)。
由于作者啟動(dòng)子分析做的少,只用過(guò)PlantCare網(wǎng)站(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)(這里也推薦這個(gè)網(wǎng)站,因?yàn)樽髡唛喿x的幾百篇基因家族文獻(xiàn)中大多數(shù)用的是PlantCare,而且這個(gè)工具的引用量也很高(圖67)。作者也看過(guò)一些基因家族文獻(xiàn)使用多個(gè)啟動(dòng)子元件預(yù)測(cè)網(wǎng)站綜合結(jié)果來(lái)統(tǒng)計(jì)展示——這正好像前文所說(shuō)可以綜合多個(gè)結(jié)構(gòu)域預(yù)測(cè)結(jié)果綜合整理成一個(gè)結(jié)果進(jìn)行展示)。因此,這里以PlantCare的使用步驟來(lái)講解一下如何獲取CFVisual識(shí)別的順勢(shì)作用元件的位置文件(圖68、69、70、71、72、73)。

圖67
準(zhǔn)備啟動(dòng)子DNA序列,實(shí)驗(yàn)室或收錄數(shù)據(jù)庫(kù)下載的最好,只能自己提取假定區(qū)間的話,就寫(xiě)代碼提取吧,具體可以參考作者在Github(https://github.com/ChenHuilong1223/CFVisual)提供的finally_promoter_genome.py代碼。然后再用first_according_ID_extract.sequence_and_count_best.py代碼從生成的全基因組所有的假定啟動(dòng)子序列提取基因家族成員的假定啟動(dòng)子序列。另外,其實(shí)有些數(shù)據(jù)庫(kù)也提供好了基因上游的DNA序列供用戶下載,比如擬南芥TAIR數(shù)據(jù)庫(kù)(https://www.arabidopsis.org/download/index-auto.jsp?dir=%2Fdownload_files%2FSequences%2FTAIR10_blastsets%2Fupstream_sequences)。

圖68

圖69
? ? ? ? 可以關(guān)閉PlantCare網(wǎng)頁(yè)了,耐心等待PlantCare網(wǎng)站返回的郵件......

圖70

圖71

圖72 只要+鏈的結(jié)果

圖73 處理成CFVisual識(shí)別的四列
最后得到Example文件夾里的(Si.PME.PlantCare.result.txt)作為CFVisual繪制啟動(dòng)子順式作用元件分布圖的準(zhǔn)備文件(圖74)。——或者其他啟動(dòng)子預(yù)測(cè)網(wǎng)站獲得的結(jié)果,只要結(jié)果格式能夠處理成Si.PME.PlantCare.result.txt文件類型——從左到右的四列分別為基因名、起始位置、長(zhǎng)度、元件名稱,都能繪制出圖(圖75、圖76)(作者沒(méi)有用過(guò)其他啟動(dòng)子預(yù)測(cè)網(wǎng)站,歡迎補(bǔ)充)。

圖74

圖75

圖76
小結(jié):使用PlantCare網(wǎng)站分析結(jié)果中,要根據(jù)自己的課題需求稍作處理,且只保留+鏈上的順式作用元件預(yù)測(cè)結(jié)果。靈活地使用CFVisual的啟動(dòng)子繪圖功能中的用戶選擇性地隱藏用戶不想要展示的順式作用元件控件,可以達(dá)到用戶篩選順式作用元件的效果——換句話說(shuō),用戶獲得PlantCare的結(jié)果之后,只需要?jiǎng)h掉多余的列和-鏈所在行的結(jié)果,即可直接用CFVisual繪制,不再需要花費(fèi)繁瑣的功夫去篩選順式作用元件類別了。(當(dāng)然,除非讀者對(duì)啟動(dòng)子元件十分熟悉,只操作幾次即可確定好放在論文中的最終圖。否則,作者還是建議讀者老老實(shí)實(shí)地篩選處理掉不想展示的元件所在行吧?。?/b>
3. 最后
? ? ? ? 軟件使用者一般很關(guān)心的一個(gè)問(wèn)題,你這個(gè)軟件發(fā)表了沒(méi)?
暫時(shí)還沒(méi)發(fā)表,膽子小,主要是。但是如果讀者使用CFVisual發(fā)表中文期刊,可以引用《谷子三結(jié)構(gòu)域多銅氧化酶基因家族的比較基因組學(xué)分析》這篇文章,這是作者唯一的一篇第一作者發(fā)表的文章呢!驕傲一下。如果發(fā)表英文期刊,可以引用《Comparative Genomics of Three-domain Multi-copper Oxidase Gene Family in Foxtail Millet (Setaria italicaL.)》這篇OA期刊的文章(也是很神奇,作者投了分子植物育種,當(dāng)時(shí)編輯建議作者二次發(fā)表到Computational Molecular Biology雜志)。
? ? ? ? 使用CFVisual做基因結(jié)構(gòu)+Motif+結(jié)構(gòu)域+進(jìn)化樹(shù)的組合圖或者繪制啟動(dòng)子順式作用元件分布圖的介紹就到此為止了。