MCScanX是檢測基因共線性和進(jìn)化分析的常用工具之一,2012發(fā)表至今引用數(shù)200+,作者之一的唐海寶老師是國內(nèi)植物基因組學(xué)生信分析、軟件開發(fā)領(lǐng)域的大拿,在學(xué)習(xí)使用MCScanx之前推薦先看看他08年介紹gene synteny和collinearity概念的science文章以及MCScanX軟件算法文章。
Tang H, Bowers J E, Wang X, et al. Synteny and Collinearity in Plant Genomes[J]. Science, 2008, 320(5875):486-488.
Wang Y, Tang H, DeBarry JD, Tan X, Li J, Wang X, Lee TH, Jin H, Marler B, Guo H, Kissinger JC, Paterson AH. (2012) MCScanX: a toolkit for detection and evolutionary analysis of gene synteny and collinearity. Nucleic Acids Res, 40(7): e49.
好,接下來具體講講MCScanX的使用
1. 進(jìn)入MCScanX官網(wǎng)http://chibba.pgml.uga.edu/mcscan2/#tm

首先是關(guān)于版本的介紹:

可以看到MCScanX是MCScan的升級版本:
1)用法更簡單,只需要blastp m8格式的比對文件和經(jīng)過簡單處理的gff作為輸入文件即可;2)參數(shù)更多元,可以設(shè)置gap的閾值;3)輸出文件中有html網(wǎng)頁版的展示,可以看到第一列是duplicaiton depth,tandem genes用紅色標(biāo)出;4)優(yōu)化了算法,緩和了物種間不同gene densities的影響
右邊是歷史版本的優(yōu)化情況,其中13年發(fā)布的MCScanX-transposed是用來檢測基因組內(nèi)或組間的transposed gene重復(fù)
2. 下載及安裝
官網(wǎng)都給了鏈接,也可以參考biochen的文章,很詳細(xì)使用MCScanX分析基因組共線性區(qū)塊
unzip MCscanX.zip
cd MCScanX
make

Manual http://chibba.pgml.uga.edu/mcscan2/documentation/manual.pdf

MCScanX、MCScanX_h、duplicate_gene_classifier這三個是核心程序,downstream_analyses中包含12個下游分析程序,可以畫圖構(gòu)樹,還是很方便很強大的
3.具體使用方法

第一個MCScanX是擬南芥單一物種內(nèi)找共線性gene區(qū)塊的例子,還可以用 duplicate_gene_classifier在單一基因組內(nèi)找重復(fù)序列,并區(qū)分singleton, dispersed, proximal, tandem, WGD/segmental五種類型。第二個MCScanX是擬南芥和葡萄物種之間找共線性,MCScanX_h和MCScanX類似,只是輸入文件稍有不同,如果已知物種間的homology關(guān)系,可以直接用MCScanX_h。后面是下游分析的java程序,每個程序點擊去可以看到實例
下面以最常用的多物種MCScanX找共線性使用為列:

第一步 blastp(protein-protein BLAST)比對
注意!這里是找at和vv兩個基因組組內(nèi)和組間的共線性,因為想同時知道物種內(nèi)和物種間的共線性,所以在blast之前把at和vv的基因組facat到一起,既做database,又做query,如果只想知道組間的共線性,那么就任取一個基因組為database,另一個做query
合并 cat at.fa vv.fa >>all.fasta
建庫? makeblastdb -in all.fa-dbtype prot -parse_seqids -out all? (-logfile allpep.log -title all)
蛋白比對 blastp -query all.fa -db all -out at_vv.blast -evalue 1e-10? -num_threads 16 -outfmt 6 -num_alignments 5
小tips:blast這一步是限速步驟,可以把all.fasta文件cut成多份,同時并行跑節(jié)省時間
注意!親自驗證該軟件最多只能做5個物種的共線性。。。不管輸入再多物種結(jié)果只有五個?。?/b>
第二步 運行MCScanX
輸入文件只有兩個,一個是上一步blast得到的at_vv.blast文件,格式如下:

還有一個是at_vv.gff文件,不過跟一般的九列g(shù)ff文件不同,這里是縮略版本,可以用awk得到,第一列是物種名和染色體編號,第二列是基因號,第三列是起始位置,第四列是終止位置(用tab分割)

準(zhǔn)備好這兩個文件之后,輸入命令行
MCScanX at_vv
注意:at_vv.gff at_vv.blast和at_vv命名需要一致且在同一個文件夾里
其他參數(shù)設(shè)置

運行速度快(吐槽一下用Sibelia來做植物基因組實在是太慢了。。)

運行成功后得到at_vv.html,at_vv.collinearity,at_vv.tandem輸出文件

at_vv.collinearity里記錄了共線性信息

可以看到collinear gene的數(shù)目和占比以及具體的比對信息
第三步 下游分析及可視化
1、常用的下游分析有:
duplicate_gene_classifier XX (0:singleton(非重復(fù)基因)1:dispersed(不是2,3,4的其它重復(fù))2:proximal(染色體附近的重復(fù),但是不相鄰)3:tandem(串聯(lián)重復(fù))4:WGD/segmental(在共線性區(qū)域的共線性基因))
dissect_multiple_alignment -g XX.gff -c XX.collinearity -o XX.dis
group_collinear_genes.pl -i XX.collinearity -o XX.collinear.groups
2、可視化:軟件自帶的分析包不能調(diào)顏色,所以推薦用python版的MCscan(JCVI 包),具體參考我的另一篇文章其實MCScanX畫圖也可以很好看
繪圖瞬間高大上

這里直接使用下游dot_plotter, dual_synteny_plotter, circle_plotter和bar_plotter 4個java包更便捷

gff和collinearity是上一步的輸出,還需要編輯一個control文件,設(shè)置需要展示的染色體信息(和gff的第一列一致)
1.dot_plotter
java dot_plotter -g at_vv.gff -s at_vv.collinearity -c dot.ctl -o dot.PNG
dot.ctl?

2.dual_synteny_plotter
java dual_synteny_plotter -g at_vv.gff -s at_vv.collinearity -c dual_synteny.ctl -o dual_synteny.PNG
dual_synteny.ctl?

3.circle_plotter
java circle_plotter -g at_vv.gff -s at_vv.collinearity -c circle.ctl -o circle.PNG
circle.ctl

4.bar_plotter
java bar_plotter -g at_vv.gff -s at_vv.collinearity -c bar.ctl -o bar.PNG
bar.ctl

第四步 其他分析
duplicate_gene_classifier、detect_collinear_tandem_arrays、dissect_multiple_alignments對結(jié)果做進(jìn)一步分析,借助其他相關(guān)信息,還可以做
origin_enrichment_analysis,family_tree_plotter,add_ka_and_ks_to_collinearity等


小結(jié)
MCScanX官網(wǎng)界面友好,親測好評,后面畫圖如果想自己調(diào)試改顏色啥的,還是學(xué)一下circos的使用吧~
有問題可以聯(lián)系作者
Please be sure to direct your questions to wyp1125@gmail.com