国产一区啪爽,亚洲综合观看av,插吧插吧网

MCScanX是檢測基因共線性和進(jìn)化分析的常用工具之一，2012發(fā)表至今引用數(shù)200+，作者之一的唐海寶老師是國內(nèi)植物基因組學(xué)生信分析、軟件開發(fā)領(lǐng)域的大拿，在學(xué)習(xí)使用MCScanx之前推薦先看看他08年介紹gene synteny和collinearity概念的science文章以及MCScanX軟件算法文章。

Tang H, Bowers J E, Wang X, et al. Synteny and Collinearity in Plant Genomes[J]. Science, 2008, 320(5875):486-488.

Wang Y, Tang H, DeBarry JD, Tan X, Li J, Wang X, Lee TH, Jin H, Marler B, Guo H, Kissinger JC, Paterson AH. (2012) MCScanX: a toolkit for detection and evolutionary analysis of gene synteny and collinearity. Nucleic Acids Res, 40(7): e49.

好，接下來具體講講MCScanX的使用

1. 進(jìn)入MCScanX官網(wǎng)http://chibba.pgml.uga.edu/mcscan2/#tm

首先是關(guān)于版本的介紹：

可以看到MCScanX是MCScan的升級版本：

1）用法更簡單，只需要blastp m8格式的比對文件和經(jīng)過簡單處理的gff作為輸入文件即可；2）參數(shù)更多元，可以設(shè)置gap的閾值；3）輸出文件中有html網(wǎng)頁版的展示，可以看到第一列是duplicaiton depth，tandem genes用紅色標(biāo)出；4）優(yōu)化了算法，緩和了物種間不同gene densities的影響

右邊是歷史版本的優(yōu)化情況，其中13年發(fā)布的MCScanX-transposed是用來檢測基因組內(nèi)或組間的transposed gene重復(fù)

2. 下載及安裝

官網(wǎng)都給了鏈接，也可以參考biochen的文章，很詳細(xì)使用MCScanX分析基因組共線性區(qū)塊

unzip MCscanX.zip

cd MCScanX

make

Manual http://chibba.pgml.uga.edu/mcscan2/documentation/manual.pdf

structure一目了然

MCScanX、MCScanX_h、duplicate_gene_classifier這三個是核心程序，downstream_analyses中包含12個下游分析程序，可以畫圖構(gòu)樹，還是很方便很強大的

3.具體使用方法

第一個MCScanX是擬南芥單一物種內(nèi)找共線性gene區(qū)塊的例子，還可以用 duplicate_gene_classifier在單一基因組內(nèi)找重復(fù)序列，并區(qū)分singleton, dispersed, proximal, tandem, WGD/segmental五種類型。第二個MCScanX是擬南芥和葡萄物種之間找共線性，MCScanX_h和MCScanX類似，只是輸入文件稍有不同，如果已知物種間的homology關(guān)系，可以直接用MCScanX_h。后面是下游分析的java程序，每個程序點擊去可以看到實例

下面以最常用的多物種MCScanX找共線性使用為列：

at是擬南芥的縮寫，vv是葡萄縮寫

第一步 blastp（protein-protein BLAST）比對

注意！這里是找at和vv兩個基因組組內(nèi)和組間的共線性,因為想同時知道物種內(nèi)和物種間的共線性，所以在blast之前把at和vv的基因組facat到一起，既做database，又做query，如果只想知道組間的共線性，那么就任取一個基因組為database，另一個做query

合并 cat at.fa vv.fa >>all.fasta

建庫? makeblastdb -in all.fa-dbtype prot -parse_seqids -out all? (-logfile allpep.log -title all)

蛋白比對 blastp -query all.fa -db all -out at_vv.blast -evalue 1e-10? -num_threads 16 -outfmt 6 -num_alignments 5

小tips：blast這一步是限速步驟，可以把all.fasta文件cut成多份，同時并行跑節(jié)省時間

注意！親自驗證該軟件最多只能做5個物種的共線性。。。不管輸入再多物種結(jié)果只有五個?。?/b>

第二步運行MCScanX

輸入文件只有兩個，一個是上一步blast得到的at_vv.blast文件，格式如下：

還有一個是at_vv.gff文件，不過跟一般的九列g(shù)ff文件不同，這里是縮略版本，可以用awk得到，第一列是物種名和染色體編號，第二列是基因號，第三列是起始位置，第四列是終止位置（用tab分割）

準(zhǔn)備好這兩個文件之后，輸入命令行

MCScanX at_vv

注意：at_vv.gff at_vv.blast和at_vv命名需要一致且在同一個文件夾里

其他參數(shù)設(shè)置

運行速度快（吐槽一下用Sibelia來做植物基因組實在是太慢了。。）

運行成功后得到at_vv.html,at_vv.collinearity,at_vv.tandem輸出文件

at_vv.collinearity里記錄了共線性信息

可以看到collinear gene的數(shù)目和占比以及具體的比對信息

第三步下游分析及可視化

1、常用的下游分析有：

duplicate_gene_classifier XX （0：singleton（非重復(fù)基因）1：dispersed（不是2，3，4的其它重復(fù)）2：proximal（染色體附近的重復(fù)，但是不相鄰）3：tandem（串聯(lián)重復(fù)）4：WGD/segmental（在共線性區(qū)域的共線性基因））

dissect_multiple_alignment -g XX.gff -c XX.collinearity -o XX.dis

group_collinear_genes.pl -i XX.collinearity -o XX.collinear.groups

2、可視化：軟件自帶的分析包不能調(diào)顏色，所以推薦用python版的MCscan(JCVI 包)，具體參考我的另一篇文章其實MCScanX畫圖也可以很好看

繪圖瞬間高大上

驢和馬基因組的共線性分析