1. 基因家族聚類
基因家族是來源于同一個(gè)祖先,由一個(gè)基因通過基因重復(fù)和物種分歧而產(chǎn)生兩個(gè)或更多的拷貝而構(gòu)成的一組基因,它們?cè)诮Y(jié)構(gòu)和功能上具有明顯的相似性,編碼相似的蛋白質(zhì)產(chǎn)物,同一家族基因可以緊密排列在一起,形成一個(gè)基因簇,但多數(shù)時(shí)候,它們是分散在同一染色體的不同位置,或者存在于不同的染色體上的,各自具有不同的表達(dá)調(diào)控模式?;蚣易宓蔫b定,是進(jìn)化分析很重要的一個(gè)方面;?OrthoMCL(http://orthomcl.org/orthomcl/)流程是較常用的基因家族鑒定流程。
? ? Step1:對(duì)各個(gè)物種的基因集進(jìn)行過濾。首先,一個(gè)基因存在多個(gè)可變剪接轉(zhuǎn)錄本時(shí),僅留取編碼區(qū)最長(zhǎng)的轉(zhuǎn)錄本用于進(jìn)一步分析;其次,將編碼蛋白質(zhì)小于50個(gè)氨基酸的基因排除。
? ??Step2:通過blastp比對(duì)獲得所有物種蛋白序列之間的相似性關(guān)系;e值為1e-5;再用solar連接斷開片段;
? ??Step3:使用OrthoMCL軟件對(duì)比對(duì)結(jié)果進(jìn)行聚類,膨脹系數(shù)使用1.5;通過這個(gè)分析,可以得到單拷貝基因家族和多拷貝基因家族,它們?cè)谖锓N之間都是比較保守的;還可以得到物種特有的基因家族,它們可能與物種的特異性有關(guān);
? ? Step4: 用muscle進(jìn)行多序列比對(duì),并對(duì)結(jié)果進(jìn)行處理(一個(gè)位點(diǎn)上若只有一個(gè)物種含有堿基,這種情況刪除這個(gè)位點(diǎn)),同時(shí)并進(jìn)行格式轉(zhuǎn)化(每個(gè)物種為一行,物種名稱在前,序列在后的格式,每個(gè)物種堿基位點(diǎn)一一對(duì)其)


通過這個(gè)分析,可以得到單拷貝基因家族和多拷貝基因家族,它們?cè)谖锓N之間都是比較保守的;還可以得到物種特有的基因家族,它們可能與物種的特異性有關(guān);
2. 系統(tǒng)進(jìn)化分析
在基因家族聚類的Step4中,利用單拷貝基因家族的序列,對(duì)各個(gè)家族進(jìn)行MUSCLE (http://www.drive5.com/muscle/)比對(duì),之后將比對(duì)結(jié)果合并,形成一個(gè)super alignment matrix,然后使用RAxML(http://sco.h-its.org/exelixis/web/software/raxml/index.html)軟件利用極大似然法(ML TREE)對(duì)所分析的物種進(jìn)行系統(tǒng)發(fā)育樹的構(gòu)建;
3. 物種分歧時(shí)間的估算
用單拷貝基因家族,使用PAML軟件包中的mcmctree (http://abacus.gene.ucl.ac.uk/software/paml.html)進(jìn)行分歧時(shí)間估計(jì),利用timetree網(wǎng)站,文獻(xiàn)中的分歧時(shí)間和r8s得到的時(shí)間校正點(diǎn)進(jìn)行校正,TimeTree(http://www.timetree.org/)網(wǎng)站以及相關(guān)文章,mcmctree的運(yùn)行參數(shù)為:burn-in=10,000,sample-number=100,000,sample-frequency=2;
3.1 運(yùn)行r8s得到一部分矯正點(diǎn)
3.2 查閱相關(guān)文獻(xiàn)檢結(jié)合timetree和r8s的結(jié)果,使用mcmctree進(jìn)行分歧時(shí)間的估算
4. 基因家族的擴(kuò)張與收縮
根據(jù)基因家族的聚類分析結(jié)果,并過濾基因數(shù)在個(gè)別物種中存在異常的基因家族,使用CAFé(http://sourceforge.net/projects/cafehahnlab/)軟件進(jìn)行基因家族擴(kuò)張和收縮分析;進(jìn)行擴(kuò)張收縮分析之前,過濾掉在物種之前數(shù)目變化太大的基因家族,比如有一個(gè)基因家族的基因數(shù)目超過了200,此基因家族在所有的物種中數(shù)目小于2的
5. 正選擇分析
通過MUSCLE軟件對(duì)物種中的單拷貝基因家族的蛋白質(zhì)序列進(jìn)行多序列比對(duì),比對(duì)結(jié)果通過Gblocks (http://molevol.cmima.csic.es/castresana/Gblocks.html)軟件進(jìn)行過濾,去除低質(zhì)量的比對(duì)區(qū)域,剩余比對(duì)結(jié)果作為模板生成對(duì)應(yīng)的CDS多序列比對(duì)結(jié)果。對(duì)每個(gè)基因家族,使用PAML軟件包中的codeml工具,選擇枝位點(diǎn)特異模型(branch-site model)檢測(cè)秋茄基因家族是否受到正選擇。在PAML中,正選擇通過兩種假設(shè)的似然比檢驗(yàn)來確定是否存在正選擇情況而非簡(jiǎn)單的尋找ka/ks>1的基因。
6. 全基因組復(fù)制事件(WGD)
利用MCscan(http://chibba.agtec.uga.edu/duplication/mcscan/)軟件,分別搜索基因組內(nèi)部及近緣物種基因組間的共線性區(qū)段,對(duì)該基因組內(nèi)(間)共線性區(qū)段所包含的重復(fù)基因?qū)M(jìn)行序列比對(duì),并計(jì)算4dTV值。4dTV可反映物種在進(jìn)化史中是否發(fā)生全基因組復(fù)制事件、以及通過它與其它植物分化時(shí)間的比較區(qū)分發(fā)生全基因組復(fù)制相對(duì)時(shí)間的早晚,可判斷兩物種分化的時(shí)間,峰值為對(duì)應(yīng)物種發(fā)生全基因組復(fù)制或分歧時(shí)間點(diǎn)。物種自身比較用的是旁系同源基因,物種與近緣物種的比較使用的是直系同源基因

參考:https://www.cnblogs.com/huangying78/p/8638506.html