基因家族指來自諸多物種的MRCA(Most Recent Common Ancestor,最近共同祖先)的同一個始祖基因演化而來的一組基因。 研究基因家族在進(jìn)化過程中的大小變化,即關(guān)注旁系同源基因的演化。

Qu, Yanhua. et al . (2013). Ground tit genome reveals avian adaptation to living at high altitudes in the Tibetan plateau. Nature communications.
基因家族收縮擴(kuò)張分析的軟件是CAFE,https://github.com/hahnlab/CAFE5
需要準(zhǔn)備的文件有兩個:
- 基因家族聚類統(tǒng)計(jì)結(jié)果表格
- 帶分化時間的物種進(jìn)化樹
基于orthofinder 結(jié)果進(jìn)行cafe 分析
準(zhǔn)備mcmctree分化時間tree文件:FigTree.tre
準(zhǔn)備orthofinder聚類結(jié)果統(tǒng)計(jì)表:Orthogroups.GeneCount.tsv
#替換分化時間,以百萬年為單位, 即所有枝長乘以100倍
sed 's/\[[^]]\+\]//g' FigTree.tre | awk -F "=" '/UTREE/{print $2} ' > tree.nwk
sed -e 's/:/\n:/g' -e 's/\([),]\)/\n\1/g' tree.nwk |awk '{if($1~/:$/){printf ":"100*$2} else {printf $0}}' |sed 's/\s\+//g' > input.tree
#將Orthogroups.GeneCount.tsv轉(zhuǎn)為cafe輸入格式
dos2unix Orthogroups.GeneCount.tsv #去掉不符合規(guī)范的字符
sed 's/\S\+$//' Orthogroups.GeneCount.tsv > input.tab #去掉最后一列
#運(yùn)行cafe
cafe5 --infile input.tab --tree input.tree --output_prefix cafe_ortho --cores 5
-
結(jié)果文件
結(jié)果文件都在cafe_ortho目錄下

Base_asr.tre
整理進(jìn)化樹格式畫圖即可
awk '/TREE \S+ =/{print $NF}' cafe_ortho/Base_asr.tre | sed -r 's/_[0-9]+//g' | sed -r 's/([^)])<[0-9]+>/\1/g' | sed 's/*//g' > out_ortho.tree
最后上傳到ITOL美化即可

