基因家族的收縮與擴(kuò)張

基因家族指來自諸多物種的MRCA(Most Recent Common Ancestor,最近共同祖先)的同一個始祖基因演化而來的一組基因。 研究基因家族在進(jìn)化過程中的大小變化,即關(guān)注旁系同源基因的演化。



Qu, Yanhua. et al . (2013). Ground tit genome reveals avian adaptation to living at high altitudes in the Tibetan plateau. Nature communications.

基因家族收縮擴(kuò)張分析的軟件是CAFE,https://github.com/hahnlab/CAFE5
需要準(zhǔn)備的文件有兩個:

  1. 基因家族聚類統(tǒng)計(jì)結(jié)果表格
  2. 帶分化時間的物種進(jìn)化樹

基于orthofinder 結(jié)果進(jìn)行cafe 分析

準(zhǔn)備mcmctree分化時間tree文件:FigTree.tre
準(zhǔn)備orthofinder聚類結(jié)果統(tǒng)計(jì)表:Orthogroups.GeneCount.tsv

#替換分化時間,以百萬年為單位, 即所有枝長乘以100倍
sed  's/\[[^]]\+\]//g' FigTree.tre | awk -F "=" '/UTREE/{print $2} '  > tree.nwk
sed  -e 's/:/\n:/g' -e 's/\([),]\)/\n\1/g'  tree.nwk  |awk '{if($1~/:$/){printf ":"100*$2} else {printf $0}}' |sed 's/\s\+//g' > input.tree


#將Orthogroups.GeneCount.tsv轉(zhuǎn)為cafe輸入格式
dos2unix Orthogroups.GeneCount.tsv #去掉不符合規(guī)范的字符
sed 's/\S\+$//' Orthogroups.GeneCount.tsv  > input.tab #去掉最后一列

#運(yùn)行cafe
cafe5  --infile input.tab --tree input.tree --output_prefix  cafe_ortho  --cores 5
  • 結(jié)果文件
    結(jié)果文件都在cafe_ortho目錄下


Base_asr.tre

整理進(jìn)化樹格式畫圖即可

awk '/TREE \S+ =/{print $NF}' cafe_ortho/Base_asr.tre | sed -r 's/_[0-9]+//g' | sed -r 's/([^)])<[0-9]+>/\1/g' | sed 's/*//g' > out_ortho.tree

最后上傳到ITOL美化即可

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容