構(gòu)建物種的系統(tǒng)發(fā)育樹,計算kaks值或者比較基因組學(xué)和進(jìn)化的其他分析都少不了需要尋找同源基因。之前已經(jīng)介紹過Orthomcl的自動化使用,Orthomcl也是目前引用最好的尋找同源基因的工具,但是Orthomcl使用起來比較麻煩,運(yùn)行速度還不夠快。
OrthoFinder的work flow見下圖
OrthoFinder與其它工具比較的結(jié)果見下圖
從圖中可以看出OrthoFinder相比于其它工具,無論是速度還是準(zhǔn)確度都有很大的提升。同時在OrthoFinder運(yùn)行之后,不僅僅尋找了同源基因,它也構(gòu)建了gene tree和species tree。OrthoFinder運(yùn)行速度快的很大原因是使用了DIAMOND/MMseqs來進(jìn)行蛋白比對。特別是DIAMOND,它可以得到和blast基本一致的結(jié)果的同時,比blast的運(yùn)行速度快500x-20,000x。
安裝運(yùn)行OrthoFinder
1. 下載安裝
https://github.com/davidemms/OrthoFinder
可以下載之后源碼安裝,也可以用conda安裝:
conda install -y orthofinder
ps:強(qiáng)烈建議安裝DIAMOND
2. 準(zhǔn)備輸入數(shù)據(jù)
OrthoFinder所需的輸入數(shù)據(jù)很簡單,把每個物種的蛋白序列放進(jìn)單獨(dú)的fasta文件中,然后把這些fasta文件放到一個目錄下。fasta文件命名為對應(yīng)的物種名。
3. 運(yùn)行
orthofinder -f Dataset_ directory
如果你想更改線程數(shù),使用-t參數(shù)即可修改。默認(rèn)的比對工具是DIAMOND,你也可以通過-S指定blast等其他工具。其他參數(shù)詳情可以運(yùn)行 orthofinder -h 看到。
4. 結(jié)果文件
在結(jié)果文件夾中,Orthogroups文件夾里面有所有的同源基因信息,還貼心的單獨(dú)給出了單拷貝同源基因信息。**Gene_Trees **和 **Species_Tree **文件夾分別是單獨(dú)的同源基因構(gòu)建的tree已經(jīng)整合所有同源基因構(gòu)建的物種樹。
Note
1.可以指定-M參數(shù)來指定物種樹的構(gòu)建算法。OrthoFinder默認(rèn)的方法是STAG算法。STAG整合了所有的同源基因(包括多拷貝基因),這種方法特別適合物種遺傳距離較遠(yuǎn),單拷貝同源基因很少甚至沒有的情況。
同樣,可以指定只使用單拷貝基因來構(gòu)建物種樹,-M raxml 就會調(diào)用Raxml進(jìn)行構(gòu)建。
2. Orthogroups文件夾中的 Orthogroups.GeneCount.tsv 統(tǒng)計了同源基因在每個物種中的數(shù)目,可以利用這個文件很方便的挑選我們需要的基因。
參考文獻(xiàn):
Emms, D.M. and Kelly, S. (2018) OrthoFinder2: fast and accurate phylogenomic orthology analysis from gene sequences. bioRxiv
歡迎關(guān)注公眾號:"生物信息學(xué)"