寫在前面
基因組測序項目已然是幾乎所有課題組都可以負擔的水平。相比于幾年前火爆的通過轉(zhuǎn)錄組測序挖掘生物學問題策略,通過基因組,尤其是比較基因組分析,往往可以給我們帶來更多確定性結(jié)果,如相比于近源物種A為何物種B的果皮更紅?這完全有可能是特定家族成員擴張導致。這些問題,轉(zhuǎn)錄組常常無法告訴我們,而基因組可以。接下來推出兩份教程,來自課題組成員的投稿。我個人感覺還不錯。與大伙一起學習。
同源基因分析介紹
開展生物信息數(shù)據(jù)分析的關(guān)鍵,并不在于軟件使用,而在于了解自己在做什么。我們先厘清一些概念。
Q:什么是同源基因?

A:同源基因(homologs)主要分為直系同源(orthologs)和旁系同源(paralogs)。在遠古時候,祖先物種只帶有一個珠蛋白基因(early globin genes),經(jīng)過N年的環(huán)境選擇,現(xiàn)存的物種都具有兩個珠蛋白基因,分別為α-鏈和β-鏈的類型。青蛙-人類-鼠的α-鏈球蛋白基因,三個并稱為直系同源基因,而蛙的α鏈和β鏈球蛋白基因則稱作旁系同源基因。
Q: 同源基因分析可以做什么?
A: 較短時間下,獲得同源基因集合(Orthogroups)和 有根物種樹(基于Orthogroups內(nèi)基因推斷的)的信息。具有這些信息,后續(xù)可以物種分歧時間預(yù)測、基因家族收縮擴張和WGD事件預(yù)測等。
分析的軟件與策略
直系同源基因分析常見兩個軟件:Orthofinder和OrthoMCL,本系列教程使用Orthofinder-(嘿,主要是這個軟件安裝和運行的十分簡單)。

Orthofinder工作原理:
從Orthofinder發(fā)表的工作流程(上圖),我們可以理解為進行了五個主要步驟:
- (a)推斷同源基因集合(Orthogroup),主要是通過序列比對和調(diào)用MCL聚類實現(xiàn)同源分類;
- (b)基于每個同源基因集合進行構(gòu)建基因的進化樹;
- (c/d)基于所有的同源基因的進化樹的情況,推斷物種的有根樹?;赟TAG(Species Tree Inference from All Genes)算法從無根基因樹上構(gòu)建無根物種樹,再使用STRIDE(Species Tree Root Inference from Gene Duplication Events)算法構(gòu)建有根物種樹;
- (e)通過有根物種樹的情況,重新對基因的樹定根;
- (f-h)對有根物種樹基因的復制-丟失-整合分析(duplication-loss-coalescence, DLC),識別同源基因集合或者基因復制事件。
軟件安裝
軟件安裝是相對比較簡單。
- 超級方便("無腦")conda 安裝
conda install -c bioconda -y orthofinder
- 自行編譯安裝
環(huán)境已經(jīng)安裝了python,并具有numpy和scipy庫,下載OrthoFinder_source.tar.gz;
如果沒有,則下載 OrthoFinder.tar.gz
#安裝了git
git clone https://github.com/davidemms/OrthoFinder.git
##直接wget下載安裝包
wget https://github.com/davidemms/OrthoFinder/releases/download/2.5.2/OrthoFinder_source.tar.gz
tar -xzf OrthoFinder_source.tar.gz
cd OrthoFinder_source/
#進入目錄,運行orthofinder.py,嘗試能否彈出幫助信息。
python orthofinder.py
orthofinder 也可以在windows下進行安裝和運行,不過需要借助Docker(一般不推薦....)。
安裝完成后,建議添加到環(huán)境變量。比如導進路徑
export PATH=$PATH:目錄到OrthoFinder_source
#若是常用軟件,可以寫進.bashrc
寫在最后
篇幅有限,今天先介紹到這里。在下一篇,我們將分享如何運行這個軟件,并進行結(jié)果解讀。
Emms DM, Kelly S. OrthoFinder: phylogenetic orthology inference for comparative genomics. Genome Biol. 2019 Nov 14;20(1):238.
https://github.com/davidemms/OrthoFinder