? ??Homolog是同源基因。
? ??Orthologs,Orthologues 直系同源,是指不同物種之間的基因,起源于共同的祖先,基因功能可能一樣,但又因為進化的關系,使得功能有丟失或者增加。如圖 B 所示,在 Human 和 Mouse 間 HuA 與 MoA 是直系同源基因,在 Human 和 Chicken 間 HuA 與 ChA1、ChA2 是直系同源基因。如果有物種 Cattle 且包含 CaA1 和 CaA2 基因,則在 Cattle 和 Chicken 間 CaA1、CaA2 與 ChA1、ChA2 是直系同源基因。直系同源基因存在一對一、一對多、多對多三種情況。其中一對多、多對多也稱為 共直系同源基因(co-orthologs)。每兩對物種間的直系同源基因匯總信息存放在 OrthoFinder 輸出文件夾中的 Orthologues 文件夾中。
????直系同源組(Orthogroup,正交群):各物種間 由最近共同祖先(LCA)中某基因 進化 而得到的一組基因。如圖 A 中 HuA、MoA、ChA1、ChA2 都是由同一個基因進化得到,構成直系同源組。正交群中的所有基因都來自單個祖先基因。因此,正交群中的所有基因都有類似的序列和功能。由于基因重復和丟失在進化中經常發(fā)生,一對一的直系同源物很少見,通過分析orhtogroup所有直系同源的情況(一對一,多對一,多對多),我們可以分析數據的所有情況。
????Paralogs, Paralogues 旁系同源,是指由于gene duplication產生的,是同一個物種內基因組復制的產物,可能進化為不同的功能,也可能成為pseudogene。如圖 C 中 Chicken 內 ChA1 與 ChA2 是一對旁系同源基因。

OrthoFinder 功能
1.查找直系同源群(orthogroups)和直系同源物(orthologs)
2.推斷所有直系同源群的有根基因樹(rooted gene trees)
3.識別這些基因樹中的所有基因復制事件(gene duplication events)
4.推斷有根物種樹(rooted species tree),并將基因復制事件從基因樹映射到物種樹上
5.為不同物種基因組間的比較分析提供全面的統(tǒng)計信息
通過修改 config.json 文件,OrthoFinder 支持用戶自定義調用軟件
????-M <opt>:使用 MSA 或 DendroBLAST 基因樹推斷,opt=msa,dendroblast [默認=dendroblast]
????使用默認選項,物種樹推斷是為DendroBLAST發(fā)育樹。它使用從支持每個二分的單基因座基因樹派生的物種樹的比例作為其支持的度量。也就是根據序列相似度推斷進化關系。這是作者推薦的方法,在損失部分準確性的前提下提高了運算效率。
????如果改為使用 -M msa 選項,則將使用串聯的多序列比對代替物種樹推斷,按照極大似然法構建系統(tǒng)發(fā)育樹,并且所有二分法的支持度值為 100%(并不都是100%,都挺大的倒是)。這樣結果會更加準確,但是代價就是運行時間會更久。在這種情況下,支持值對應于從完整的多基因比對中獲取的引導復制,這是完全不同的事情。這是最常用的支持度量,對于相同的數據總是會報告更高的支持值。
????如果先用了默認的DendroBLAST,想測試下傳統(tǒng)的MSA方法,那么也不需要重頭運行,因為有一個-b參數可以在復用之前的比對結果(xuzhougeng)
????在物種發(fā)育樹的推斷上,OrthoFinder使用STAG算法,利用所有基因進行構建系統(tǒng)發(fā)育樹,而非單拷貝基因。當使用MSA方法進行系統(tǒng)發(fā)育樹推斷時,OrthoFinder為了保證有足夠多的基因(大于100)用于分析,除了使用單拷貝基因外,還會挑選大部分是單拷貝基因的直系同源組。這些直系同源組的基因前后相連,用空缺字符表示缺失的基因,如果某一列存在多余50%的空缺字符,那么該列被剔除。最后基于用戶指定的建樹軟件進行系統(tǒng)發(fā)育樹構建。結果在"WorkingDirectory/SpeciesTree_unrooted.txt" 。使用STRIDE算法從無根樹中推斷出有根樹, 結果就是"SpeciesTree_rooted.txt"。
????STAG是一種從所有基因推測物種樹的算法,不同于使用單拷貝的直系同源基因進行進化樹構建。
????OrthoFinder默認用mafft進行多序列聯配,用fasttree進行進化樹推斷。多序列聯配軟件還支持muscle, 進化樹推斷軟件還支持iqtree, raxml-ng, raxml。例如參數可以設置為-M msa -A mafft -T raxml.并行化參數: -t參數指定序列搜索時的線程數,-a指的是序列搜索后分析的CPU數。
OrthoFinder 分析過程:
分為如下幾步:
1.BLAST all-vs-all搜索。使用BLASTP以evalue=10e-3進行搜索,尋找潛在的同源基因。(除了BLAST, 還可以選擇DIAMOND和MMSeq2)
2.基于基因長度和系統(tǒng)發(fā)育距離對BLAST bit得分進行標準化。
3.使用RBNHs確定同源組序列性相似度的閾值
4.構建直系同源組圖(orthogroup graph),用作MCL的輸入
5.使用MCL(Markov Cluster Algorithm)對基因進行聚類,劃分直系同源組
????其中每個 orthogroup 的蛋白及序列信息存放在 Orthogroup_Sequences 文件夾中,單拷貝 orthogroup 的蛋白及序列信息存放在 Single_Copy_Orthologue_Sequences 文件夾中,orthogroup 的統(tǒng)計信息存放在 Comparative_Genomics_Statistics、Orthogroups 文件夾中。如 OrthoFinder 自帶案例(ExampleData)中總共包含 2733 個基因,MCL 將 2202 個基因劃分為 604 個 orthogroups(gene_num > 2),剩余 531 個基因為離散點(每個基因獨立成組)。
????使用 FastMe 軟件 對每個 orthogroup(gene_num >= species_num)構建 無根基因樹(gene tree)。如自帶案例中總共生成 324 個基因樹文件。
????使用 STAG(Species Tree Inference from All Genes)軟件 根據 orthogroups(包含所有物種,如自帶案例推斷出的 604 個 orthogroups 中只有 316 個 orthogroups 中的同源基因在所有物種中均有分布)推斷 無根物種樹(species tree)。
????通過參數 -M dendroblast 或 -M msa,OrthoFinder 可以調用 STAG 中兩種構建物種樹的方法:DendroBLAST(默認) 和 CMSA(Concatenated Multiple Sequence Alignment,聯合多序列比對)。
????使用 STRIDE(Species Tree Root Inference from Gene Duplication Events) 通過基因復制事件的不可逆性為無根物種樹、無根基因樹賦根,得到有根物種樹、有根基因樹、基因間的直系同源關系、基因復制事件。結果存放在文件夾 Species_Tree、Gene_Tree、Orthologues、Gene_Duplication_Events、Comparative_Genomics_Statistics 中。
具體的分析和參數解釋還可見中文 生信技術公眾號 https://mp.weixin.qq.com/s/eeaTOQUHh6zuhYbbLA_Lnw?
運行結果存放在文件夾:....../OrthoFinder/Results_日期
????標準OrthoFinder運行會生成一組文件,這些文件描述了直系同源群,直系同源,基因樹,解析基因樹,有根物種樹,基因復制事件以及所分析物種集的比較基因組統(tǒng)計數據。
(1)直系同源群(Orthogroups)目錄
????Orthogroups.tsv:一個制表符分隔的文本文件,每行包含屬于單個直系同源群的基因。來自每個直系同源群(Orthogroup,OGXXXX)基因被組織成列,每個物種一列。
????Orthogroups_UnassignedGenes.tsv:一個制表符分隔的文本文件,其格式與Orthogroups.csv相同,但包含未分配給任何直系同源群的所有基因。
????Orthogroups.txt(傳統(tǒng)格式):包含Orthogroups.tsv文件中描述的直系同源群,但使用OrthoMCL輸出格式。(方便需求)
????Orthogroups.GeneCount.tsv:一個制表符分隔的文本文件,其格式與Orthogroups.csv相同,記錄了每個 Orthogroup 中基因在物種間的分布情況,可以用于分析同源基因在物種間的收縮和擴張。
????Orthogroups_SingleCopyOrthologues.txt:單拷貝直系同源組。每個物種正好包含一個基因的直系同源群列表,即它們包含一對一的直系同源物。它們非常適合進行種間比較和種樹推斷。(實際使用時候可以根據需求挑選)。建樹選擇物種太多時,可能文件為空。
(2)直系同源物(Orthologues)目錄
????以物種為單位,記錄了每個物種與其他物種間的直系同源基因。
????直系同源物目錄為每個物種包含一個子目錄,該子目錄又包含本物種與其他所有物種的成對比較文件,列出該物種對之間的直系同源物(Orthogroup)。直系同源物可以是一對一,一對多或多對多,這取決于直系同源物分化后的基因復制事件。文件中的每一行都包含一個物種中的基因,而該基因是另一物種中該基因的直系同源物,并且每一行都被交叉引用到包含這些基因的直系群中。
????簡單點說直系同源物(Orthologues)目錄能夠找到倆倆物種間的所有直系同源基因。
(3)基因樹(Gene Trees)目錄
?????每個 直系同源群orthogroup(gene_num >= 4)的有根基因樹結構。默認基因樹沒有支持值,OrthoFinder 為了節(jié)省計算時間沒算了,有方法獲取支持值(沒去學)。
(4)解析的基因樹( Resolved Gene Trees)目錄
????為每個直系同源群推斷出有根的系統(tǒng)發(fā)育樹,使用 OrthoFinder復制損失合并模型 進行解析。(根據需求用)
詳細說明可見?https://mp.weixin.qq.com/s/eeaTOQUHh6zuhYbbLA_Lnw
(5)物種樹(Species Tree)目錄
????SpeciesTree_rooted.txt:從所有包含STAG支持的直系同源組推斷的STAG物種樹,此文件有bootstrap值。
????SpeciesTree_rooted_node_labels.csv:與上述相同的樹,但是節(jié)點被賦予標簽(而不是支持值),用于解釋基因重復數據。
????Orthogroups_for_concatenated_alignment.txt:僅在 -M msa 模式下輸出,列出了所有串聯起來用于推斷物種樹的 orthogroup ID
?(6)比較基因組統(tǒng)計(Comparative_Genomics_Statistics)目錄
????Duplications_per_Orthogroup.tsv:記錄了每個 orthogroup 中推斷出的基因重復事件數量。
????Duplications_per_Species_Tree_Node.tsv:記錄了物種樹中每個節(jié)點、物種中發(fā)生基因重復事件的數量。
????Orthogroups_SpeciesOverlaps.tsv:每個物種對之間共享的 orthogroup 直系同源群(以方矩陣形式)。不同物種間的同源基因的交集
????OrthologuesStats _ *.tsv:是制表符分隔的文本文件,其中包含矩陣,這些矩陣給出了每對物種之間一對一,一對多和多對多關系的直系同源物數量。
????Statistics_Overall.tsv:記錄了有關 orthogroup 的常規(guī)統(tǒng)計信息。
????Statistics_PerSpecies.tsv:以物種為單位,記錄了有關 orthogroup 的常規(guī)統(tǒng)計信息。
????OrthologuesStats _ *:記錄了每對物種之間一對一、一對多和多對多關系的直向同源物數量。
????在Statistics_Overall.csv 和Statistics_PerSpecies.csv中的一些名詞:
Species-specific orthogroup:完全由一個物種的基因組成的直系同源群。
G50和O50,指的是當你直系同源組按照基因數從大到小進行排列,然后累加,當加入某個組后,累計基因數大于50%的總基因數,那么所需要的直系同源組的數目就是O50,該組的基因數目就是G50。
Single-copy orthogroup: 單拷貝直系同源群,每個物種中僅有一個基因的直系同源群。這些直系同源群是推斷物種樹和許多其他分析的理想選擇。
Unassigned gene: 未分配的基因,無法與任何其他基因放入直系同源群的基因,無法和其他基因進行聚類的基因。
(7)基因復制事件(Gene Duplication Events)目錄
????擁有基因樹意味著 OrthoFinder 可以識別發(fā)生的所有基因復制事件。OrthoFinder 在文件Species_Tree/ SpeciesTree_rooted_node_labels.txt?中標記物種樹的節(jié)點。
????基因復制(Gene Duplication):基因在物種進化過程中發(fā)生了復制。一般根據每個 orthogroup 的基因樹結構,通過每次分枝后左、右枝間是否包含旁系同源基因來確定 基因復制 事件。
? ? 注意!OrthoFinder 只統(tǒng)計記錄支持值(Support) >= 50% 的的復制事件。支持值是指復制后兩個基因副本未被丟失的比例,Support >= 50% 表示復制后至少有一半基因在演化中保留了下來。
????下圖為自帶案例中直系同源組 OG0000006 的有根基因樹結構。首先分析 N16(node 16),其左右枝 N10、N11 是旁系同源(agal),說明 N16 發(fā)生了一次基因復制。不斷遞歸可以發(fā)現,N19 后發(fā)生了 4 次基因復制。同理分析 N15,其中 N2、N4、N6 為旁系同源(geni),說明 N15 后發(fā)生了 2 次基因復制。結合 N15、N19,說明 N20 后發(fā)生了 6 次基因復制。由于 agal、geni 中基因與 N1 均不是旁系同源,所以 OG0000006 中總共發(fā)生了 6 次基因復制事件。

????Duplications.tsv:記錄了程序推測出的所有基因復制事件的信息。其中 Species Tree Node 表示基因復制事件發(fā)生時所對應的物種樹節(jié)點(即復制是在該物種內發(fā)生的);Gene tree node 表示基因復制事件發(fā)生時所對應的基因樹節(jié)點與基因復制事件對應的節(jié)點;Support 表示復制后兩個基因副本未被丟失的比例;Type 中 Terminal 表示重復發(fā)生在物種樹的末端分支上,Non-Terminal 表示重復發(fā)生在物種樹的內部分支上,被多個物種共享;Genes 1、Genes 2 為基因列表,其中 Genes 1 表示來自復制后基因的一個副本;Genes 2 表示來自復制后基因的另一個副本。
????SpeciesTree_Gene_Duplications_0.5_Support.txt :記錄了物種樹每個節(jié)點、分枝上包含的基因復制事件的總和,格式為節(jié)點或物種名 + 數字(基因復制事件數量)。

????以上給出了基因復制事件的Summary。其中每個節(jié)點顯示節(jié)點名稱,后跟一個下劃線,然后是映射到物種樹中每個節(jié)點充分支持的基因復制事件的數量。如果至少 50% 的后代物種保留了復制基因的兩個拷貝,則基因復制事件被認為是“得到充分支持的”。例:對于四足動物的共同祖先?N1,有?2458?個得到充分支持的基因復制事件。
?(8)直系同源群(Orthogroups sequences)序列
????????每個直系同源群的FASTA文件給出了每個直系同源群中每個基因的氨基酸序列。
?(9)單拷貝的直系同源群序列(Single copy orthologue sequences)
????????與直系同源群序列目錄相同的文件,但僅限于每個物種僅包含一個基因的直系同源群。
(10)MultipleSequenceAlignments 文件夾
????此文件夾僅在 -M msa 模式下輸出,均為 FASTA 格式文件。
? ? 1.記錄了每個 orthogroup 中序列間的多序列比對結果。
? ? 2.記錄了程序通過 CMSA 算法過濾后的 orthogroup 中各序列串聯后的多序列比對結果,同時比對結果中空位數 > 50% 的列已被刪除。
還會有一個名為WorkingDirectory的目錄,其中包含運算過程的中間文件,例如blast結果,DIAMOND 比對結果,STAG 輸出的無根物種樹等。2.3.12版本還生成了一些其他文件夾,沒看了
畫系統(tǒng)發(fā)育樹:
1.基因樹(Gene Trees):根據每個直系同源群推斷的系統(tǒng)發(fā)育樹。
????基因樹:指基于單個同源基因差異構建的系統(tǒng)發(fā)生樹。這種樹代表的僅僅是單個基因的進化歷史,而不是它所在物種的進化歷史。
????Orthogroups_SingleCopyOrthologues.txt:用來看畫基因樹應該選擇哪一個直系同源群的文件。該文件中每個物種正好包含一個基因的直系同源群列表,即它們包含一對一的直系同源物。它們非常適合進行種間比較和種樹推斷。
2.解析的基因樹(Resolved Gene Trees):為每個直系同源群推斷出有根的系統(tǒng)發(fā)育樹,使用OrthoFinder復制損失合并模型進行解析。
3.物種樹(Species Tree):從所有直系同源群推斷出的STAG物種樹,包含內部節(jié)點上的STAG支持值,并以STRIDE為根(-M dendroblast)。
大部分都是摘抄的,記錄有錯的地方,麻煩批評指正了。
看得頭暈,挺多還沒理解,后面弄WGD再來看看
聲明:本篇多為資料整理總結,僅用于自學記錄,侵刪,謝謝。感謝作者大大們分享:
OrthoFinder????https://github.com/davidemms/OrthoFinder
xuzhougeng????http://www.itdecent.cn/p/16e0bbb2ba19
濃香鴨腿面????https://blog.csdn.net/sinat_41621566/article/details/112320002
bclhx????火星的后裔????https://mp.weixin.qq.com/s/Jny5cTHqQh9yQx-cKQTWbA#tocbar--ebkh9l