? ??Homolog是同源基因。
? ??Orthologs,Orthologues 直系同源,是指不同物種之間的基因,起源于共同的祖先,基因功能可能一樣,但又因?yàn)檫M(jìn)化的關(guān)系,使得功能有丟失或者增加。如圖 B 所示,在 Human 和 Mouse 間 HuA 與 MoA 是直系同源基因,在 Human 和 Chicken 間 HuA 與 ChA1、ChA2 是直系同源基因。如果有物種 Cattle 且包含 CaA1 和 CaA2 基因,則在 Cattle 和 Chicken 間 CaA1、CaA2 與 ChA1、ChA2 是直系同源基因。直系同源基因存在一對(duì)一、一對(duì)多、多對(duì)多三種情況。其中一對(duì)多、多對(duì)多也稱為 共直系同源基因(co-orthologs)。每?jī)蓪?duì)物種間的直系同源基因匯總信息存放在 OrthoFinder 輸出文件夾中的 Orthologues 文件夾中。
????直系同源組(Orthogroup,正交群):各物種間 由最近共同祖先(LCA)中某基因 進(jìn)化 而得到的一組基因。如圖 A 中 HuA、MoA、ChA1、ChA2 都是由同一個(gè)基因進(jìn)化得到,構(gòu)成直系同源組。正交群中的所有基因都來(lái)自單個(gè)祖先基因。因此,正交群中的所有基因都有類似的序列和功能。由于基因重復(fù)和丟失在進(jìn)化中經(jīng)常發(fā)生,一對(duì)一的直系同源物很少見(jiàn),通過(guò)分析orhtogroup所有直系同源的情況(一對(duì)一,多對(duì)一,多對(duì)多),我們可以分析數(shù)據(jù)的所有情況。
????Paralogs, Paralogues 旁系同源,是指由于gene duplication產(chǎn)生的,是同一個(gè)物種內(nèi)基因組復(fù)制的產(chǎn)物,可能進(jìn)化為不同的功能,也可能成為pseudogene。如圖 C 中 Chicken 內(nèi) ChA1 與 ChA2 是一對(duì)旁系同源基因。

OrthoFinder 功能
1.查找直系同源群(orthogroups)和直系同源物(orthologs)
2.推斷所有直系同源群的有根基因樹(shù)(rooted gene trees)
3.識(shí)別這些基因樹(shù)中的所有基因復(fù)制事件(gene duplication events)
4.推斷有根物種樹(shù)(rooted species tree),并將基因復(fù)制事件從基因樹(shù)映射到物種樹(shù)上
5.為不同物種基因組間的比較分析提供全面的統(tǒng)計(jì)信息
通過(guò)修改 config.json 文件,OrthoFinder 支持用戶自定義調(diào)用軟件
????-M <opt>:使用 MSA 或 DendroBLAST 基因樹(shù)推斷,opt=msa,dendroblast [默認(rèn)=dendroblast]
????使用默認(rèn)選項(xiàng),物種樹(shù)推斷是為DendroBLAST發(fā)育樹(shù)。它使用從支持每個(gè)二分的單基因座基因樹(shù)派生的物種樹(shù)的比例作為其支持的度量。也就是根據(jù)序列相似度推斷進(jìn)化關(guān)系。這是作者推薦的方法,在損失部分準(zhǔn)確性的前提下提高了運(yùn)算效率。
????如果改為使用 -M msa 選項(xiàng),則將使用串聯(lián)的多序列比對(duì)代替物種樹(shù)推斷,按照極大似然法構(gòu)建系統(tǒng)發(fā)育樹(shù),并且所有二分法的支持度值為 100%(并不都是100%,都挺大的倒是)。這樣結(jié)果會(huì)更加準(zhǔn)確,但是代價(jià)就是運(yùn)行時(shí)間會(huì)更久。在這種情況下,支持值對(duì)應(yīng)于從完整的多基因比對(duì)中獲取的引導(dǎo)復(fù)制,這是完全不同的事情。這是最常用的支持度量,對(duì)于相同的數(shù)據(jù)總是會(huì)報(bào)告更高的支持值。
????如果先用了默認(rèn)的DendroBLAST,想測(cè)試下傳統(tǒng)的MSA方法,那么也不需要重頭運(yùn)行,因?yàn)橛幸粋€(gè)-b參數(shù)可以在復(fù)用之前的比對(duì)結(jié)果(xuzhougeng)
????在物種發(fā)育樹(shù)的推斷上,OrthoFinder使用STAG算法,利用所有基因進(jìn)行構(gòu)建系統(tǒng)發(fā)育樹(shù),而非單拷貝基因。當(dāng)使用MSA方法進(jìn)行系統(tǒng)發(fā)育樹(shù)推斷時(shí),OrthoFinder為了保證有足夠多的基因(大于100)用于分析,除了使用單拷貝基因外,還會(huì)挑選大部分是單拷貝基因的直系同源組。這些直系同源組的基因前后相連,用空缺字符表示缺失的基因,如果某一列存在多余50%的空缺字符,那么該列被剔除。最后基于用戶指定的建樹(shù)軟件進(jìn)行系統(tǒng)發(fā)育樹(shù)構(gòu)建。結(jié)果在"WorkingDirectory/SpeciesTree_unrooted.txt" 。使用STRIDE算法從無(wú)根樹(shù)中推斷出有根樹(shù), 結(jié)果就是"SpeciesTree_rooted.txt"。
????STAG是一種從所有基因推測(cè)物種樹(shù)的算法,不同于使用單拷貝的直系同源基因進(jìn)行進(jìn)化樹(shù)構(gòu)建。
????OrthoFinder默認(rèn)用mafft進(jìn)行多序列聯(lián)配,用fasttree進(jìn)行進(jìn)化樹(shù)推斷。多序列聯(lián)配軟件還支持muscle, 進(jìn)化樹(shù)推斷軟件還支持iqtree, raxml-ng, raxml。例如參數(shù)可以設(shè)置為-M msa -A mafft -T raxml.并行化參數(shù): -t參數(shù)指定序列搜索時(shí)的線程數(shù),-a指的是序列搜索后分析的CPU數(shù)。
OrthoFinder 分析過(guò)程:
分為如下幾步:
1.BLAST all-vs-all搜索。使用BLASTP以evalue=10e-3進(jìn)行搜索,尋找潛在的同源基因。(除了BLAST, 還可以選擇DIAMOND和MMSeq2)
2.基于基因長(zhǎng)度和系統(tǒng)發(fā)育距離對(duì)BLAST bit得分進(jìn)行標(biāo)準(zhǔn)化。
3.使用RBNHs確定同源組序列性相似度的閾值
4.構(gòu)建直系同源組圖(orthogroup graph),用作MCL的輸入
5.使用MCL(Markov Cluster Algorithm)對(duì)基因進(jìn)行聚類,劃分直系同源組
????其中每個(gè) orthogroup 的蛋白及序列信息存放在 Orthogroup_Sequences 文件夾中,單拷貝 orthogroup 的蛋白及序列信息存放在 Single_Copy_Orthologue_Sequences 文件夾中,orthogroup 的統(tǒng)計(jì)信息存放在 Comparative_Genomics_Statistics、Orthogroups 文件夾中。如 OrthoFinder 自帶案例(ExampleData)中總共包含 2733 個(gè)基因,MCL 將 2202 個(gè)基因劃分為 604 個(gè) orthogroups(gene_num > 2),剩余 531 個(gè)基因?yàn)殡x散點(diǎn)(每個(gè)基因獨(dú)立成組)。
????使用 FastMe 軟件 對(duì)每個(gè) orthogroup(gene_num >= species_num)構(gòu)建 無(wú)根基因樹(shù)(gene tree)。如自帶案例中總共生成 324 個(gè)基因樹(shù)文件。
????使用 STAG(Species Tree Inference from All Genes)軟件 根據(jù) orthogroups(包含所有物種,如自帶案例推斷出的 604 個(gè) orthogroups 中只有 316 個(gè) orthogroups 中的同源基因在所有物種中均有分布)推斷 無(wú)根物種樹(shù)(species tree)。
????通過(guò)參數(shù) -M dendroblast 或 -M msa,OrthoFinder 可以調(diào)用 STAG 中兩種構(gòu)建物種樹(shù)的方法:DendroBLAST(默認(rèn)) 和 CMSA(Concatenated Multiple Sequence Alignment,聯(lián)合多序列比對(duì))。
????使用 STRIDE(Species Tree Root Inference from Gene Duplication Events) 通過(guò)基因復(fù)制事件的不可逆性為無(wú)根物種樹(shù)、無(wú)根基因樹(shù)賦根,得到有根物種樹(shù)、有根基因樹(shù)、基因間的直系同源關(guān)系、基因復(fù)制事件。結(jié)果存放在文件夾 Species_Tree、Gene_Tree、Orthologues、Gene_Duplication_Events、Comparative_Genomics_Statistics 中。
具體的分析和參數(shù)解釋還可見(jiàn)中文 生信技術(shù)公眾號(hào) https://mp.weixin.qq.com/s/eeaTOQUHh6zuhYbbLA_Lnw?
運(yùn)行結(jié)果存放在文件夾:....../OrthoFinder/Results_日期
????標(biāo)準(zhǔn)OrthoFinder運(yùn)行會(huì)生成一組文件,這些文件描述了直系同源群,直系同源,基因樹(shù),解析基因樹(shù),有根物種樹(shù),基因復(fù)制事件以及所分析物種集的比較基因組統(tǒng)計(jì)數(shù)據(jù)。
(1)直系同源群(Orthogroups)目錄
????Orthogroups.tsv:一個(gè)制表符分隔的文本文件,每行包含屬于單個(gè)直系同源群的基因。來(lái)自每個(gè)直系同源群(Orthogroup,OGXXXX)基因被組織成列,每個(gè)物種一列。
????Orthogroups_UnassignedGenes.tsv:一個(gè)制表符分隔的文本文件,其格式與Orthogroups.csv相同,但包含未分配給任何直系同源群的所有基因。
????Orthogroups.txt(傳統(tǒng)格式):包含Orthogroups.tsv文件中描述的直系同源群,但使用OrthoMCL輸出格式。(方便需求)
????Orthogroups.GeneCount.tsv:一個(gè)制表符分隔的文本文件,其格式與Orthogroups.csv相同,記錄了每個(gè) Orthogroup 中基因在物種間的分布情況,可以用于分析同源基因在物種間的收縮和擴(kuò)張。
????Orthogroups_SingleCopyOrthologues.txt:單拷貝直系同源組。每個(gè)物種正好包含一個(gè)基因的直系同源群列表,即它們包含一對(duì)一的直系同源物。它們非常適合進(jìn)行種間比較和種樹(shù)推斷。(實(shí)際使用時(shí)候可以根據(jù)需求挑選)。建樹(shù)選擇物種太多時(shí),可能文件為空。
(2)直系同源物(Orthologues)目錄
????以物種為單位,記錄了每個(gè)物種與其他物種間的直系同源基因。
????直系同源物目錄為每個(gè)物種包含一個(gè)子目錄,該子目錄又包含本物種與其他所有物種的成對(duì)比較文件,列出該物種對(duì)之間的直系同源物(Orthogroup)。直系同源物可以是一對(duì)一,一對(duì)多或多對(duì)多,這取決于直系同源物分化后的基因復(fù)制事件。文件中的每一行都包含一個(gè)物種中的基因,而該基因是另一物種中該基因的直系同源物,并且每一行都被交叉引用到包含這些基因的直系群中。
????簡(jiǎn)單點(diǎn)說(shuō)直系同源物(Orthologues)目錄能夠找到倆倆物種間的所有直系同源基因。
(3)基因樹(shù)(Gene Trees)目錄
?????每個(gè) 直系同源群orthogroup(gene_num >= 4)的有根基因樹(shù)結(jié)構(gòu)。默認(rèn)基因樹(shù)沒(méi)有支持值,OrthoFinder 為了節(jié)省計(jì)算時(shí)間沒(méi)算了,有方法獲取支持值(沒(méi)去學(xué))。
(4)解析的基因樹(shù)( Resolved Gene Trees)目錄
????為每個(gè)直系同源群推斷出有根的系統(tǒng)發(fā)育樹(shù),使用 OrthoFinder復(fù)制損失合并模型 進(jìn)行解析。(根據(jù)需求用)
詳細(xì)說(shuō)明可見(jiàn)?https://mp.weixin.qq.com/s/eeaTOQUHh6zuhYbbLA_Lnw
(5)物種樹(shù)(Species Tree)目錄
????SpeciesTree_rooted.txt:從所有包含STAG支持的直系同源組推斷的STAG物種樹(shù),此文件有bootstrap值。
????SpeciesTree_rooted_node_labels.csv:與上述相同的樹(shù),但是節(jié)點(diǎn)被賦予標(biāo)簽(而不是支持值),用于解釋基因重復(fù)數(shù)據(jù)。
????Orthogroups_for_concatenated_alignment.txt:僅在 -M msa 模式下輸出,列出了所有串聯(lián)起來(lái)用于推斷物種樹(shù)的 orthogroup ID
?(6)比較基因組統(tǒng)計(jì)(Comparative_Genomics_Statistics)目錄
????Duplications_per_Orthogroup.tsv:記錄了每個(gè) orthogroup 中推斷出的基因重復(fù)事件數(shù)量。
????Duplications_per_Species_Tree_Node.tsv:記錄了物種樹(shù)中每個(gè)節(jié)點(diǎn)、物種中發(fā)生基因重復(fù)事件的數(shù)量。
????Orthogroups_SpeciesOverlaps.tsv:每個(gè)物種對(duì)之間共享的 orthogroup 直系同源群(以方矩陣形式)。不同物種間的同源基因的交集
????OrthologuesStats _ *.tsv:是制表符分隔的文本文件,其中包含矩陣,這些矩陣給出了每對(duì)物種之間一對(duì)一,一對(duì)多和多對(duì)多關(guān)系的直系同源物數(shù)量。
????Statistics_Overall.tsv:記錄了有關(guān) orthogroup 的常規(guī)統(tǒng)計(jì)信息。
????Statistics_PerSpecies.tsv:以物種為單位,記錄了有關(guān) orthogroup 的常規(guī)統(tǒng)計(jì)信息。
????OrthologuesStats _ *:記錄了每對(duì)物種之間一對(duì)一、一對(duì)多和多對(duì)多關(guān)系的直向同源物數(shù)量。
????在Statistics_Overall.csv 和Statistics_PerSpecies.csv中的一些名詞:
Species-specific orthogroup:完全由一個(gè)物種的基因組成的直系同源群。
G50和O50,指的是當(dāng)你直系同源組按照基因數(shù)從大到小進(jìn)行排列,然后累加,當(dāng)加入某個(gè)組后,累計(jì)基因數(shù)大于50%的總基因數(shù),那么所需要的直系同源組的數(shù)目就是O50,該組的基因數(shù)目就是G50。
Single-copy orthogroup: 單拷貝直系同源群,每個(gè)物種中僅有一個(gè)基因的直系同源群。這些直系同源群是推斷物種樹(shù)和許多其他分析的理想選擇。
Unassigned gene: 未分配的基因,無(wú)法與任何其他基因放入直系同源群的基因,無(wú)法和其他基因進(jìn)行聚類的基因。
(7)基因復(fù)制事件(Gene Duplication Events)目錄
????擁有基因樹(shù)意味著 OrthoFinder 可以識(shí)別發(fā)生的所有基因復(fù)制事件。OrthoFinder 在文件Species_Tree/ SpeciesTree_rooted_node_labels.txt?中標(biāo)記物種樹(shù)的節(jié)點(diǎn)。
????基因復(fù)制(Gene Duplication):基因在物種進(jìn)化過(guò)程中發(fā)生了復(fù)制。一般根據(jù)每個(gè) orthogroup 的基因樹(shù)結(jié)構(gòu),通過(guò)每次分枝后左、右枝間是否包含旁系同源基因來(lái)確定 基因復(fù)制 事件。
? ? 注意!OrthoFinder 只統(tǒng)計(jì)記錄支持值(Support) >= 50% 的的復(fù)制事件。支持值是指復(fù)制后兩個(gè)基因副本未被丟失的比例,Support >= 50% 表示復(fù)制后至少有一半基因在演化中保留了下來(lái)。
????下圖為自帶案例中直系同源組 OG0000006 的有根基因樹(shù)結(jié)構(gòu)。首先分析 N16(node 16),其左右枝 N10、N11 是旁系同源(agal),說(shuō)明 N16 發(fā)生了一次基因復(fù)制。不斷遞歸可以發(fā)現(xiàn),N19 后發(fā)生了 4 次基因復(fù)制。同理分析 N15,其中 N2、N4、N6 為旁系同源(geni),說(shuō)明 N15 后發(fā)生了 2 次基因復(fù)制。結(jié)合 N15、N19,說(shuō)明 N20 后發(fā)生了 6 次基因復(fù)制。由于 agal、geni 中基因與 N1 均不是旁系同源,所以 OG0000006 中總共發(fā)生了 6 次基因復(fù)制事件。

????Duplications.tsv:記錄了程序推測(cè)出的所有基因復(fù)制事件的信息。其中 Species Tree Node 表示基因復(fù)制事件發(fā)生時(shí)所對(duì)應(yīng)的物種樹(shù)節(jié)點(diǎn)(即復(fù)制是在該物種內(nèi)發(fā)生的);Gene tree node 表示基因復(fù)制事件發(fā)生時(shí)所對(duì)應(yīng)的基因樹(shù)節(jié)點(diǎn)與基因復(fù)制事件對(duì)應(yīng)的節(jié)點(diǎn);Support 表示復(fù)制后兩個(gè)基因副本未被丟失的比例;Type 中 Terminal 表示重復(fù)發(fā)生在物種樹(shù)的末端分支上,Non-Terminal 表示重復(fù)發(fā)生在物種樹(shù)的內(nèi)部分支上,被多個(gè)物種共享;Genes 1、Genes 2 為基因列表,其中 Genes 1 表示來(lái)自復(fù)制后基因的一個(gè)副本;Genes 2 表示來(lái)自復(fù)制后基因的另一個(gè)副本。
????SpeciesTree_Gene_Duplications_0.5_Support.txt :記錄了物種樹(shù)每個(gè)節(jié)點(diǎn)、分枝上包含的基因復(fù)制事件的總和,格式為節(jié)點(diǎn)或物種名 + 數(shù)字(基因復(fù)制事件數(shù)量)。

????以上給出了基因復(fù)制事件的Summary。其中每個(gè)節(jié)點(diǎn)顯示節(jié)點(diǎn)名稱,后跟一個(gè)下劃線,然后是映射到物種樹(shù)中每個(gè)節(jié)點(diǎn)充分支持的基因復(fù)制事件的數(shù)量。如果至少 50% 的后代物種保留了復(fù)制基因的兩個(gè)拷貝,則基因復(fù)制事件被認(rèn)為是“得到充分支持的”。例:對(duì)于四足動(dòng)物的共同祖先?N1,有?2458?個(gè)得到充分支持的基因復(fù)制事件。
?(8)直系同源群(Orthogroups sequences)序列
????????每個(gè)直系同源群的FASTA文件給出了每個(gè)直系同源群中每個(gè)基因的氨基酸序列。
?(9)單拷貝的直系同源群序列(Single copy orthologue sequences)
????????與直系同源群序列目錄相同的文件,但僅限于每個(gè)物種僅包含一個(gè)基因的直系同源群。
(10)MultipleSequenceAlignments 文件夾
????此文件夾僅在 -M msa 模式下輸出,均為 FASTA 格式文件。
? ? 1.記錄了每個(gè) orthogroup 中序列間的多序列比對(duì)結(jié)果。
? ? 2.記錄了程序通過(guò) CMSA 算法過(guò)濾后的 orthogroup 中各序列串聯(lián)后的多序列比對(duì)結(jié)果,同時(shí)比對(duì)結(jié)果中空位數(shù) > 50% 的列已被刪除。
還會(huì)有一個(gè)名為WorkingDirectory的目錄,其中包含運(yùn)算過(guò)程的中間文件,例如blast結(jié)果,DIAMOND 比對(duì)結(jié)果,STAG 輸出的無(wú)根物種樹(shù)等。2.3.12版本還生成了一些其他文件夾,沒(méi)看了
畫(huà)系統(tǒng)發(fā)育樹(shù):
1.基因樹(shù)(Gene Trees):根據(jù)每個(gè)直系同源群推斷的系統(tǒng)發(fā)育樹(shù)。
????基因樹(shù):指基于單個(gè)同源基因差異構(gòu)建的系統(tǒng)發(fā)生樹(shù)。這種樹(shù)代表的僅僅是單個(gè)基因的進(jìn)化歷史,而不是它所在物種的進(jìn)化歷史。
????Orthogroups_SingleCopyOrthologues.txt:用來(lái)看畫(huà)基因樹(shù)應(yīng)該選擇哪一個(gè)直系同源群的文件。該文件中每個(gè)物種正好包含一個(gè)基因的直系同源群列表,即它們包含一對(duì)一的直系同源物。它們非常適合進(jìn)行種間比較和種樹(shù)推斷。
2.解析的基因樹(shù)(Resolved Gene Trees):為每個(gè)直系同源群推斷出有根的系統(tǒng)發(fā)育樹(shù),使用OrthoFinder復(fù)制損失合并模型進(jìn)行解析。
3.物種樹(shù)(Species Tree):從所有直系同源群推斷出的STAG物種樹(shù),包含內(nèi)部節(jié)點(diǎn)上的STAG支持值,并以STRIDE為根(-M dendroblast)。
大部分都是摘抄的,記錄有錯(cuò)的地方,麻煩批評(píng)指正了。
看得頭暈,挺多還沒(méi)理解,后面弄WGD再來(lái)看看
聲明:本篇多為資料整理總結(jié),僅用于自學(xué)記錄,侵刪,謝謝。感謝作者大大們分享:
OrthoFinder????https://github.com/davidemms/OrthoFinder
xuzhougeng????http://www.itdecent.cn/p/16e0bbb2ba19
濃香鴨腿面????https://blog.csdn.net/sinat_41621566/article/details/112320002
bclhx????火星的后裔????https://mp.weixin.qq.com/s/Jny5cTHqQh9yQx-cKQTWbA#tocbar--ebkh9l
生信技術(shù)????https://mp.weixin.qq.com/s/eeaTOQUHh6zuhYbbLA_Lnw