系統(tǒng)發(fā)育樹入門 筆記

找到一篇進化樹科普文章,Phylogeny for the faint of heart:a tutorial? ?作者Sandra L. Baldauf? 英語賊爛看得慢,挑了下重點翻譯了一下,還有些術語不知道中文,有些地方可能有錯(自學剛入門〒▽〒)。原文內容包括如何解讀樹、整合數(shù)據(jù)、多序列比對、樹構建方法、bootstrap analysis、長分支工件、一些軟件資源;原文鏈接見文末。

系統(tǒng)發(fā)育學是一門基于DNA或蛋白質序列的比較來估計進化歷史的科學,建于分子系統(tǒng)學理論基礎之上。

系統(tǒng)發(fā)育樹又名分子進化樹。

一些術語??

圖1 進化樹的基本元素

進化樹可由multigene families(多基因家族?)或者來自多個分類群的單基因繪成,又或者兩者的結合。前者的內部節(jié)點(nodes)對應于一次次基因的復制,后者對應于物種的形成。

圖2 單系(全系),副系和‘多系’monophyletic (holophyletic), paraphyletic and‘polyphyletic’

Groups

一個節(jié)點及其產生的一切都是一個“支系(monophyletic group)”或“單系群”。單系類群是一個自然類群;所有成員都來自唯一的共同祖先(相對于樹的其余部分),并從該祖先那里繼承了一組獨特的共同特征。

一個不包括一些后代的群體是一個“副系(paraphyletic group)”(例如動物不包括人類)。

許多遠親OTU(OTU??見文末)的“大雜燴”,可能外表相似或保留了相似的原始特征,構成一個“多系(polyphyletic group)”。

Trees

節(jié)點的寬度沒有任何意義,只是為了調整寬度使各分支間距均勻。所有分支也可繞著節(jié)點自由旋轉,因此一棵樹可以呈現(xiàn)出各種形狀。

圖3 各種形狀的樹。其中f是無根樹

分支的長度對應于兩個節(jié)點之間的進化量(大致為序列差異的百分比)。因此,分支越長,兩個節(jié)點上的序列就分歧越大(高度進化)。也有進化樹為“分支圖(cladograms)”形式,僅顯示分枝,分支長度無意義(圖3g),但不常見。

Roots

系統(tǒng)發(fā)育樹的底部是它的“根”。最古老的點,共同的祖先。如何確定一個根?用outgroup(外類群),一個外部參照點。

Homology

同源序列:來源于共同祖先的相似的序列。同源只是對基因序列的定性。同源序列類型可分為直系同源(Orthologs?)旁系同源(Paralogs)。

直系同源:描述在不同物種中來自于共同祖先的基因。Orthologous基因可能有相同的功能,也可能沒有;它們是嚴格垂直傳播的(父母傳給后代),因此它們的系統(tǒng)發(fā)育可以追溯到它們的宿主譜系。

旁系同源:描述在同一物種內由于基因復制而分離的同源基因。是多基因家族的成員,通過基因復制而產生。我個人理解,旁系同源應該就是高中生物所說的同源基因,比如紅眼果蠅和白眼果蠅吧?(?ω?)。

(a)旁系同源基因是由基因復制事件產生的?;騒在物種A和B的共同祖先中復制,產生了兩個相似的基因,X和X'。所有后續(xù)物種都繼承了該基因的兩個拷貝(除非其中一個在途中的某個地方丟失了)。(b)X/X'基因家族的系統(tǒng)發(fā)育分析給出了兩個平行的系統(tǒng)發(fā)育樹?;騒的所有序列都是相互直系同源的,基因X'的所有序列也都是彼此直系同源的。然而,X和X'是旁系同源關系。X和X‘’子樹都顯示了這三個物種之間的真實關系。這些子樹也是彼此的自然外群(outgroup),因此每個子樹都互相是root。(c)如果X/X'基因家族的樹沒有包含所有序列(因為采樣不完整或基因丟失),則可能會產生誤導。如果折斷的樹枝不見了,那么真實的物種關系就被歪曲了。


一般建樹流程?

原文基本方法、原理都有講;B站上東大生信課也有詳細補充(見文末)

1.數(shù)據(jù)收集:可以從網站上找。原文有基因庫網站、搜索引擎等的列舉。

2.多序列比對:問題的核心。

3.建樹。系統(tǒng)進化分析的時候常常是基于某個基因的序列進行分析,通過堿基的變化和差異計算相互之間的進化關系。既然涉及到計算,自然就各種各樣的算法:(1)基于距離的方法(neighbor-joining就是一種常用的算法,簡稱NJ,用它計算出來的系統(tǒng)發(fā)育樹就叫NJ樹)(2)最大簡約法(MP)(3)最大似然法(ML)(4)貝葉斯? ? ? ?從1-4,計算速度下降,精讀提高。

可以想象成對花園中的花進行進化分類。你可以從計算花瓣、萼片和雄蕊等的數(shù)量開始——這就是你的數(shù)據(jù)集。如果你使用距離的方法,你可以簡單地根據(jù)它們共有的特征數(shù)量來對你的花進行排序;一系列共有特征最相似的花被認為是關系最密切的。

4.測試:系統(tǒng)發(fā)育準確性最簡單的測試是自舉(bootstrap),它是系統(tǒng)發(fā)育準確性的一般衡量標準,70%或更高的值可能表示可靠的分組。此外還有個“Long-branch attraction”問題...

5.數(shù)據(jù)呈現(xiàn)。樹美化推薦網站iTOL,對新手很友好(比如我),不會編程都能上手。

參考:

1.B站的東大生信課:https://www.bilibili.com/video/av59701475

2.有關同源序列:Orthology, paralogy and proposed classification for paralog subtypes

?http://www.sciencedirect.com/science/article/pii/S0168952502027932?PloBhttp://www.sciencedirect.com/science/article/pii/S0168952502027932

3.Phylogeny for the faint of heart:a tutorial

http://www.sciencedirect.com/science/article/pii/S0168952503001124

4.OTU科普:https://www.linkedin.com/pulse/%E5%BE%AE%E7%94%9F%E7%89%A9%E5%A4%9A%E6%A0%B7%E6%80%A7%E5%88%86%E6%9E%90otu%E8%81%9A%E7%B1%BB%E4%B8%8E%E6%B3%A8%E9%87%8A-jiarui-sun?articleId=6557075596340490240

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容