序言
大晚上的不知道干些啥好,想起了之前積累的一個(gè)小小的問(wèn)題。
這里搜一下資料,快速的整理出一小篇文章好了~
內(nèi)容大概就是 N種phylogenetic tree上不同的數(shù)字

基本的系統(tǒng)發(fā)育樹(shù)
系統(tǒng)發(fā)育樹(shù)大概是最最常見(jiàn)的一個(gè)結(jié)果圖了,大家都知道樹(shù)長(zhǎng)什么樣,但是卻不一定知道上面的數(shù)字意義是什么。又或者只知道其中的幾種。

以上的樹(shù)結(jié)構(gòu),算是比較常見(jiàn)的一種,一般也會(huì)有圖例表示,多長(zhǎng)的長(zhǎng)度代表多遠(yuǎn)的距離,所以甚至?xí)?strong>不標(biāo)記任何的數(shù)字,因?yàn)橹чL(zhǎng)(branch length)本身就攜帶了大量的信息。
那么如何閱讀一棵樹(shù)的信息呢,上圖也寫的比較清楚。物種A與物種B的距離就是AA+BB,至于這個(gè)支長(zhǎng)是什么,下文再去說(shuō)有哪些測(cè)度(metrics)可以用以表征這個(gè)相似度,但是總的而言,如果需要比較兩個(gè)物種的距離,即支長(zhǎng)的不斷相加。
樹(shù)是什么?
如果要我解釋的話。
樹(shù)就是距離矩陣的可視化結(jié)果
每個(gè)葉子節(jié)點(diǎn)就是距離矩陣的橫軸或者縱軸,由于樹(shù)上每?jī)蓚€(gè)葉子節(jié)點(diǎn)間都可以兩兩到達(dá),結(jié)合上述的物種的距離,最后就會(huì)得到一個(gè)距離矩陣,而一個(gè)距離矩陣卻可以得到多個(gè)樹(shù)的結(jié)果。(取決于 有/無(wú)根 樹(shù)的畫法等)
數(shù)字的定義

上述的定義,其實(shí)也可以看這篇文獻(xiàn)的原始的legend。首先斜杠不代表除法,僅僅代表或的意思。左側(cè)貝葉斯后驗(yàn)概率的百分比,右側(cè)是通過(guò)bootstrap進(jìn)行計(jì)算的百分比,簡(jiǎn)單點(diǎn)說(shuō),兩個(gè)都是代表了這個(gè)node以下的樹(shù)結(jié)構(gòu)的可靠程度。
關(guān)于bootstrap的計(jì)算,可以參考Bootstrapping phylogenetic Trees: theory and methods

標(biāo)在Node(頂點(diǎn))上的數(shù)字,大多為置信程度,代表該node以下的樹(shù)結(jié)構(gòu)的可靠程度 (A圖)
標(biāo)在邊上的數(shù)字,則為支長(zhǎng)的具體數(shù)值。(B圖)
建樹(shù)的方法
雖然建樹(shù)的標(biāo)準(zhǔn)有很多,但是概括來(lái)說(shuō),phylogenetic tree的方法有三種
1. Parsimony (簡(jiǎn)約法)
將需要比較的東西進(jìn)行 binary(二元)化,例如有無(wú)毛發(fā),有無(wú)皮膚等基于特征的方法。

為什么叫簡(jiǎn)約法?
就是因?yàn)槎螅ㄟ^(guò)層次遞進(jìn),就可以推導(dǎo)出共同祖先。即用最少的信息即可描述子節(jié)點(diǎn)的過(guò)程。
2. Distance Matrix based
基于距離矩陣,有距離矩陣就有樹(shù)。。。如上
3. Maximum likelihood(最大似然)
通過(guò)最大似然的估算,一個(gè)很長(zhǎng)的貝葉斯概率計(jì)算,通過(guò)最大化結(jié)果,從而得到樹(shù)

結(jié)尾
。。。這是篇很簡(jiǎn)單以及很水的文章(畢竟只花了1h不到。。),希望大家也可以1分鐘看完。。
reference
Phylogenetics
PCB_Lect11_Phylogen_Trees.pdf
youtube Maximum likelihood for phylogenetic tree reconstruction